Untuk ulasan di Steam, prosesnya lebih mudah: Steam sudah memberi tanda Thumbs Up (positif) dan Thumbs Down (negatif), jadi saya tinggal mengikuti metadata itu.
Label sentimen ini lalu saya ubah ke bentuk angka: 1 untuk positif, 0 untuk negatif. Ini diperlukan agar bisa diproses oleh model machine learning.
Membersihkan dan Menyiapkan Data
Sebelum model bisa bekerja, data perlu "dipersiapkan". Ini mirip seperti menyaring kopi sebelum diseduh. Saya melakukan:
Tokenisasi (memecah teks jadi potongan-potongan kata),
Padding dan truncation agar semua teks punya panjang seragam (maksimal 128 kata),
Attention masking, yang membantu model fokus pada bagian penting dari teks.
Semua ini dilakukan dengan bantuan pustaka transformers dari Hugging Face, yang sudah sangat populer di kalangan peneliti AI.
Melatih Model DistilBERT
Setelah data siap, saya melatih model DistilBERT menggunakan: