Mohon tunggu...
DWI YUNI SARASWATI
DWI YUNI SARASWATI Mohon Tunggu... Mahasiwa Teknologi Informasi

Fakultas Sains dan Teknologi UIN Walisongo Semarang

Selanjutnya

Tutup

Pendidikan

Mana yang Paling Akurat? Membandingkan 5 Metode Klasifikasi Sentimen untuk Menganalisis Ulasan Aplikasi "Cici-Your AI Assistant"

14 Juni 2025   13:06 Diperbarui: 14 Juni 2025   13:13 186
+
Laporkan Konten
Laporkan Akun
Kompasiana adalah platform blog. Konten ini menjadi tanggung jawab bloger dan tidak mewakili pandangan redaksi Kompas.
Lihat foto
Pendidikan. Sumber ilustrasi: PEXELS/McElspeth

Di era digital, opini pengguna terhadap sebuah aplikasi dapat dengan mudah ditemukan melalui ulasan di platform seperti Google Play Store. Ulasan-ulasan ini tidak hanya mencerminkan kepuasan pengguna, tetapi juga menyimpan informasi berharga yang bisa dimanfaatkan untuk pengembangan layanan. Namun, bagaimana caranya menyaring ribuan komentar tersebut dan mengetahui apakah pengguna merasa puas atau justru kecewa?

Di sinilah peran analisis sentimen menjadi penting. Analisis sentimen adalah teknik dalam pemrosesan bahasa alami (Natural Language Processing/NLP) yang digunakan untuk mengidentifikasi dan mengklasifikasikan opini atau perasaan seseorang terhadap suatu objek berdasarkan teks. Tujuannya adalah untuk mengetahui apakah suatu kalimat bersifat positif, negatif, atau netral. Teknologi ini banyak dimanfaatkan oleh perusahaan, peneliti, dan pengembang produk untuk memahami suara konsumen secara otomatis dan efisien.

Dalam tulisan ini, penulis mencoba melakukan eksperimen sederhana dengan menganalisis ulasan pengguna terhadap aplikasi “Cici Your AI Assistant” menggunakan lima metode klasifikasi yang populer dalam pembelajaran mesin, yaitu: Naive Bayes, Logistic Regression, Support Vector Machine (SVM), Decision Tree, dan Random Forest. Analisis ini bertujuan untuk mengetahui metode mana yang paling efektif dalam membaca dan memahami sentimen pengguna dari teks ulasan mereka.

📚 Sekilas Teori: Mengenal Metode Klasifikasi Teks

Sebelum masuk ke hasil eksperimen, mari kenalan dulu secara singkat dengan lima algoritma yang digunakan. Kelimanya termasuk dalam kategori machine learning supervised learning, artinya model dilatih dari data berlabel (positif/negatif).

  1. Naïve Bayes

Merupakan metode klasifikasi berbasis probabilistik yang mengasumsikan independensi antar fitur. Meski sederhana, algoritma ini efisien dan cukup akurat dalam tugas klasifikasi teks seperti analisis sentimen.

  1. Logistic Regression

Model linier yang memprediksi probabilitas suatu data termasuk dalam kelas tertentu. Cocok untuk data teks berdimensi tinggi dan sering digunakan karena kestabilannya.

  1. Support Vector Machine (SVM)

Algoritma yang mencari batas pemisah terbaik (hyperplane) antara dua kelas. Efektif untuk data teks karena mampu bekerja di ruang fitur kompleks dan meminimalkan kesalahan klasifikasi.

  1. Decision Tree

Membentuk struktur pohon berdasarkan fitur untuk menentukan kelas. Mudah dipahami namun rentan terhadap overfitting jika tidak dikontrol dengan baik.

  1. Random Forest

Gabungan dari banyak Decision Tree yang dilatih secara acak. Lebih akurat dan stabil karena mengurangi overfitting melalui pendekatan ensemble learning.


🔍 Metodologi: Dari Ulasan Mentah hingga Prediksi Sentimen

Eksperimen ini dilakukan secara sistematis melalui enam tahapan utama:

1. Pengumpulan Data

Data dikumpulkan dari platform Google Play Store dengan mengambil ulasan pengguna terhadap aplikasi “Cici Your AI Assistant”. Data tersebut kemudian disimpan dalam format terstruktur untuk keperluan analisis lanjutan.

2. Pelabelan Data

Setiap ulasan yang terkumpul diberi label sentimen secara manual menjadi dua kategori utama, yaitu positif dan negatif, berdasarkan isi atau nada dari komentar. Proses ini dilakukan untuk membuat dataset latih yang valid dan terstandar.

3.  Preprocessing

Data ulasan kemudian dibersihkan melalui beberapa tahapan seperti:

  • Menghapus tanda baca dan karakter non-alfabet
  • Mengubah semua huruf menjadi huruf kecil (lowercasing)Menghapus stopwords (kata-kata umum yang tidak memberikan makna spesifik, seperti “dan”, “yang”, “adalah”)
  • Melakukan tokenisasi, yaitu memisahkan kalimat menjadi kata-kata

Langkah ini bertujuan untuk mempersiapkan data agar lebih mudah dianalisis oleh model.

4. Pemisahan Data

Dataset kemudian dibagi menjadi dua bagian:

  • Data latih (training set) sebesar 80%
  • Data uji (testing set) sebesar 20%

Pemisahan ini bertujuan agar model dapat belajar dari sebagian data, lalu diuji performanya terhadap data yang belum pernah dilihat sebelumnya.

5. Pembobotan TF-IDF

Setiap ulasan dikonversi ke dalam bentuk vektor numerik menggunakan teknik TF-IDF (Term Frequency - Inverse Document Frequency). TF-IDF menghitung pentingnya suatu kata dalam sebuah ulasan relatif terhadap keseluruhan korpus, sehingga model dapat mengenali kata-kata kunci yang berpengaruh terhadap klasifikasi sentimen.

6. Klasifikasi Sentimen

Data yang telah dikonversi dengan TF-IDF kemudian diproses menggunakan lima algoritma klasifikasi, yaitu:

  • Naive Bayes
  • Logistic Regression
  • Support Vector Machine (SVM)
  • Decision Tree
  • Random Forest

Tujuannya adalah untuk membandingkan performa masing-masing algoritma dalam mengklasifikasikan sentimen ulasan.

7. Evaluasi Performa

Model diuji berdasarkan akurasi, yaitu rasio prediksi benar terhadap total data uji. Ini adalah metrik evaluasi yang mudah dipahami dan cukup representatif dalam konteks klasifikasi biner seperti ini.

📊 Hasil: Metode Mana yang Unggul?

Berikut hasil eksperimen yang diperoleh:

MetodeAkurasi

Naive Bayes

HALAMAN :
  1. 1
  2. 2
  3. 3
Mohon tunggu...

Lihat Konten Pendidikan Selengkapnya
Lihat Pendidikan Selengkapnya
Beri Komentar
Berkomentarlah secara bijaksana dan bertanggung jawab. Komentar sepenuhnya menjadi tanggung jawab komentator seperti diatur dalam UU ITE

Belum ada komentar. Jadilah yang pertama untuk memberikan komentar!
LAPORKAN KONTEN
Alasan
Laporkan Konten
Laporkan Akun