Mohon tunggu...
Natalis Ransi
Natalis Ransi Mohon Tunggu... Mahasiswa - learn and share

Iman, pengharapan dan kasih...

Selanjutnya

Tutup

Ilmu Alam & Tekno

Apa yang Ditulis Kompasianer di Minggu Pagi Ini

8 November 2020   09:46 Diperbarui: 8 November 2020   10:33 177
+
Laporkan Konten
Laporkan Akun
Kompasiana adalah platform blog. Konten ini menjadi tanggung jawab bloger dan tidak mewakili pandangan redaksi Kompas.
Lihat foto
Gambar 1. Hasil Penelitian

Ketika kita memiliki dokumen teks yang jumlahnya banyak, misalnya kumpulan artikel di Kompasiana, maka salah satu hal yang bisa dilakukan adalah mencari topik apa yang sedang dibahas atau ditulis oleh sebagian besar kompasianer. Metode yang dilakukan adalah dengan membaca artikel tersebut satu-per-satu sehingga kita bisa memahami ide atau informasi apa saja yang sedang kompasianer tuliskan atau bagikan kepada seluruh pembaca.

Hal lain yang bisa dilakukan adalah dengan menggunakan bantuan komputer. misalnya dengan mengekstrak frekuensi kemunculan setiap kata pada kumpulan dokumen teks yang kita miliki.

Pada tulisan singkat ini, penulis ingin memberikan hasil "riset kecil" penerapan metode data mining yang dapat dilakukan untuk membantu memahami topik apa saja yang sering ditulis oleh kompasianer pada periode waktu tertentu. Metode ini lebih spesifik dikenal dengan nama text mining. Tujuan utamanya membantu kita memahami data yang kita miliki melalui output berupa pola. Salah satu pola yang bisa dapat dari metode ini adalah pola frekuensi kemuncul setiap kata. Sehingga kita bisa memfilter kata apa saja yang memiliki frekuensi tinggi dari semua kata yang digunakan.

Pada "riset kecil" ini digunakan 64 artikel yang ditayangkan oleh kompasiana tanggal 8 November 2020 pukul 07.00 - 09.00 WITA. Kumpulan artikel tersebut diolah dengan urutan sebagai berikut:

  1. Mengumpulkan 64 Artikel dalam 1 (satu) file text
  2. Melakukan segmentasi dengan memisahkan setiap kata, hasilnya diperoleh 25.837 kata
  3. Melakukan transformasi, tokenisasi dan filtering, hasilnya diperoleh terdapat 13.654 token, dimana terdapat 4.848 token/kata  yang unik
  4. Mengambil token/kata yang paling sering muncul, diperoleh 3.159 token yang terdiri dari 100 kata yang unik. beberapa referensi mengebutkan 100 kata ini sebagai corpus.
  5. Melakukan Visualiasi dengan word Cloud. Hasilnya dapat dilihat pada Gambar 1. 

Penulis menggunakan Aplikasi Orange 3 untuk membantu menerapkan pengolahan data menurut urutan yang telah disebutkan. Berikut work flow pada yang penulis gunanakan.

Gambar 2. Model Fork Flow Penelitian dengan Orange 3
Gambar 2. Model Fork Flow Penelitian dengan Orange 3

Berdasarkan gambar 1 diperoleh informasi bahwa kata "keluarga", "biden", "masyarakat", "kades", "orang", "manusia"  adalah beberapa kata yang frekuensi kemunculannya lebih banyak dibandingkan kata yang lain. Dalam hal ini kata-kata tersebut paling sering muncul di artikel kompasiana di Minggu pagi ini. Semoga tulisan singkat ini bisa memberi manfaat.

Salam

Natalis Ransi

Mohon tunggu...

Lihat Konten Ilmu Alam & Tekno Selengkapnya
Lihat Ilmu Alam & Tekno Selengkapnya
Beri Komentar
Berkomentarlah secara bijaksana dan bertanggung jawab. Komentar sepenuhnya menjadi tanggung jawab komentator seperti diatur dalam UU ITE

Belum ada komentar. Jadilah yang pertama untuk memberikan komentar!
LAPORKAN KONTEN
Alasan
Laporkan Konten
Laporkan Akun