Apa yang Ditulis Kompasianer di Minggu Pagi Ini

Ketika kita memiliki dokumen teks yang jumlahnya banyak, misalnya kumpulan artikel di Kompasiana, maka salah satu hal yang bisa dilakukan adalah mencari topik apa yang sedang dibahas atau ditulis oleh sebagian besar kompasianer. Metode yang dilakukan adalah dengan membaca artikel tersebut satu-per-satu sehingga kita bisa memahami ide atau informasi apa saja yang sedang kompasianer tuliskan atau bagikan kepada seluruh pembaca.

Hal lain yang bisa dilakukan adalah dengan menggunakan bantuan komputer. misalnya dengan mengekstrak frekuensi kemunculan setiap kata pada kumpulan dokumen teks yang kita miliki.

Pada tulisan singkat ini, penulis ingin memberikan hasil "riset kecil" penerapan metode data mining yang dapat dilakukan untuk membantu memahami topik apa saja yang sering ditulis oleh kompasianer pada periode waktu tertentu. Metode ini lebih spesifik dikenal dengan nama text mining. Tujuan utamanya membantu kita memahami data yang kita miliki melalui output berupa pola. Salah satu pola yang bisa dapat dari metode ini adalah pola frekuensi kemuncul setiap kata. Sehingga kita bisa memfilter kata apa saja yang memiliki frekuensi tinggi dari semua kata yang digunakan.

Pada "riset kecil" ini digunakan 64 artikel yang ditayangkan oleh kompasiana tanggal 8 November 2020 pukul 07.00 - 09.00 WITA. Kumpulan artikel tersebut diolah dengan urutan sebagai berikut:

Mengumpulkan 64 Artikel dalam 1 (satu) file text
Melakukan segmentasi dengan memisahkan setiap kata, hasilnya diperoleh 25.837 kata
Melakukan transformasi, tokenisasi dan filtering, hasilnya diperoleh terdapat 13.654 token, dimana terdapat 4.848 token/kata yang unik
Mengambil token/kata yang paling sering muncul, diperoleh 3.159 token yang terdiri dari 100 kata yang unik. beberapa referensi mengebutkan 100 kata ini sebagai corpus.
Melakukan Visualiasi dengan word Cloud. Hasilnya dapat dilihat pada Gambar 1.

Penulis menggunakan Aplikasi Orange 3 untuk membantu menerapkan pengolahan data menurut urutan yang telah disebutkan. Berikut work flow pada yang penulis gunanakan.

Gambar 2. Model Fork Flow Penelitian dengan Orange 3

Berdasarkan gambar 1 diperoleh informasi bahwa kata "keluarga", "biden", "masyarakat", "kades", "orang", "manusia" adalah beberapa kata yang frekuensi kemunculannya lebih banyak dibandingkan kata yang lain. Dalam hal ini kata-kata tersebut paling sering muncul di artikel kompasiana di Minggu pagi ini. Semoga tulisan singkat ini bisa memberi manfaat.

Salam

Natalis Ransi

Mohon tunggu...

Lihat Ilmu Alam & Tekno Selengkapnya

Beri Komentar

Belum ada komentar. Jadilah yang pertama untuk memberikan komentar!

Apa yang Ditulis Kompasianer di Minggu Pagi Ini

ilmualamteknologi

datamining

text mining

orange3

ilmu alam teknologi

ruang kelas

Artikel Lainnya

LAPORKAN KONTEN

Kebiasaan Pagi Orang Sukses: Apa yang Bisa Kita Pelajari?

Malam Minggu yang Mengubah Segalanya

Malam Minggu di Bogowonto Culinary Center, Apa yang Unik?

Hari ini Saya menjadi Kompasianer "Fanatik"

Keluargaku di Hari Minggu

Minggu Pagi yang Gerimis

Apa yang Ditulis Kompasianer di Minggu Pagi Ini

ilmualamteknologi

datamining

text mining

orange3

ilmu alam teknologi

ruang kelas

Artikel Lainnya

LAPORKAN KONTEN