Mohon tunggu...
L. T. Handoko
L. T. Handoko Mohon Tunggu... Ilmuwan - Periset

Saya hanya seorang peneliti biasa yang penuh dengan rasa keingintahuan dan obsesi untuk membuat aneka invensi dalam riset bersama grup kecil saya di LIPI yang kemudian diintegrasikan ke BRIN. Info detail silahkan kunjungi http://lt.handoko.id.

Selanjutnya

Tutup

Pendidikan

Algoritma pohon batang untuk robot pemanen informasi daring

28 Mei 2011   15:57 Diperbarui: 26 Juni 2015   05:06 158
+
Laporkan Konten
Laporkan Akun
Kompasiana adalah platform blog. Konten ini menjadi tanggung jawab bloger dan tidak mewakili pandangan redaksi Kompas.
Lihat foto
Gadget. Sumber ilustrasi: PEXELS/ThisIsEngineering

[caption id="attachment_141820" align="alignright" width="300" caption=""][/caption]

Sempat hampir terlupa, saya diingatkan oleh satu pesan internal di forum grup kecil saya (GFTK LIPI) di Intra LIPI. Pesan tersebut ditulis oleh Zaenal Akbar yang saat ini sedang melanjutkan riset di Kontanz University, Jerman, bahwa salah satu paper kami telah terbit [1]. Paper tersebut memuat riset kecil kami berdua terkait algoritma pemanenan data situs secara otomatis (web harvesting) pada periode 2009 [2].

Penelitian kecil tersebut merupakan awal saya belajar "agak serius" masalah akuisisi data dari halaman situs secara daring dan melakukan proses rekonstruksi database sesuai dengan kebutuhan. Kebutuhan yang memotivasi studi ini adalah pengumpulan data-data ilmiah di Indonesia. Usaha ini telah dilakukan dengan cukup sukses oleh grup kami dengan motor utama Hadiyanto sebagai bagian dari proyek Kementerian Riset dan Teknologi (KRT) pada tahun 2007. Proyek ini menghasilkan database nasional dengan tajuk Database Riset, Ilmu pengetahuan dan teknologi (DBRIpTek) [3].

DBRIpTek merealisasikan pengumpulan database dengan pendekatan desentralisasi pengelola di seluruh lembara terkait. Untuk itu diperlukan pelatihan, pembagian akses serta pemantauan proses pemasukan data secara berkesinambungan. Meski pendekatan ini masih lebih baik daripada sistem tersentralisasi dengan metode pengumpulan data secara manual, dengan mudah bisa ditebak bahwa DBRIpTek akhirnya berakhir stagnan dan terhenti setelah proyek usai. Meskipun akses dan koneksi terus dipertahankan sampai saat ini. Ini merupakan kebijakan umum dari pengelola jaringan LIPI sebagai penyedia infrastruktur jaringan.

Robot pemanen informasi situs

Bermula dari pengalaman riil selama proses pengembangan serta pemeliharaan DBRIpTek, muncul gagasan untuk memanfaatkan teknologi web crawling alias akuisisi halaman situs secara otomatis ala mesin pencari Google. Tetapi berbeda dengan mesin pencari yang bersifat general, teknologi yang dikembangkan harus memenuhi kebutuhan pembaruan sarana semacam DBRIpTek.

Beberapa prinsip dasar serta kebutuhan yang mutlak harus dipenuhi adalah :


  • Konten informasi yang diakuisisi bersifat homogen dan fokus. Misal : informasi terkait iptek seperti kasus DBRIpTek.
  • Target akuisisi spesifik dan tidak sebarang situs. Bahkan bila perlu, untuk meningkatkan akurasi, situs target harus ditetapkan secara manual dan melalui proses review. Target spesifik tidak hanya mencakup situs utama, tetapi sampai pada level jenis informasi apa yang akan diakuisisi dari situs tersebut. Sehingga tidak semua halaman di situs tersebut perlu dipanen.
  • Lebih dari sekedar mengambil informasi dari sebuah halaman situs, sistem harus mampu mengambil hanya bagian inti dari halaman situs. Misal untuk kasus halaman yang berisi informasi publikasi pada gambar : bagian inti berupa informasi yang berisi informasi judul, penulis, abstrak dan sejenisnya. Sebaliknya bagian aneka menu, iklan dan sejenisnya harus dibuang.
  • Selanjutnya sistem harus mampu memilah bagian inti tersebut menjadi sub-sub-bagian yang relevan. Misal untuk kasus diatas : bagian judul, penulis, abstrak dan sebagainya.

Dengan sistem diatas, robot akan mampu membuat data terstruktur dalam bentuk database baru sesuai dengan keinginan. Database ini yang kemudian bisa diakses serta dimanfaatkan publik secara daring seperti direalisasikan di Indonesian Scientific Index (ISI) [4]. Seluruh poin diatas mutlak diperlukan untuk menjaga akurasi konten, setidaknya mendekati 95 persen. Berbeda dengan mesin pencari generik seperti Google, tujuan pemanenan situs adalah untuk membuat database topik tertentu. Sehingga apabila database hanya sekedar mengumpulkan hasil pencarian dari seluruh halaman dan bagian-bagiannya, konten tersebut sama sekali tidak bermanfaat. Bayangkan : Anda mencari konten "peneliti fisika" di Google, maka akan ditampilkan banyak sekali halaman yang 90 persen diantaranya sama sekali tidak relevan.[caption id="attachment_141821" align="alignleft" width="300" caption=""][/caption]

Algoritma pohon batang

Dari seluruh kebutuhan di sistem diatas, proses pertama dan kedua dilakukan secara manual, meski cukup hanya satu kali pada saat awal saja. Dalam istilah teknologi informasi (TI) ini biasa disebut sebagai targeted web harvesting, yang merupakan lawan dari general web harvesting seperti Google.

Tantangan dari sistem ini ada di proses ketiga dan keempat. Meski sejauh ini telah banyak algoritma yang dikembangkan untuk melakukan tugas semacam ini, sebagian besar fokus pada proses otomasi "pengenalan konten", dan hanya sebagian kecil yang fokus pada "pengenalan struktur konten". Padahal, seperti dijelaskan diatas, kebutuhan utama untuk sistem semacam DBRIpTek maupun ISI adalah pengenalan struktur konten, karena konten (target pemanenan) telah dipilih sejak awal. Sebagian besar algoritma populer untuk pengenalan struktur konten berbasis Document Object Model (DOM) [5], khususnya DOM tree (pohon DOM), dengan memanfaatkan karakteristik tag pembuka dan penutup dari kode-kode HTML [6]. Sayangnya aneka algoritma ini tidak peka pada perubahan struktur yang terjadi setelah proses inisiasi awal. Sehingga bila suatu saat, misalnya ditambahkan iklan di tengah menu, sistem tidak mampu melakukan antisipasi dan perbaikan.

HALAMAN :
  1. 1
  2. 2
Mohon tunggu...

Lihat Konten Pendidikan Selengkapnya
Lihat Pendidikan Selengkapnya
Beri Komentar
Berkomentarlah secara bijaksana dan bertanggung jawab. Komentar sepenuhnya menjadi tanggung jawab komentator seperti diatur dalam UU ITE

Belum ada komentar. Jadilah yang pertama untuk memberikan komentar!
LAPORKAN KONTEN
Alasan
Laporkan Konten
Laporkan Akun