Jadi pada kuliah kali ini mata kuliah aljabar linear yang di bawakan 0leh bapak Natalis Ransi, S.Si., M.Cs. membahas tentang pengunaan model ruang vektor Model ruang vektor (vector space model) adalah pendekatan matematis yang digunakan secara luas dalam bidang pemrosesan informasi dan penambangan teks, terutama dalam sistem pencarian informasi (information retrieval). Model ini merepresentasikan dokumen dan kueri sebagai vektor dalam ruang berdimensi banyak.
Model ruang vektor adalah pendekatan representasi data dalam bentuk vektor berdimensi banyak yang digunakan secara luas dalam bidang pemrosesan bahasa alami (NLP), khususnya dalam sistem temu kembali informasi atau pencarian dokumen. Dalam model ini, setiap dokumen atau kueri dipetakan sebagai sebuah vektor dalam ruang multidimensi, di mana setiap dimensi merepresentasikan sebuah kata unik (term) yang terdapat dalam keseluruhan korpus atau koleksi dokumen. Nilai pada masing-masing dimensi biasanya menunjukkan bobot atau pentingnya kata tersebut dalam dokumen tertentu, dan bobot ini sering kali dihitung menggunakan metode Term Frequency-Inverse Document Frequency (TF-IDF). TF mencerminkan seberapa sering suatu kata muncul dalam dokumen, sedangkan IDF mencerminkan seberapa jarang kata tersebut muncul dalam keseluruhan dokumen, sehingga gabungan keduanya memberi penilaian yang seimbang antara frekuensi lokal dan global dari sebuah kata.
Dilanjutkan dengan contoh penerapannya, termasuk persamaan yang digunakan untuk kasus yang dimaksud. Berikut rangkuman materi yang saya bawakan
- Defenisi ruang vektor
- mengukur kemiripan dokumen menggunakan cosine similarity
- langkah umum penerapan ruang vektor untuk kemiripan dokumen
- contoh kasus
- interpretasi hasil
Jadi judul yang saya ambil dari jurnal ialah pemanfaatan sistem temu kembali informasi dalam pencarian dokumen menggunakan metode vektor space model. berikut adalah sebagian isi jurnal tersebut:
ABSTRAK:
Seiring banyaknya dokumen menyebabkan berkembangnya teknologi, penyimpanan dokumen dalam bentuk file semakin banyak digunakan. Akan tetapi, file-file dokumen tersebut akan terus bertambah setiap harinya dan untuk mencari informasi dari isi file-file tersebut akan menjadi sulit. Untuk itu perlu diterapkannya metode ilmu pencarian yang dikenal dengan temu kembali informasi (Information Retrieval). Salah satunya metode dalam sistem temu kembali adalah Vector Space Model. Pada metode VSM sebelum melakukan pencarian dokumen akan dilakukan indexing dengan memecah isi teks dari dokumen-dokumen tersebut menjadi index term. Index term ini yang akan digunakan untuk proses pencarian. Proses pembentukan index term dari teks yang terdapat di dalam dokumen akan melalui beberapa tahapan yaitu parsing, text preprocessing , penghitungan bobot , dan juga pengukuran kesamaan (Similarity Measure).
pendahuluan:
Perkembangan jaman hingga saat ini sangat berdampak besar terhadap kehidupan sekarang. Salah satu hal yang berubah adalah cara menggunakan data sebagai informasi pada era big data sekarang ini. Dengan semakin banyaknya jumlah dokumen yang beredar saat ini menimbulkan sebuah masalah untuk melakukan pencarian yang diinginkan dengan cepat dan akurat baik pada media online melalui internet (search engine,e-library) ataupun offline (sistem penyimpanan pada komputer). meskipun saat ini beberapa e-library sudah menerapkan algoritma untuk pencariannya seperti algoritma boolean search namun hal itu belum cukup akurat untuk proses pencarian karena tidak dapat mengenali dokumen-dokumen yang paling relevan atau cukup relevan (pure exact match).
Salah satu metode dalam temu balik informasi (Information Retrieval) untuk mendapatkan dokumen yang relevan berdasarkan query adalah Vector Space Model. Vector Space Model (VSM) adalah metode untuk mengetahui tingkat kedekatan atau kesamaan (similarity) term dengan cara pembobotan term. Dokumen dipandang sebagai sebuah vektor yang memiliki magnitude (jarak) dan direction (arah). Metode Vector Space Model ini merepresentasikan suatu dokumen dan query dalam sebuah bentuk vektor. Rlevansi sebuah dokumen ke sebuah query didasarkan pada kesamaan di antara vektor dokumen dan vektor query. Dalam merepresentasikan dalam sebuah vektor dibutuhkan bobot term dari dokumen ataupun query. Term dapat berupa kata, frase, atau unit hasil indexing lain dalam suatu dokumen sebagai gambaran dari isi setiap dokumen tersebut.
Pada sistem temu kembali dokumen dan juga query user akan dilakukan text preprocessing dan juga pembobotan (Weighting) untuk memperoleh nilai kemiripannya. Text preprocessing pada dokumen akan disimpan dalam database yang berupa index term. Hal ini dilakukan untuk membuat prosess pencarian kembali lebih efisien.
Information Retrieval adalah aktifitas utama yang dilakukan oleh sebuah penyedia informasi atau pusat pelayanan informasi, termasuk perpustakaan dan jenis dari layanan lainnya yang menyediakan informasi. Sistem temu kembali informasi tidak memberitahu (yakni tidak mengubah pengetahuan) pengguna mengenai masalah yang ditanyakannya. Sistem tersebut hanya memberitahukan keberadaan (atau ketidakberadaan) dan keterangan dokumen-dokumen yang berhubungan dengan permintaannya.
Pada Information Retrieval System terdapat beberapa metode yang digunakan dalam prosess pencarian salah satunya adalah dengan merepresentasikan proses pencarian adalah menggunakan model ruang vektor. Model ruang vektor dibuat berdasarkan pemikiran bahwa isi dari dokumen ditentukan oleh kata-kata yang digunakan dalam dokumen tersebut. Model ini menentukan kemiripan (similarity) antara dokumen dengan query dengan cara merepresentasikan dokumen dan query masing-masing ke dalam bentuk vektor. Tiap kata yang ditemukan pada dokumen dan query diberi bobot dan disimpan sebagai salah satu elemen vektor.
Gambar 2. Illustrasi Dokumen dan Query dalam ruang vektor
Text preprocessing atau sering disebut juga proses indexing, merupakan tahapan awal pada proses merepresentasikan koleksi dokumen kedalam bentuk tertentu untuk memudahkan dan mempercepat proses pencarian dan penemuan kembali dokumen yang relevan. Pembangunan index dari koleksi dokumen merupakan tugas pokok pada tahapan preprocessing di dalam IR. Kualitas index mempengaruhi efektifitas dan efisiensi sistem IR.
METODE YANG DI GUNAKAN:
Metode TF-IDF merupakan metode pembobotan term yang banyak digunakan sebagai metode pembanding terhadap metode pembobotan baru. Pada metode ini, perhitungan bobot term t dalam sebuah dokumen dilakukan dengan mengalikan nilai Term Frequency dengan Inverse Document Frequency. 𝑊=𝑡𝑓𝑖𝑗×𝑖𝑑𝑓𝑗 𝑊=𝑡𝑓𝑖𝑗×log(𝐷𝑑𝑓𝑖)
Vector Space Model dan pembobotan TF-IDF digunakan untuk merepresentasikan nilai numerik dokumen sehingga kemudian dapat dihitung kedekatan antar dokumen. Semakin dekat dua vektor di dalam suatu VSM maka semakin mirip dua dokumen yang diwakili oleh vektor tersebut. Kemiripan antar dokumen dihitung menggunakan suatu fungsi ukuran kemiripan (similarity measure). Ukuran ini memungkinkan perankingan dokumen sesuai dengan kemiripan relevansinya terhadap query.
PERANCANGAN PROSES:
Pada perancangan proses dilakukan untuk menjelaskan bagaimana proses yang dikerjakan sistem dalam melakukan pencarian dokumen terhadap query dari user. Data yang digunakan dokumen file digital dengan ekstensi *.pdf. Proses awal dalam pencarian dokumen adalah melakukan indexing (text preprocessing) untuk mendapatkan bobot dari koleksi dokumen dan juga query pencarian dari user
kesimpulan:
Pemanfaatan sistem temu kembali pada proses pencarian yang telah dibuat telah dapat mencari file dokumen berdasarkan isi dokumen.
1. Hasil pencarian dokumen pada sistem dapat mengembalikan hampir semua dokumen yang relevan jika dokumen tersebut ada. (recall = 1)
2. Hasil pengujian didapatkan nilai precision yang rendah hal ini dipengaruhi oleh banyaknya variasi term dalam data karena sistem melakukan indexing dari semua kata yang ada dalam dokumen. Semakin banyak term yang dihasilkan sebuah dokumen dalam proses indexing maka semakin sering dokumen tersebut dikembalikan oleh sistem terhadap query yang sebenarnya kurang relevan (low precision). Tetapi hasil tersebut telah diatasi pada sistem dengan memberi nilai threshold pada nilai perhitungan kemiripan (similarity).
3. Term frequency dan Inverse document frequency berperan penting dalam hasil perangkingan dokumen yang dikembalikan. Dengan kata lain hasil rangking dokumen sangat dipengaruhi oleh data term pada dokumen dan juga query.
Follow Instagram @kompasianacom juga Tiktok @kompasiana biar nggak ketinggalan event seru komunitas dan tips dapat cuan dari Kompasiana. Baca juga cerita inspiratif langsung dari smartphone kamu dengan bergabung di WhatsApp Channel Kompasiana di SINI