Pada sistem temu kembali dokumen dan juga query user akan dilakukan text preprocessing dan juga pembobotan (Weighting) untuk memperoleh nilai kemiripannya. Text preprocessing pada dokumen akan disimpan dalam database yang berupa index term. Hal ini dilakukan untuk membuat prosess pencarian kembali lebih efisien.
Information Retrieval adalah aktifitas utama yang dilakukan oleh sebuah penyedia informasi atau pusat pelayanan informasi, termasuk perpustakaan dan jenis dari layanan lainnya yang menyediakan informasi. Sistem temu kembali informasi tidak memberitahu (yakni tidak mengubah pengetahuan) pengguna mengenai masalah yang ditanyakannya. Sistem tersebut hanya memberitahukan keberadaan (atau ketidakberadaan) dan keterangan dokumen-dokumen yang berhubungan dengan permintaannya.
Pada Information Retrieval System terdapat beberapa metode yang digunakan dalam prosess pencarian salah satunya adalah dengan merepresentasikan proses pencarian adalah menggunakan model ruang vektor. Model ruang vektor dibuat berdasarkan pemikiran bahwa isi dari dokumen ditentukan oleh kata-kata yang digunakan dalam dokumen tersebut. Model ini menentukan kemiripan (similarity) antara dokumen dengan query dengan cara merepresentasikan dokumen dan query masing-masing ke dalam bentuk vektor. Tiap kata yang ditemukan pada dokumen dan query diberi bobot dan disimpan sebagai salah satu elemen vektor.
Gambar 2. Illustrasi Dokumen dan Query dalam ruang vektor
Text preprocessing atau sering disebut juga proses indexing, merupakan tahapan awal pada proses merepresentasikan koleksi dokumen kedalam bentuk tertentu untuk memudahkan dan mempercepat proses pencarian dan penemuan kembali dokumen yang relevan. Pembangunan index dari koleksi dokumen merupakan tugas pokok pada tahapan preprocessing di dalam IR. Kualitas index mempengaruhi efektifitas dan efisiensi sistem IR.
METODE YANG DI GUNAKAN:
Metode TF-IDF merupakan metode pembobotan term yang banyak digunakan sebagai metode pembanding terhadap metode pembobotan baru. Pada metode ini, perhitungan bobot term t dalam sebuah dokumen dilakukan dengan mengalikan nilai Term Frequency dengan Inverse Document Frequency. 𝑊=𝑡𝑓𝑖𝑗×𝑖𝑑𝑓𝑗 𝑊=𝑡𝑓𝑖𝑗×log(𝐷𝑑𝑓𝑖)
Vector Space Model dan pembobotan TF-IDF digunakan untuk merepresentasikan nilai numerik dokumen sehingga kemudian dapat dihitung kedekatan antar dokumen. Semakin dekat dua vektor di dalam suatu VSM maka semakin mirip dua dokumen yang diwakili oleh vektor tersebut. Kemiripan antar dokumen dihitung menggunakan suatu fungsi ukuran kemiripan (similarity measure). Ukuran ini memungkinkan perankingan dokumen sesuai dengan kemiripan relevansinya terhadap query.
PERANCANGAN PROSES:
Pada perancangan proses dilakukan untuk menjelaskan bagaimana proses yang dikerjakan sistem dalam melakukan pencarian dokumen terhadap query dari user. Data yang digunakan dokumen file digital dengan ekstensi *.pdf. Proses awal dalam pencarian dokumen adalah melakukan indexing (text preprocessing) untuk mendapatkan bobot dari koleksi dokumen dan juga query pencarian dari user
kesimpulan:
Pemanfaatan sistem temu kembali pada proses pencarian yang telah dibuat telah dapat mencari file dokumen berdasarkan isi dokumen.
1. Hasil pencarian dokumen pada sistem dapat mengembalikan hampir semua dokumen yang relevan jika dokumen tersebut ada. (recall = 1)
2. Hasil pengujian didapatkan nilai precision yang rendah hal ini dipengaruhi oleh banyaknya variasi term dalam data karena sistem melakukan indexing dari semua kata yang ada dalam dokumen. Semakin banyak term yang dihasilkan sebuah dokumen dalam proses indexing maka semakin sering dokumen tersebut dikembalikan oleh sistem terhadap query yang sebenarnya kurang relevan (low precision). Tetapi hasil tersebut telah diatasi pada sistem dengan memberi nilai threshold pada nilai perhitungan kemiripan (similarity).
3. Term frequency dan Inverse document frequency berperan penting dalam hasil perangkingan dokumen yang dikembalikan. Dengan kata lain hasil rangking dokumen sangat dipengaruhi oleh data term pada dokumen dan juga query.