Pada hari Rabu, tanggal 30 April 2025, kami mahasiswa Teknik Informatika mengikuti kuliah perdana mata kuliah Aljabar Linear yang dibawakan oleh Bapak Natalis Ransi, S.Si., M.Cs. secara daring. Sebelum kuliah perdana ini dimulai, beliau memberi tugas kepada kami untuk mencari referensi berupa buku teks, makalah, jurnal, atau prosiding dengan tema "Penerapan Aljabar Linear di bidang Informatika".
Perkuliahan dibuka dengan 4 orang teman saya yang melakukan presentasi dari referensi yang telah mereka dapatkan. Setelah sesi presentasi selesai, Bapak dosen memulai penyampaian materi yang berjudul "Penggunaan Model Ruang Vektor untuk Mengukur Kemiripan Dua Dokumen Berbentuk Paragraf Menggunakan Python dan Library Scikit-learn". Berikut ini adalah beberapa materi yang saya rangkum dari penjelasan beliau:
Konsep Ruang Vektor
Ruang vektor (atau ruang linear) adalah himpunan dari objek yang disebut vektor, yang dapat dijumlahkan dan dikalikan dengan skalar (bilangan real atau kompleks), dan tetap berada di dalam himpunan tersebut. Ruang ini dilengkapi dengan dua operasi:
1. Penjumlahan vektor: Dua vektor dijumlahkan menghasilkan vektor baru.
2. Perkalian skalar: Vektor dikalikan dengan skalar menghasilkan vektor baru.
Contoh paling sederhana dari ruang vektor adalah ℝⁿ yaitu semua vektor berdimensi n dengan komponen bilangan real.
Untuk menjadi ruang vektor, suatu himpunan dan dua operasinya harus memenuhi 8 aksioma (atau properti), seperti:
- Asosiatif dan komutatif dalam penjumlahan
- Elemen identitas (vektor nol)
- Elemen invers (vektor negatif)
- Distributif terhadap penjumlahan dan perkalian skalar
- Identitas skalar (mengalikan vektor dengan 1 tidak mengubah vektor tersebut)
Penerapan ruang vektor dalam bidang informatika, khususnya dalam pengukuran kemiripan dua buah dokumen, sangat penting dalam bidang Information Retrieval (IR), Text Mining, dan Natural Language Processing (NLP). Salah satu metode paling umum adalah menggunakan model ruang vektor (Vector Space Model/VSM).
Penjelasan Singkat Model Ruang Vektor untuk Dokumen
Dalam model ini, setiap dokumen dan query diubah menjadi vektor dalam ruang berdimensi banyak, di mana setiap dimensi mewakili sebuah kata (term) yang mungkin muncul dalam korpus (kumpulan dokumen).
Contoh sederhana: Misalkan kita punya korpus dengan 3 kata unik: "informatika", "data", "komputer". Dokumen akan direpresentasikan sebagai vektor dalam ℝ³, misalnya:
- Dokumen A: "informatika data data" → vektor A = [1,2,0]
- Dokumen B: "data komputer" → vektor B [0,1,1]
Mengukur Kemiripan Dokumen: Cosine Similarity
Cosine similarity mengukur sudut antara dua vektor. Semakin kecil sudutnya (semakin mendekati 0 derajat), semakin mirip kedua dokumen tersebut.