Dalam era digital saat ini, data tak ubahnya seperti tambang emas. Namun, seperti tambang, data juga harus digali, diolah, dan dianalisis agar menghasilkan nilai. Di sinilah data mining berperan---yakni sebagai alat penggali informasi tersembunyi dari tumpukan data. Salah satu teknik dalam data mining yang paling menarik dan banyak digunakan adalah teknik asosiasi.
Apa Itu Teknik Asosiasi?
Teknik asosiasi dalam data mining digunakan untuk menemukan pola atau hubungan antar-item dalam kumpulan data yang besar, terutama dalam bentuk transaksi. Anda mungkin tidak sadar, tetapi teknik ini sangat berperan dalam memberikan rekomendasi saat Anda berbelanja online. Misalnya, saat Anda membeli sebuah kamera, sistem bisa saja menyarankan memory card atau tripod---dan itu bukan kebetulan, melainkan hasil analisis asosiasi.
Prinsip kerjanya sederhana: jika seseorang membeli item A, maka besar kemungkinan ia juga akan membeli item B. Pola ini kemudian ditentukan berdasarkan dua metrik penting: support (berapa sering kombinasi item muncul di data) dan confidence (seberapa besar kemungkinan seseorang membeli B setelah membeli A).
Memahami Algoritma Asosiasi: Apriori, FP-Growth, dan Apriori-TID
- Algoritma Apriori
Apriori adalah algoritma klasik dalam teknik asosiasi dan paling banyak digunakan. Ia bekerja secara iteratif: mencari item yang sering muncul (frequent itemsets), kemudian membentuk aturan asosiasi dari kombinasi tersebut berdasarkan minimum support dan confidence.
Langkah-langkah Apriori:
-
Hitung support semua item tunggal.
Gabungkan item yang memenuhi minimum support untuk membentuk itemset baru.
Ulangi hingga tidak ada lagi kombinasi yang memenuhi syarat.
Hitung confidence dari setiap aturan yang mungkin.
Rumus penting:
- Support
Menunjukkan seberapa sering kombinasi item muncul dalam seluruh transaksi:
- Confidence
Mengukur kepercayaan bahwa pelanggan yang membeli A juga membeli B:
- Lift Ratio:
Lift adalah ukuran yang menunjukkan seberapa besar hubungan antara dua item dibandingkan dengan kemungkinan acak. Â (jika lift > 1, hubungan signifikan).Â
- Algoritma FP-Growth (Frequent Pattern Growth)
FP-Growth dikembangkan sebagai solusi untuk kelemahan utama Apriori---yaitu keharusan untuk membangkitkan kandidat itemset secara eksplisit, yang sangat mahal secara komputasi jika datanya besar.
Bagaimana cara kerja FP-Growth?