Definisi dan Konsep DasarÂ
Teknik asosiasi adalah salah satu metode data mining yang bertujuan untuk menemukan pola, hubungan, atau asosiasi yang menarik dari sekumpulan data yang besar. Teknik ini mengidentifikasi hubungan jika-maka (if-then) antara item-item dalam suatu dataset, yang dikenal sebagai aturan asosiasi (association rules).
Aturan asosiasi dinyatakan dalam bentuk: "Jika item A dibeli, maka item B juga dibeli" (A B), di mana A disebut sebagai antecedent (kondisi) dan B disebut sebagai consequent (konsekuensi).
Terminologi/istilah dalam Teknik Asosiasi
- Item: Unit data terkecil dalam transaksi (contoh: roti, susu, selai).Â
- Itemset: Kumpulan satu atau lebih item.
- Transaksi: Data pembelian pelanggan berisi itemset.
- Support: Persentase transaksi dalam database yang mengandung kedua item X dan Y.
- Confidence: Persentase transaksi yang mengandung item Y jika transaksi mengandung item X.
- Lift: Mengukur seberapa sering item Y muncul saat item X muncul, dibandingkan dengan frekuensi munculnya item Y secara keseluruhan.
Interpretasi Lift:
Lift > 1: X dan Y berkorelasi positif (terjadi bersama lebih sering dari ekspektasi).
Lift = 1: Tidak ada hubungan.
Lift < 1: X dan Y berkorelasi negatif.
- Frequent Itemset: Itemset yang memiliki support lebih besar atau sama dengan minimum support yang ditentukan.
Algoritma Teknik Asosiasi
1. Algoritma Apriori
Algoritma yang paling populer untuk menemukan aturan asosiasi. Algoritma ini bekerja dalam dua tahap:
- Tahap Pencarian Frequent Itemset:
- Mulai dengan mengidentifikasi item-item yang memenuhi minimum support.
- Secara iteratif membuat kandidat k+1-itemset dari k-itemset yang memenuhi minimum support.
- Proses berlanjut hingga tidak ada frequent itemset baru yang dapat dibentuk.
- Tahap Pembentukan Aturan Asosiasi:
- Dari frequent itemset yang ditemukan, bentuk aturan asosiasi yang memenuhi minimum confidence.
2. FP-Growth (Frequent Pattern Growth)Â
FP-Growth (Frequent Pattern Growth) dikembangkan untuk mengatasi kelemahan utama algoritma Apriori, yaitu:
- Proses scan database yang berulang kali
- Generasi kandidat itemset yang besar
- Kebutuhan memori yang tinggi untuk dataset besar