Menggunakan prior p(w) untuk mempertahankan stabilitas parameter.
Posterior distribusi diperbarui berdasarkan data pengalaman terbaru.
Contoh Update Ruh (Adaptive Learning Rate SGD)
-
Ruh menggunakan meta-learning rate t \eta_t untuk menyesuaikan bobot prioritas jangka panjang: t+1=t(1+J(wt))
Jika keputusan yang diambil memiliki dampak jangka panjang positif, \eta meningkat.
Jika banyak keputusan jangka panjang yang buruk, \eta dikurangi agar lebih konservatif.
2.3. Level 3: Integrasi & Refinement (Hierarchical State Decision Tree - HSDT)
Update HSDT (MARL dengan Dynamic Decision Weights)
HSDT mengalokasikan bobot adaptif berdasarkan akurasi historis tiap modul: W_i ^t+1=W_i ^t+(A_iA)
Jika agen memiliki prediksi yang lebih akurat dibanding rata-rata, bobotnya naik.
Jika sering salah, bobotnya diturunkan secara otomatis.