Reward Function: R(s,a)=R_instant+R_delayed
Instant Reward (R_instant): Reward langsung dari aksi yang dilakukan.
Delayed Reward (R_delayed): Reward berdasarkan feedback dari Ego & Superego.
-
Bobot dan diperbarui secara dinamis berdasarkan pengalaman.
Contoh Update Superego (Graph Learning dengan Hebbian Update)
Graph Morality diperbarui dengan mekanisme Hebbian Learning: w_ij ^t+1=w_ij ^t+(x_ix_jw_ij ^t)
Jika suatu tindakan menghasilkan efek etis positif, edge weight diperkuat.
Jika bertentangan dengan prinsip etis, edge weight dikoreksi dengan penalization.
2.2. Level 2: Adaptasi Meta-Kognitif (Bayesian Inference & Continual Learning)
Contoh Update Bashirah (Variational Inference dalam BNNs)