Pembelajaran bobot menggunakan metode policy gradient:
Ww+ ((J(w))/w
di mana J(w) adalah fungsi reward kumulatif.
3.1.3. Implementasi Agen Superego (Graph-Based Moral Reasoning)
Superego memanfaatkan Graph Morality, di mana moralitas direpresentasikan sebagai graph terhubung.
Struktur Graph Moralitas
Graph morality didefinisikan sebagai:
M=(V,E,W)
di mana: