di mana:
w_1, w_2, w_3 adalah bobot yang ditentukan oleh Ego untuk menyeimbangkan dorongan.
Implementasi dengan DQN menggunakan Neural Network untuk memprediksi Q(s,a)Q(s,a):
Q(s,a)=f(Ws+b)
di mana:
W adalah bobot yang dipelajari,
b adalah bias,
f adalah fungsi aktivasi ReLU atau tanh.
3.1.2. Implementasi Agen Ego (Pengambilan Keputusan Probabilistik - MDP Berbobot)
Agen Ego berfungsi sebagai regulator antara Id dan Superego dengan pendekatan Markov Decision Process (MDP) berbobot.
Model MDP dengan Bobot Dinamis
Beri Komentar
Belum ada komentar. Jadilah yang pertama untuk memberikan komentar!