MDP didefinisikan sebagai tuple (S,A,P,R,)Â
S = set state.
A = set aksi.
-
P(ss,a) = probabilitas transisi.
R(s,a) = reward fungsi.
\gamma = discount factor.
Untuk menyesuaikan preferensi antara Id dan Superego, digunakan MDP berbobot:
V(s)=max_a _s P(ss,a)(w_1R_Id(s,a)+w_2R_Superego(s,a)+w_3R_External(s,a))
Bobot w_1, w_2, w_3 diperbarui berdasarkan:
Bayesian Updating, dengan prior berasal dari keputusan historis.
Gradient Descent, jika lingkungan kompleks dengan fungsi reward non-linear.
Beri Komentar
Belum ada komentar. Jadilah yang pertama untuk memberikan komentar!