1. Agen Id (Dorongan Dasar -- Reinforcement Learning berbasis Reward)
Bertindak sebagai sistem keinginan dan impuls dasar yang didorong oleh mekanisme reward maximization.
Memanfaatkan Reinforcement Learning (RL) untuk mengeksplorasi tindakan yang memberikan keuntungan maksimal tanpa mempertimbangkan moralitas atau konsekuensi jangka panjang.
-
Id menginisiasi preferensi tindakan berdasarkan kesenangan instan (immediate reward) dan dorongan eksploratif.
Matematis:
Q(s,a)Q(s,a)+(r+max_aQ(s,a)Q(s,a))
Di mana:
Q(s,a) adalah nilai keputusan saat ini,
r adalah reward yang diterima,
\gamma adalah faktor diskonto (pengaruh jangka panjang),
\alpha adalah learning rate.