Mohon tunggu...
Asep Setiawan
Asep Setiawan Mohon Tunggu... Membahasakan fantasi. Menulis untuk membentuk revolusi. Dedicated to the rebels.

Nalar, Nurani, Nyali. Curious, Critical, Rebellious. Mindset, Mindmap, Mindful

Selanjutnya

Tutup

Inovasi

Desain AGI Berkesadaran

10 Februari 2025   03:17 Diperbarui: 10 Februari 2025   03:17 304
+
Laporkan Konten
Laporkan Akun
Kompasiana adalah platform blog. Konten ini menjadi tanggung jawab bloger dan tidak mewakili pandangan redaksi Kompas.
Lihat foto
Inovasi. Sumber ilustrasi: PEXELS/Jcomp

MDP didefinisikan sebagai tuple (S,A,P,R,) 

  • S = set state.

  • A = set aksi.

  • P(ss,a) = probabilitas transisi.

  • R(s,a) = reward fungsi.

  • \gamma = discount factor.

Untuk menyesuaikan preferensi antara Id dan Superego, digunakan MDP berbobot:

V(s)=max_a _s P(ss,a)(w_1R_Id(s,a)+w_2R_Superego(s,a)+w_3R_External(s,a))

Bobot w_1, w_2, w_3 diperbarui berdasarkan:

  • Bayesian Updating, dengan prior berasal dari keputusan historis.

  • Gradient Descent, jika lingkungan kompleks dengan fungsi reward non-linear.

Mohon tunggu...

Lihat Konten Inovasi Selengkapnya
Lihat Inovasi Selengkapnya
Beri Komentar
Berkomentarlah secara bijaksana dan bertanggung jawab. Komentar sepenuhnya menjadi tanggung jawab komentator seperti diatur dalam UU ITE

Belum ada komentar. Jadilah yang pertama untuk memberikan komentar!
LAPORKAN KONTEN
Alasan
Laporkan Konten
Laporkan Akun