Reinforcement learning (pemelajaran mesin)

Bagian dari seri
Pemelajaran mesin
dan Penggalian Data
Ilustrasi Jaringan saraf tiruan
Paradigma
Masalah
  • Klasifikasi
  • Model generatif
  • Regresi
  • Kluster
  • Reduksi dimensi
  • Estimasi densitas
  • Deteksi anomali
  • Pembersihan data
  • AutoML
  • Aturan asosiasi
  • Analisis semantik
  • Rekayasa fitur
  • Pemelajaran fitur
Pemelajaran diawasi
(Klasifikasi • Regresi)
  • BIRCH
  • CURE
  • Hierarki
  • k-means
  • Fuzi
Reduksi dimensionalitas
Diagnostik model
  • Kurva belajar
  • l
  • b
  • s

Reinforcement learning (RL) adalah suatu bidang interdisipliner dalam pemelajaran mesin dan kontrol optimal yang berkaitan dengan bagaimana suatu agen cerdas dapat mengambil aksi di lingkungan yang dinamis dalam rangka untuk memaksimalkan penghargaan kumulatif. Reinforcement learning adalah salah satu dari tiga paradigma utama dalam pemelajaran mesin, di samping pemelajaran terawasi dan pemelajaran tak terawasi.

Reinforcement learning berbeda dengan pemelajaran yang terawasi dari dua sisi, yaitu tidak memerlukan penyajian pasangan masukan-keluaran yang telah dilabeli dan tidak memerlukan pengoreksian secara eksplisit untuk aksi yang kurang optimal. Fokus RL adalah untuk menemukan keseimbangan antara eksplorasi (wilayah yang belum dipetakan) dan eksploitasi (pengetahuan saat ini).[1]

Lingkungan (environment) RL biasanya dinyatakan dalam bentuk proses keputusan Markov (Markov Decision Proses (MDP)) karena banyaknya algoritma RL yang dalam konteks ini menggunakan teknik pemrograman dinamis.[2] Namun, terdapat perbedaan utama antara RL dengan pemrograman dinamis, yaitu RL tidak memerlukan pengetahuan (knowledge) eksak dari model matematis dari MDP, melainkan RL ini menargetkan MDP yang besar dan kompleks yang untuk mendapatkan model yang eksak menjadi sulit atau tidak mungkin dilakukan.[3]

Referensi

  1. ^ Kaelbling, Leslie P.; Littman, Michael L.; Moore, Andrew W. (1996). "Reinforcement Learning: A Survey". Journal of Artificial Intelligence Research. 4: 237–285. arXiv:cs/9605103 alt=Dapat diakses gratis. doi:10.1613/jair.301. Diarsipkan dari versi asli tanggal 2001-11-20.  Parameter |url-status= yang tidak diketahui akan diabaikan (bantuan); Parameter |s2cid= yang tidak diketahui akan diabaikan (bantuan)
  2. ^ van Otterlo, M.; Wiering, M. (2012). "Reinforcement Learning and Markov Decision Processes". Reinforcement Learning. Adaptation, Learning, and Optimization. 12. hlm. 3–42. doi:10.1007/978-3-642-27645-3_1. ISBN 978-3-642-27644-6. 
  3. ^ Li, Shengbo (2023). Reinforcement Learning for Sequential Decision and Optimal Control (edisi ke-First). Springer Verlag, Singapore. hlm. 1–460. doi:10.1007/978-981-19-7784-8. ISBN 978-9-811-97783-1.  Parameter |s2cid= yang tidak diketahui akan diabaikan (bantuan)

Sumber

  • Sutton, Richard S.; Barto, Andrew G. (2018). Reinforcement Learning: An Introduction (edisi ke-2nd). MIT Press. ISBN 978-0-262-03924-6.  Parameter |orig-date= yang tidak diketahui akan diabaikan (bantuan)
  • Li, Shengbo Eben (2023). Reinforcement Learning for Sequential Decision and Optimal Control (edisi ke-1st). Springer Verlag, Singapore. ISBN 978-9-811-97783-1. 
  • Bertsekas, Dimitri P. (2023). REINFORCEMENT LEARNING AND OPTIMAL CONTROL (edisi ke-1st). Athena Scientific. ISBN 978-1-886-52939-7.  Parameter |orig-date= yang tidak diketahui akan diabaikan (bantuan)

Bacaan lanjutan

  • Annaswamy, Anuradha M. (3 May 2023). "Adaptive Control and Intersections with Reinforcement Learning". Annual Review of Control, Robotics, and Autonomous Systems (dalam bahasa Inggris). 6 (1): 65–93. doi:10.1146/annurev-control-062922-090153 alt=Dapat diakses gratis. ISSN 2573-5144.  Parameter |s2cid= yang tidak diketahui akan diabaikan (bantuan)
  • Auer, Peter; Jaksch, Thomas; Ortner, Ronald (2010). "Near-optimal regret bounds for reinforcement learning". Journal of Machine Learning Research. 11: 1563–1600. 
  • Busoniu, Lucian; Babuska, Robert; De Schutter, Bart; Ernst, Damien (2010). Reinforcement Learning and Dynamic Programming using Function Approximators. Taylor & Francis CRC Press. ISBN 978-1-4398-2108-4. 
  • François-Lavet, Vincent; Henderson, Peter; Islam, Riashat; Bellemare, Marc G.; Pineau, Joelle (2018). "An Introduction to Deep Reinforcement Learning". Foundations and Trends in Machine Learning. 11 (3–4): 219–354. arXiv:1811.12560 alt=Dapat diakses gratis. Bibcode:2018arXiv181112560F. doi:10.1561/2200000071.  Parameter |s2cid= yang tidak diketahui akan diabaikan (bantuan)
  • Powell, Warren (2011). Approximate dynamic programming: solving the curses of dimensionality. Wiley-Interscience. Diarsipkan dari versi asli tanggal 2016-07-31. Diakses tanggal 2010-09-08.  Parameter |url-status= yang tidak diketahui akan diabaikan (bantuan)
  • Sutton, Richard S. (1988). "Learning to predict by the method of temporal differences". Machine Learning. 3: 9–44. doi:10.1007/BF00115009 alt=Dapat diakses gratis. 
  • Szita, Istvan; Szepesvari, Csaba (2010). "Model-based Reinforcement Learning with Nearly Tight Exploration Complexity Bounds" (PDF). ICML 2010. Omnipress. hlm. 1031–1038. Diarsipkan dari versi asli (PDF) tanggal 2010-07-14.  Parameter |url-status= yang tidak diketahui akan diabaikan (bantuan)

Pranala eksternal

  • Repositori Reinforcement Learning
  • Reinforcement Learning dan Kecerdasan buatan (RLAI, laboratorium Rich Sutton di Universitas Alberta)
  • Laboratorium Pemelajaran otonom (ALL, Laboratorium Andrew Barto di Universitas Massachusetts Amherst)
  • Eksperimen RL dunia nyata Diarsipkan 2018-10-08 di Wayback Machine. di Delft University of Technology
  • Kuliah Andrew NG di Universitas Standord terkait RL
  • Membedah RL Rangkaian posting blog tentang RL dengan kode Python
  • Mengintip (Lebih Jauh) ke dalam RL

Templat:Komputasi terdeferensialkan

  • l
  • b
  • s
Bidang utama ilmu komputer
Catatan: Templat ini secara kasar mengikuti Sistem Klasifikasi Komputasi ACM tahun 2012.
Perangkat keras
Organisasi
sistem komputer
Jaringan
  • Arsitektur jaringan
  • Protokol jaringan
  • Perangkat keras jaringan
  • Penjadwal jaringan
  • Evaluasi kinerja jaringan
  • Layanan jaringan
Organisasi
perangkat lunak
Notasi dan alat
perangkat lunak
Pengembangan
perangkat lunak
Teori komputasi
Algoritma
Komputasi
matematika
Sistem informasi
Keamanan
Interaksi
manusia-komputer
  • Desain interaksi
  • Komputasi sosial
  • Komputasi di mana-mana
  • Visualisasi
  • Aksesibilitas
Kongruensi
Kecerdasan buatan
Pembelajaran mesin
Grafika
Komputasi terapan
  • '