
Pembelajaran Pengukuhan Lanjutan EITC/AI/ARL ialah program Pensijilan IT Eropah mengenai pendekatan DeepMind terhadap pembelajaran pengukuhan dalam kecerdasan buatan.
Kurikulum Pembelajaran Pengukuhan Lanjutan EITC/AI/ARL memfokuskan pada aspek teori dan kemahiran praktikal dalam teknik pembelajaran pengukuhan dari perspektif DeepMind yang dianjurkan dalam struktur berikut, merangkumi kandungan didaktik video yang komprehensif sebagai rujukan untuk Pensijilan EITC ini.
Pembelajaran pengukuhan (RL) adalah bidang pembelajaran mesin yang berkaitan dengan bagaimana ejen pintar harus melakukan tindakan dalam lingkungan untuk memaksimumkan pengertian ganjaran kumulatif. Pembelajaran pengukuhan adalah salah satu daripada tiga paradigma pembelajaran mesin asas, di samping pembelajaran yang diselia dan pembelajaran yang tidak diselia.
Pembelajaran pengukuhan berbeza dengan pembelajaran yang diawasi dengan tidak perlu dipasangkan pasangan input/output berlabel, dan tidak memerlukan tindakan yang tidak optimum untuk diperbaiki secara eksplisit. Sebaliknya fokusnya adalah untuk mencari keseimbangan antara penerokaan (wilayah yang belum dipetakan) dan eksploitasi (pengetahuan semasa).
Lingkungan biasanya dinyatakan dalam bentuk proses keputusan Markov (MDP), kerana banyak algoritma pembelajaran peneguhan untuk konteks ini menggunakan teknik pengaturcaraan dinamis. Perbezaan utama antara kaedah pengaturcaraan dinamik klasik dan algoritma pembelajaran pengukuhan adalah bahawa yang terakhir tidak menganggap pengetahuan tentang model matematik MDP yang tepat dan mereka mensasarkan MDP besar di mana kaedah tepat menjadi tidak dapat dilaksanakan.
Oleh kerana umum, pembelajaran pengukuhan dipelajari dalam banyak disiplin ilmu, seperti teori permainan, teori kawalan, penyelidikan operasi, teori maklumat, pengoptimuman berdasarkan simulasi, sistem multi-agen, kecerdasan kawanan, dan statistik. Dalam literatur penelitian operasi dan pengendalian, pembelajaran pengukuhan disebut pengaturcaraan dinamik perkiraan, atau pengaturcaraan neuro-dinamik. Masalah minat dalam pembelajaran pengukuhan juga telah dikaji dalam teori kawalan optimum, yang terutama berkaitan dengan keberadaan dan pencirian penyelesaian optimum, dan algoritma untuk pengiraannya yang tepat, dan kurang dengan pembelajaran atau penghampiran, terutama jika tidak ada model matematik persekitaran. Dalam teori ekonomi dan permainan, pembelajaran pengukuhan dapat digunakan untuk menjelaskan bagaimana keseimbangan mungkin timbul di bawah rasionalitas yang dibatasi.
Pengukuhan asas dimodelkan sebagai proses keputusan Markov (MDP). Dalam matematik, proses keputusan Markov (MDP) adalah proses kawalan stokastik masa diskrit. Ini menyediakan kerangka matematik untuk memodelkan pengambilan keputusan dalam situasi di mana hasilnya sebahagiannya rawak dan sebahagiannya berada di bawah kawalan pembuat keputusan. MDP berguna untuk mengkaji masalah pengoptimuman yang diselesaikan melalui pengaturcaraan dinamik. MDP dikenali sekurang-kurangnya seawal tahun 1950-an. Kumpulan inti penyelidikan mengenai proses keputusan Markov dihasilkan dari buku 1960 Ronald Howard, Pengaturcaraan Dinamik dan Proses Markov. Mereka digunakan dalam banyak disiplin ilmu, termasuk robotik, kawalan automatik, ekonomi dan pembuatan. Nama MDP berasal dari ahli matematik Rusia Andrey Markov kerana mereka adalah lanjutan dari rangkaian Markov.
Pada setiap langkah waktu, prosesnya berada di beberapa keadaan S, dan pembuat keputusan dapat memilih tindakan apa pun yang tersedia di negara bagian S. Proses ini bertindak balas pada langkah seterusnya dengan bergerak secara acak ke keadaan baru S ', dan memberikan pembuat keputusan ganjaran yang sesuai Ra (S, S ').
Kebarangkalian proses bergerak ke keadaan barunya S 'dipengaruhi oleh tindakan yang dipilih a. Secara khusus, ia diberikan oleh fungsi peralihan keadaan Pa (S, S '). Oleh itu, keadaan seterusnya S 'bergantung kepada keadaan semasa S dan tindakan pembuat keputusan a. Tetapi memandangkan S dan a, ini bersyarat bebas dari semua keadaan dan tindakan sebelumnya. Dengan kata lain, peralihan keadaan MDP memenuhi harta Markov.
Proses keputusan Markov adalah lanjutan dari rantaian Markov; perbezaannya adalah penambahan tindakan (membenarkan pilihan) dan ganjaran (memberi motivasi). Sebaliknya, jika hanya ada satu tindakan untuk setiap keadaan (mis. "Tunggu") dan semua ganjarannya sama (misalnya "sifar"), proses keputusan Markov akan menjadi rantaian Markov.
Ejen pembelajaran pengukuhan berinteraksi dengan persekitarannya dalam langkah masa yang berbeza. Pada setiap masa t, ejen menerima keadaan semasa S (t) dan ganjaran r (t). Ia kemudian memilih tindakan a (t) dari kumpulan tindakan yang tersedia, yang kemudiannya dikirim ke lingkungan. Persekitaran bergerak ke keadaan baru S (t + 1) dan ganjaran r (t + 1) yang berkaitan dengan peralihan ditentukan. Matlamat ejen pembelajaran pengukuhan adalah untuk mempelajari dasar yang memaksimumkan ganjaran kumulatif yang diharapkan.
Merumuskan masalah sebagai MDP menganggap ejen secara langsung memerhatikan keadaan persekitaran semasa. Dalam kes ini, masalah tersebut dikatakan dapat dilihat sepenuhnya. Sekiranya ejen hanya mempunyai akses ke subset keadaan, atau jika keadaan yang diperhatikan rosak oleh bunyi bising, ejen tersebut dikatakan mempunyai pengamatan separa, dan secara formal masalahnya harus dirumuskan sebagai proses keputusan Markov yang dapat dilihat secara separa. Dalam kedua kes tersebut, sekumpulan tindakan yang tersedia untuk ejen dapat dibatasi. Sebagai contoh, keadaan baki akaun boleh dibatasi menjadi positif; jika nilai semasa negara adalah 3 dan peralihan keadaan cuba mengurangkan nilai sebanyak 4, peralihan tidak akan dibenarkan.
Apabila prestasi ejen dibandingkan dengan ejen yang bertindak secara optimum, perbezaan prestasi menimbulkan tanggapan penyesalan. Untuk bertindak secara optimum, ejen mesti memberi alasan mengenai kesan jangka panjang dari tindakannya (iaitu memaksimumkan pendapatan masa depan), walaupun ganjaran segera yang berkaitan dengan ini mungkin negatif.
Oleh itu, pembelajaran pengukuhan sangat sesuai dengan masalah yang merangkumi pertukaran ganjaran jangka panjang berbanding jangka pendek. Telah berjaya diterapkan untuk berbagai masalah, termasuk kontrol robot, penjadualan lif, telekomunikasi, backgammon, checker dan Go (AlphaGo).
Dua elemen menjadikan pembelajaran pengukuhan kuat: penggunaan sampel untuk mengoptimumkan prestasi dan penggunaan pendekatan fungsi untuk menangani persekitaran yang besar. Berkat dua komponen utama ini, pembelajaran pengukuhan dapat digunakan dalam persekitaran yang besar dalam situasi berikut:
- Model persekitaran diketahui, tetapi penyelesaian analitik tidak tersedia.
- Hanya model simulasi persekitaran yang diberikan (subjek pengoptimuman berdasarkan simulasi).
- Satu-satunya cara untuk mengumpulkan maklumat mengenai persekitaran adalah dengan berinteraksi dengannya.
Dua masalah pertama ini dapat dianggap sebagai masalah perancangan (kerana ada beberapa bentuk model), sementara yang terakhir dapat dianggap sebagai masalah pembelajaran yang tulen. Walau bagaimanapun, pembelajaran pengukuhan mengubah kedua-dua masalah perancangan menjadi masalah pembelajaran mesin.
Eksplorasi dan pertukaran eksploitasi telah dikaji secara menyeluruh melalui masalah penyamun berbilang senjata dan untuk MDP ruang negara terbatas di Burnetas dan Katehakis (1997).
Pembelajaran pengukuhan memerlukan mekanisme penerokaan yang bijak; memilih tindakan secara rawak, tanpa merujuk kepada anggaran taburan kebarangkalian, menunjukkan prestasi yang buruk. Kes proses keputusan Markov (kecil) yang terbatas dapat difahami dengan baik. Walau bagaimanapun, kerana kekurangan algoritma yang berskala baik dengan jumlah keadaan (atau skala kepada masalah dengan ruang keadaan tak terbatas), kaedah penerokaan sederhana adalah yang paling praktikal.
Walaupun isu penerokaan tidak diendahkan dan walaupun keadaannya dapat dilihat, masalahnya tetap menggunakan pengalaman masa lalu untuk mengetahui tindakan mana yang membawa kepada ganjaran kumulatif yang lebih tinggi.
Untuk membiasakan diri anda secara terperinci dengan kurikulum pensijilan, anda boleh mengembangkan dan menganalisis jadual di bawah.
Kurikulum Pensijilan Pembelajaran Pengukuhan Lanjutan EITC/AI/ARL merujuk bahan didaktik akses terbuka dalam bentuk video. Proses pembelajaran dibahagikan kepada struktur langkah demi langkah (program -> pelajaran -> topik) yang merangkumi bahagian kurikulum yang berkaitan. Perundingan tanpa had dengan pakar domain juga disediakan.
Untuk butiran mengenai pemeriksaan prosedur Pensijilan Bagaimana ia berfungsi.
Sumber Rujukan Kurikulum
Penguasaan tahap manusia melalui penerbitan Deep Reinforcement Learning
https://deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning
Kursus akses terbuka untuk pembelajaran pengukuhan mendalam di UC Berkeley
http://rail.eecs.berkeley.edu/deeprlcourse/
RL berlaku untuk masalah penyamun K-armbed dari Manifold.ai
https://www.manifold.ai/exploration-vs-exploitation-in-reinforcement-learning