Bidang pembelajaran mesin merangkumi pelbagai metodologi dan paradigma, setiap satu sesuai dengan jenis data dan masalah yang berbeza. Di antara paradigma ini, pembelajaran diselia dan tidak diselia adalah dua yang paling asas.
Pembelajaran terselia melibatkan latihan model pada set data berlabel, di mana data input dipasangkan dengan output yang betul. Model ini belajar untuk memetakan input kepada output dengan meminimumkan ralat antara ramalannya dan output sebenar. Pembelajaran tanpa pengawasan, sebaliknya, berurusan dengan data tidak berlabel, di mana matlamatnya adalah untuk membuat kesimpulan struktur semula jadi yang terdapat dalam satu set titik data.
Terdapat jenis pembelajaran yang mengintegrasikan kedua-dua teknik pembelajaran diselia dan tidak diselia, sering dirujuk sebagai pembelajaran separa penyeliaan. Pendekatan ini memanfaatkan kedua-dua data berlabel dan tidak berlabel semasa proses latihan. Rasional di sebalik pembelajaran separa penyeliaan ialah data tidak berlabel, apabila digunakan bersama dengan sejumlah kecil data berlabel, boleh menghasilkan peningkatan yang ketara dalam ketepatan pembelajaran. Ini amat berguna dalam senario di mana data berlabel adalah terhad atau mahal untuk diperoleh, tetapi data tidak berlabel adalah banyak dan mudah dikumpul.
Pembelajaran separa penyeliaan adalah berdasarkan andaian bahawa struktur asas data tidak berlabel boleh memberikan maklumat berharga yang menjadi pelengkap kepada data berlabel. Andaian ini boleh mengambil beberapa bentuk, seperti andaian kelompok, andaian manifold, atau andaian pemisahan berketumpatan rendah. Andaian kluster berpendapat bahawa titik data dalam kluster yang sama berkemungkinan mempunyai label yang sama. Andaian manifold mencadangkan bahawa data berdimensi tinggi terletak pada manifold dengan dimensi yang jauh lebih rendah, dan tugasnya adalah untuk mempelajari manifold ini. Andaian pemisahan berketumpatan rendah adalah berdasarkan idea bahawa sempadan keputusan harus terletak di kawasan kepadatan data yang rendah.
Salah satu teknik yang biasa digunakan dalam pembelajaran separa penyeliaan ialah latihan kendiri. Dalam latihan kendiri, model pada mulanya dilatih pada data berlabel. Ia kemudian menggunakan ramalannya sendiri pada data tidak berlabel sebagai pseudo-label. Model ini dilatih lebih lanjut mengenai set data tambahan ini, secara berulang memperhalusi ramalannya. Teknik lain ialah latihan bersama, di mana dua atau lebih model dilatih secara serentak pada pandangan data yang berbeza. Setiap model bertanggungjawab untuk melabelkan sebahagian daripada data tidak berlabel, yang kemudiannya digunakan untuk melatih model lain. Kaedah ini mengeksploitasi lebihan dalam berbilang paparan data untuk meningkatkan prestasi pembelajaran.
Kaedah berasaskan graf juga lazim dalam pembelajaran separa penyeliaan. Kaedah ini membina graf di mana nod mewakili titik data, dan tepi mewakili persamaan antara mereka. Tugas pembelajaran kemudiannya dirumuskan semula sebagai masalah pengoptimuman berasaskan graf, di mana matlamatnya adalah untuk menyebarkan label daripada nod berlabel kepada yang tidak berlabel sambil mengekalkan struktur graf. Teknik ini amat berkesan dalam domain di mana data secara semula jadi membentuk rangkaian, seperti rangkaian sosial atau rangkaian biologi.
Satu lagi pendekatan untuk menggabungkan pembelajaran diselia dan tidak diselia adalah melalui pembelajaran pelbagai tugas. Dalam pembelajaran berbilang tugas, berbilang tugasan pembelajaran diselesaikan secara serentak, sambil mengeksploitasi persamaan dan perbezaan merentas tugas. Ini boleh dilihat sebagai satu bentuk pemindahan induktif, di mana pengetahuan yang diperoleh daripada satu tugas membantu meningkatkan pembelajaran yang lain. Pembelajaran pelbagai tugas boleh memberi manfaat terutamanya apabila terdapat perwakilan bersama atau ruang ciri antara tugas, membolehkan pemindahan maklumat.
Contoh praktikal pembelajaran separa penyeliaan adalah dalam bidang pemprosesan bahasa semula jadi (NLP). Pertimbangkan tugas analisis sentimen, di mana matlamatnya adalah untuk mengklasifikasikan teks tertentu sebagai positif atau negatif. Data berlabel, seperti ulasan dengan label sentimen, mungkin terhad. Walau bagaimanapun, terdapat sejumlah besar teks tidak berlabel tersedia. Pendekatan pembelajaran separa penyeliaan boleh melibatkan latihan pengelas sentimen pada data berlabel dan menggunakannya untuk meramalkan sentimen data tidak berlabel. Ramalan ini kemudiannya boleh digunakan sebagai data latihan tambahan, meningkatkan prestasi pengelas.
Contoh lain boleh didapati dalam klasifikasi imej. Dalam kebanyakan kes, mendapatkan imej berlabel memerlukan tenaga kerja dan mahal, manakala imej tidak berlabel adalah banyak. Pendekatan separa penyeliaan mungkin melibatkan penggunaan set kecil imej berlabel untuk melatih model awal. Model ini kemudiannya boleh digunakan pada imej tidak berlabel untuk menghasilkan label pseudo, yang kemudiannya digunakan untuk melatih semula model.
Penyepaduan pembelajaran diselia dan tidak diselia melalui pembelajaran separa penyeliaan dan metodologi berkaitan mewakili pendekatan yang berkuasa dalam pembelajaran mesin. Dengan memanfaatkan kekuatan kedua-dua paradigma, adalah mungkin untuk mencapai peningkatan yang ketara dalam prestasi model, terutamanya dalam domain yang data berlabel adalah terhad tetapi data tidak berlabel adalah banyak. Pendekatan ini bukan sahaja meningkatkan keupayaan model untuk membuat generalisasi daripada data terhad tetapi juga menyediakan rangka kerja yang lebih teguh untuk memahami struktur asas set data kompleks.
Soalan dan jawapan terbaru lain mengenai Pembelajaran Mesin Awan Google EITC/AI/GCML:
- Apabila bahan bacaan bercakap tentang "memilih algoritma yang betul", adakah ini bermakna pada dasarnya semua algoritma yang mungkin sudah wujud? Bagaimanakah kita tahu bahawa algoritma adalah yang "betul" untuk masalah tertentu?
- Apakah hiperparameter yang digunakan dalam pembelajaran mesin?
- Apakah bahasa pengaturcaraan untuk pembelajaran mesin ia adalah Just Python
- Bagaimanakah pembelajaran mesin digunakan pada dunia sains?
- Bagaimanakah anda memutuskan algoritma pembelajaran mesin yang hendak digunakan dan bagaimana anda menemuinya?
- Apakah perbezaan antara Pembelajaran Bersekutu, Pengkomputeran Tepi dan Pembelajaran Mesin Pada Peranti?
- Bagaimana untuk menyediakan dan membersihkan data sebelum latihan?
- Apakah tugas dan aktiviti awal yang khusus dalam projek pembelajaran mesin?
- Apakah peraturan praktikal untuk menggunakan strategi dan model pembelajaran mesin tertentu?
- Parameter yang manakah menunjukkan bahawa sudah tiba masanya untuk beralih daripada model linear kepada pembelajaran mendalam?
Lihat lebih banyak soalan dan jawapan dalam Pembelajaran Mesin Awan Google EITC/AI/GCML