Pembelajaran mesin, subset kecerdasan buatan, melibatkan penggunaan algoritma dan model statistik untuk membolehkan komputer melaksanakan tugas tanpa arahan yang jelas dengan bergantung pada corak dan inferens sebaliknya. Dalam domain ini, banyak algoritma telah dibangunkan untuk menangani pelbagai jenis masalah, dari klasifikasi dan regresi kepada pengelompokan dan pengurangan dimensi. Di bawah, saya akan membincangkan beberapa algoritma yang paling biasa dan digunakan secara meluas dalam pembelajaran mesin, memberikan penjelasan komprehensif bagi setiap algoritma.
1. Regresi Linear
Regresi linear adalah salah satu algoritma yang paling mudah dan paling asas dalam pembelajaran mesin. Ia digunakan untuk pemodelan ramalan dan melibatkan pendekatan linear untuk memodelkan hubungan antara pembolehubah bersandar dan satu atau lebih pembolehubah tidak bersandar. Apabila terdapat hanya satu pembolehubah bebas, ia dipanggil regresi linear mudah, dan apabila terdapat berbilang pembolehubah bebas, ia dirujuk sebagai regresi linear berganda.
Objektif utama regresi linear adalah untuk mencari garis lurus yang paling sesuai melalui titik data. Garis ini diwakili oleh persamaan:
di mana ialah pembolehubah bersandar,
adalah pembolehubah bebas,
adalah pintasan,
ialah pekali bagi pembolehubah bebas, dan
ialah istilah ralat.
Regresi linear digunakan secara meluas kerana kesederhanaan dan kebolehtafsirannya. Ia amat berguna dalam senario di mana hubungan antara pembolehubah adalah lebih kurang linear. Walau bagaimanapun, ia mungkin tidak berfungsi dengan baik dengan data bukan linear atau apabila terdapat hubungan yang kompleks antara pembolehubah.
2. Regresi Logistik
Walaupun namanya, regresi logistik digunakan untuk klasifikasi dan bukannya masalah regresi. Ia terpakai apabila pembolehubah bersandar adalah kategori. Regresi logistik meramalkan kebarangkalian bahawa input yang diberikan tergolong dalam kategori tertentu. Algoritma menggunakan fungsi logistik, juga dikenali sebagai fungsi sigmoid, untuk memodelkan pembolehubah bersandar binari:
di mana ialah kebarangkalian bahawa pembolehubah bersandar
sama dengan 1 diberi pembolehubah bebas
.
Regresi logistik digunakan secara meluas dalam masalah klasifikasi binari, seperti pengesanan spam, pemarkahan kredit dan diagnosis perubatan. Ia boleh diperluaskan kepada klasifikasi berbilang kelas melalui teknik seperti regresi satu lawan semua atau softmax.
3. Pokok Keputusan
Pokok keputusan ialah kaedah pembelajaran seliaan bukan parametrik yang digunakan untuk pengelasan dan regresi. Model ini dibina dalam bentuk struktur pokok, di mana setiap nod dalaman mewakili ujian pada atribut, setiap cawangan mewakili hasil ujian, dan setiap nod daun mewakili label kelas atau nilai berterusan.
Proses membina pepohon keputusan melibatkan pemilihan ciri terbaik untuk memisahkan data pada setiap nod. Ini biasanya dilakukan menggunakan kriteria seperti kekotoran Gini atau perolehan maklumat (entropi). Pepohon keputusan mudah ditafsirkan dan boleh mengendalikan kedua-dua data berangka dan kategori. Walau bagaimanapun, mereka terdedah kepada overfitting, terutamanya dengan pokok yang kompleks.
4. Mesin Vektor Sokongan (SVM)
Mesin Vektor Sokongan ialah model pembelajaran diselia yang berkuasa dan serba boleh yang digunakan untuk kedua-dua tugas pengelasan dan regresi. Ia amat berkesan dalam ruang berdimensi tinggi dan terkenal dengan keteguhannya dalam mengendalikan data linear dan bukan linear.
Idea teras SVM adalah untuk mencari hyperplane yang terbaik memisahkan data ke dalam kelas yang berbeza. Dalam kes data tidak boleh dipisahkan secara linear, SVM menggunakan teknik yang dipanggil helah kernel untuk mengubah data menjadi ruang berdimensi lebih tinggi di mana ia menjadi boleh dipisahkan secara linear. Isirong biasa termasuk fungsi asas linear, polinomial dan jejari (RBF).
SVM digunakan secara meluas dalam aplikasi seperti klasifikasi imej, bioinformatik, dan pengkategorian teks.
5. K-Nearest Neighbours (KNN)
K-Nearest Neighbors ialah algoritma pembelajaran berasaskan contoh yang mudah digunakan untuk pengelasan dan regresi. Ia membuat ramalan berdasarkan contoh latihan terdekat dalam ruang ciri. Untuk pengkelasan, kelas majoriti dalam kalangan jiran terdekat dipilih, manakala untuk regresi, min atau median jiran terdekat digunakan.
KNN bukan parametrik dan malas, bermakna ia tidak membuat sebarang andaian tentang pengedaran data asas dan tidak memerlukan latihan. Walau bagaimanapun, ia boleh menjadi mahal dari segi pengiraan, terutamanya dengan set data yang besar, kerana ia memerlukan pengiraan jarak antara tika ujian dan semua tika latihan.
6. Naif Bayes
Naive Bayes ialah keluarga algoritma probabilistik berdasarkan teorem Bayes, dengan andaian kebebasan antara setiap pasangan ciri yang diberi label kelas. Walaupun andaian "naif" ini, pengelas Naive Bayes telah berjaya dalam pelbagai aplikasi, terutamanya dalam pengelasan teks dan penapisan spam.
Algoritma mengira kebarangkalian posterior setiap kelas diberikan ciri input dan memilih kelas dengan kebarangkalian tertinggi. Naive Bayes adalah cekap dari segi pengiraan dan berfungsi dengan baik dengan data berdimensi tinggi, walaupun prestasinya boleh merosot jika andaian kebebasan dilanggar.
7. Hutan Rawak
Random Forest ialah kaedah pembelajaran ensemble yang membina berbilang pepohon keputusan semasa latihan dan mengeluarkan mod kelas (pengkelasan) atau ramalan min (regresi) pepohon individu. Ia adalah lanjutan daripada pembungkusan (pengagregatan bootstrap) dan menangani masalah overfitting yang dikaitkan dengan pepohon keputusan.
Random Forest memperkenalkan rawak dengan memilih subset rawak ciri untuk setiap pokok, yang meningkatkan kepelbagaian dan mengurangkan korelasi antara pokok. Ini menghasilkan model teguh yang berprestasi baik pada pelbagai jenis data dan kurang terdedah kepada overfitting.
8. Mesin Penggalak Kecerunan (GBM)
Mesin Penggalak Kecerunan ialah satu lagi teknik ensemble yang membina model secara berurutan. Tidak seperti Random Forest, yang membina pokok secara bebas, GBM membina setiap pokok untuk membetulkan ralat yang sebelumnya. Ini dicapai dengan menyesuaikan pokok baru dengan kecerunan negatif fungsi kehilangan.
GBM sangat berkesan dalam kedua-dua tugas klasifikasi dan regresi dan telah menjadi asas bagi banyak penyelesaian yang menang dalam pertandingan pembelajaran mesin. Walau bagaimanapun, ia sensitif kepada penalaan parameter dan boleh menjadi intensif secara pengiraan.
9. Rangkaian Neural
Rangkaian Neural ialah kelas model yang diilhamkan oleh otak manusia, yang terdiri daripada lapisan nod (neuron) yang saling berkaitan. Mereka mampu memodelkan hubungan bukan linear yang kompleks dan telah berada di barisan hadapan dalam banyak kemajuan terkini dalam pembelajaran mesin.
Bentuk rangkaian saraf yang paling mudah ialah rangkaian neural suapan, di mana data mengalir dari lapisan input ke lapisan output melalui satu atau lebih lapisan tersembunyi. Setiap sambungan mempunyai berat yang berkaitan, dan rangkaian belajar dengan melaraskan pemberat ini untuk meminimumkan ralat dalam ramalan.
Rangkaian Neural ialah asas pembelajaran mendalam, dengan seni bina seperti Convolutional Neural Networks (CNNs) dan Recurrent Neural Networks (RNNs) digunakan untuk data imej dan jujukan.
10. Algoritma Pengelompokan
Algoritma pengelompokan digunakan dalam pembelajaran tanpa pengawasan untuk mengumpulkan titik data yang serupa bersama-sama. Beberapa algoritma pengelompokan yang paling biasa termasuk:
- K-Means Pengelompokan: Algoritma ini membahagikan data ke dalam kluster dengan meminimumkan varians dalam setiap kluster. Ia mudah dan cekap untuk set data yang besar tetapi memerlukan penentuan bilangan kluster terlebih dahulu.
- Pengelompokan Hierarki: Kaedah ini membina hierarki kelompok menggunakan sama ada pendekatan dari bawah ke atas (aglomeratif) atau atas ke bawah (pemecahan). Ia tidak memerlukan menyatakan bilangan kluster tetapi secara pengiraan lebih mahal.
- DBSCAN (Pengkelompokan Spatial Berasaskan Ketumpatan Aplikasi dengan Bunyi): Algoritma ini mengumpulkan mata yang tersusun rapat dan menandakan titik dalam kawasan berketumpatan rendah sebagai outlier. Ia amat berguna untuk mengenal pasti kelompok pelbagai bentuk dan saiz.
Pilihan algoritma dalam pembelajaran mesin bergantung pada sifat masalah, ciri data, dan hasil yang diinginkan. Setiap algoritma mempunyai kekuatan dan batasannya, dan memahami nuansa ini adalah penting untuk pembinaan model yang berkesan. Memandangkan bidang pembelajaran mesin terus berkembang, algoritma dan teknik baharu dibangunkan, seterusnya mengembangkan kit alat yang tersedia untuk saintis data dan pengamal pembelajaran mesin.
Soalan dan jawapan terbaru lain mengenai Pembelajaran Mesin Awan Google EITC/AI/GCML:
- Apakah kriteria untuk memilih algoritma yang betul untuk masalah tertentu?
- Jika seseorang menggunakan model Google dan melatihnya pada contoh sendiri adakah Google mengekalkan penambahbaikan yang dibuat daripada data latihan?
- Bagaimanakah seseorang mengetahui model ML yang hendak digunakan, sebelum melatihnya?
- Apakah tugas regresi?
- Bagaimanakah seseorang boleh beralih antara jadual Vertex AI dan AutoML?
- Adakah mungkin untuk menggunakan Kaggle untuk memuat naik data kewangan dan melakukan analisis statistik dan ramalan menggunakan model ekonometrik seperti R-squared, ARIMA atau GARCH?
- Bolehkah pembelajaran mesin digunakan untuk meramalkan risiko penyakit jantung koronari?
- Apakah perubahan sebenar akibat penjenamaan semula Google Cloud Machine Learning sebagai Vertex AI?
- Apakah metrik penilaian prestasi model?
- Apakah regresi linear?
Lihat lebih banyak soalan dan jawapan dalam Pembelajaran Mesin Awan Google EITC/AI/GCML