Regresi linear ialah kaedah statistik asas yang digunakan secara meluas dalam domain pembelajaran mesin, terutamanya dalam tugas pembelajaran yang diselia. Ia berfungsi sebagai algoritma asas untuk meramalkan pembolehubah bersandar berterusan berdasarkan satu atau lebih pembolehubah tidak bersandar. Premis regresi linear adalah untuk mewujudkan hubungan linear antara pembolehubah, yang boleh dinyatakan dalam bentuk persamaan matematik.
Bentuk regresi linear yang paling mudah ialah regresi linear mudah, yang melibatkan dua pembolehubah: satu pembolehubah tidak bersandar (peramal) dan satu pembolehubah bersandar (gerak balas). Hubungan antara kedua-dua pembolehubah ini dimodelkan dengan memasangkan persamaan linear kepada data yang diperhatikan. Bentuk umum persamaan ini ialah:
Dalam persamaan ini, mewakili pembolehubah bersandar yang kita sasarkan untuk meramalkan,
menunjukkan pembolehubah bebas,
ialah pintasan-y,
ialah kecerunan garisan, dan
ialah istilah ralat yang mengambil kira kebolehubahan dalam
yang tidak dapat dijelaskan oleh hubungan linear dengan
.
Pekali and
dianggarkan daripada data menggunakan kaedah yang dipanggil kuasa dua terkecil. Teknik ini meminimumkan jumlah kuasa dua perbezaan antara nilai yang diperhatikan dan nilai yang diramalkan oleh model linear. Matlamatnya adalah untuk mencari garis yang paling sesuai dengan data, dengan itu meminimumkan percanggahan antara nilai sebenar dan ramalan.
Dalam konteks pembelajaran mesin, regresi linear boleh dilanjutkan kepada regresi linear berganda, di mana berbilang pembolehubah tidak bersandar digunakan untuk meramalkan pembolehubah bersandar. Persamaan untuk regresi linear berganda ialah:
Di sini, ialah pembolehubah bebas, dan
adalah pekali yang mengukur hubungan antara setiap pembolehubah tidak bersandar dan pembolehubah bersandar. Proses menganggar pekali ini tetap sama, menggunakan kaedah kuasa dua terkecil untuk meminimumkan jumlah baki kuasa dua.
Regresi linear dinilai kerana kesederhanaan dan kebolehtafsirannya. Ia memberikan pemahaman yang jelas tentang hubungan antara pembolehubah dan membolehkan tafsiran mudah bagi pekali. Setiap pekali mewakili perubahan dalam pembolehubah bersandar untuk perubahan satu unit dalam pembolehubah bebas yang sepadan, memegang semua pembolehubah lain tetap. Kebolehtafsiran ini menjadikan regresi linear amat berguna dalam bidang yang memahami hubungan antara pembolehubah adalah penting, seperti ekonomi, sains sosial dan sains biologi.
Walaupun kesederhanaannya, regresi linear membuat beberapa andaian yang mesti dipenuhi untuk model itu sah. Andaian ini termasuk:
1. Linearity: Hubungan antara pembolehubah bersandar dan tidak bersandar adalah linear.
2. Kemerdekaan: Sisa (kesilapan) adalah bebas antara satu sama lain.
3. Homoskedastisitas: Sisa mempunyai varians malar pada setiap peringkat pembolehubah tidak bersandar.
4. Normaliti: Sisa diagihkan secara normal.
Pelanggaran andaian ini boleh membawa kepada anggaran berat sebelah atau tidak cekap, dan oleh itu, adalah penting untuk menilai andaian ini apabila menggunakan regresi linear.
Regresi linear dilaksanakan dalam banyak rangka kerja dan alatan pembelajaran mesin, termasuk Pembelajaran Mesin Awan Google, yang menyediakan penyelesaian berskala dan cekap untuk melatih dan menggunakan model linear. Google Cloud menawarkan perkhidmatan yang membolehkan pengguna memanfaatkan regresi linear untuk analisis ramalan, menggunakan infrastruktur teguhnya untuk mengendalikan set data yang besar dan pengiraan yang kompleks.
Contoh penggunaan regresi linear dalam konteks pembelajaran mesin boleh melibatkan ramalan harga perumahan berdasarkan ciri seperti rakaman persegi, bilangan bilik tidur dan lokasi. Dengan melatih model regresi linear pada data perumahan sejarah, seseorang boleh meramalkan harga rumah berdasarkan ciri-cirinya. Pekali yang diperoleh daripada model juga boleh memberikan cerapan tentang cara setiap ciri memberi kesan kepada harga, seperti berapa banyak kenaikan harga bagi setiap kaki persegi tambahan.
Dalam bidang pembelajaran mesin, regresi linear berfungsi sebagai batu loncatan kepada algoritma yang lebih kompleks. Prinsipnya adalah asas untuk memahami model lain, seperti regresi logistik dan rangkaian saraf, di mana kombinasi linear input digunakan dalam pelbagai bentuk. Selain itu, regresi linear sering digunakan sebagai model garis dasar dalam projek pembelajaran mesin kerana kesederhanaan dan kemudahan pelaksanaannya.
Regresi linear ialah alat yang berkuasa dan serba boleh dalam kit alat pembelajaran mesin, menawarkan pendekatan yang mudah untuk pemodelan ramalan dan analisis data. Keupayaannya untuk memodelkan hubungan antara pembolehubah dan memberikan hasil yang boleh ditafsir menjadikannya teknik yang berharga merentas pelbagai domain dan aplikasi.
Soalan dan jawapan terbaru lain mengenai Pembelajaran Mesin Awan Google EITC/AI/GCML:
- Apakah kriteria untuk memilih algoritma yang betul untuk masalah tertentu?
- Jika seseorang menggunakan model Google dan melatihnya pada contoh sendiri adakah Google mengekalkan penambahbaikan yang dibuat daripada data latihan?
- Bagaimanakah seseorang mengetahui model ML yang hendak digunakan, sebelum melatihnya?
- Apakah tugas regresi?
- Bagaimanakah seseorang boleh beralih antara jadual Vertex AI dan AutoML?
- Adakah mungkin untuk menggunakan Kaggle untuk memuat naik data kewangan dan melakukan analisis statistik dan ramalan menggunakan model ekonometrik seperti R-squared, ARIMA atau GARCH?
- Bolehkah pembelajaran mesin digunakan untuk meramalkan risiko penyakit jantung koronari?
- Apakah perubahan sebenar akibat penjenamaan semula Google Cloud Machine Learning sebagai Vertex AI?
- Apakah metrik penilaian prestasi model?
- Adakah mungkin untuk menggabungkan model ML yang berbeza dan membina AI induk?
Lihat lebih banyak soalan dan jawapan dalam Pembelajaran Mesin Awan Google EITC/AI/GCML