Pendekatan beg perkataan ialah teknik yang biasa digunakan dalam pemprosesan bahasa semula jadi (NLP) untuk menukar perkataan kepada perwakilan berangka. Pendekatan ini berdasarkan idea bahawa susunan perkataan dalam dokumen tidak penting, dan hanya kekerapan perkataan yang penting. Model beg perkataan mewakili dokumen sebagai koleksi perkataan, tidak menghiraukan tatabahasa, susunan perkataan dan konteks.
Untuk menukar perkataan kepada perwakilan berangka menggunakan pendekatan beg perkataan, beberapa langkah terlibat. Mari kita bincangkan setiap langkah secara terperinci.
1. Tokenisasi: Langkah pertama ialah tokenize teks, yang melibatkan memecahkannya kepada perkataan atau token individu. Proses ini biasanya melibatkan mengalih keluar tanda baca, menukar semua perkataan kepada huruf kecil dan membahagikan teks kepada token berdasarkan ruang putih.
Sebagai contoh, pertimbangkan ayat berikut: "Musang coklat yang cepat melompat ke atas anjing yang malas." Selepas tokenisasi, kami mendapat token berikut: ["the", "quick", "brown", "musang", "melompat", "over", "the", "malas", "dog"].
2. Penciptaan Perbendaharaan Kata: Langkah seterusnya ialah mencipta perbendaharaan kata, iaitu satu set unik semua perkataan yang terdapat dalam korpus atau koleksi dokumen. Setiap perkataan dalam perbendaharaan kata diberikan indeks atau pengecam yang unik.
Menggunakan contoh di atas, perbendaharaan kata ialah: ["the", "quick", "brown", "musang", "melompat", "over", "malas", "anjing"].
3. Vektorisasi: Setelah kita mempunyai perbendaharaan kata, kita boleh mewakili setiap dokumen sebagai vektor nombor. Panjang vektor adalah sama dengan saiz perbendaharaan kata, dan setiap elemen vektor mewakili kekerapan atau kehadiran perkataan dalam dokumen.
Sebagai contoh, mari kita pertimbangkan ayat "Musang coklat cepat melompat." Menggunakan perbendaharaan kata di atas, kita boleh mewakili ayat ini sebagai vektor: [1, 1, 1, 1, 1, 0, 0, 0]. Di sini, lima elemen pertama mewakili kekerapan perkataan "the", "quick", "brown", "fox", dan "melompat" dalam ayat, manakala tiga elemen terakhir mewakili ketiadaan perkataan "over" , "malas", dan "anjing".
4. Pemberatan Kekerapan Jangka-Kekerapan Dokumen Songsang (TF-IDF): Sebagai tambahan kepada beg asas perwakilan perkataan, pemberat TF-IDF boleh digunakan untuk memberi lebih kepentingan kepada perkataan jarang dan kurang kepentingan kepada perkataan biasa. TF-IDF ialah ukuran statistik yang menilai kepentingan sesuatu perkataan dalam dokumen berbanding koleksi dokumen.
TF-IDF dikira dengan mendarab istilah kekerapan (TF) perkataan dalam dokumen dengan kekerapan dokumen songsang (IDF) perkataan merentas keseluruhan korpus. IDF dikira sebagai logaritma jumlah bilangan dokumen dibahagikan dengan bilangan dokumen yang mengandungi perkataan.
Sebagai contoh, pertimbangkan korpus dua dokumen: "Musang coklat cepat" dan "Anjing malas". Perwakilan TF-IDF bagi perkataan "cepat" dalam dokumen pertama akan lebih tinggi daripada dalam dokumen kedua kerana ia hanya muncul dalam dokumen pertama.
Pendekatan beg perkataan menukar perkataan kepada perwakilan berangka dengan menandakan teks, mencipta perbendaharaan kata, dan menvektorkan dokumen berdasarkan kekerapan atau kehadiran perkataan. Wajaran TF-IDF boleh digunakan untuk memberikan kepentingan yang lebih tinggi kepada perkataan yang jarang ditemui dan kepentingan yang lebih rendah kepada perkataan biasa.
Soalan dan jawapan terbaru lain mengenai Pembelajaran Mesin Awan Google EITC/AI/GCML:
- Apakah regularisasi?
- Adakah terdapat jenis latihan model AI di mana kedua-dua pendekatan pembelajaran diselia dan tidak diselia dilaksanakan pada masa yang sama?
- Bagaimanakah pembelajaran berlaku dalam sistem pembelajaran mesin tanpa pengawasan?
- Bagaimana untuk menggunakan set data Fashion-MNIST dalam Pembelajaran Mesin Awan Google/Platform AI?
- Apakah jenis algoritma untuk pembelajaran mesin yang ada dan bagaimana seseorang memilihnya?
- Apabila kernel bercabang dengan data dan yang asal adalah peribadi, bolehkah kernel bercabang menjadi umum dan jika ya bukan pelanggaran privasi?
- Bolehkah logik model NLG digunakan untuk tujuan selain NLG, seperti ramalan dagangan?
- Apakah beberapa fasa pembelajaran mesin yang lebih terperinci?
- Adakah TensorBoard alat yang paling disyorkan untuk visualisasi model?
- Apabila membersihkan data, bagaimanakah seseorang boleh memastikan data tidak berat sebelah?
Lihat lebih banyak soalan dan jawapan dalam Pembelajaran Mesin Awan Google EITC/AI/GCML