Operasi lilitan ialah proses asas dalam bidang rangkaian neural konvolusi (CNN), terutamanya dalam domain pengecaman imej. Operasi ini adalah penting dalam mengekstrak ciri daripada imej, membolehkan model pembelajaran mendalam memahami dan mentafsir data visual. Rumusan matematik operasi lilitan pada imej 2D adalah penting untuk memahami cara CNN memproses dan menganalisis imej.
Secara matematik, operasi lilitan untuk imej 2D boleh dinyatakan seperti berikut:
[ (I * K)(x, y) = sum_{i=-m}^{m} sum_{j=-n}^{n} I(x+i, y+j) cdot K(i, j ) ]Di mana:
– ( I ) mewakili imej input.
– ( K ) menandakan kernel atau penapis.
– ( (x, y) ) ialah koordinat bagi piksel keluaran.
– ( m ) dan ( n ) ialah separuh lebar dan separuh tinggi isirong, masing-masing.
Dalam persamaan ini, kernel ( K ) meluncur ke atas imej input ( I ), melakukan pendaraban mengikut unsur dan menjumlahkan keputusan untuk menghasilkan nilai piksel output tunggal. Proses ini diulang untuk setiap piksel dalam peta ciri output, menghasilkan imej diubah yang menyerlahkan ciri khusus berdasarkan nilai kernel.
Operasi lilitan boleh difahami dengan lebih baik melalui contoh langkah demi langkah. Pertimbangkan kernel 3×3 ringkas ( K ) dan imej input 5×5 ( I ):
[ K = mula{bmatriks}1 & 0 & -1 \
1 & 0 & -1 \
1 & 0 & -1
tamat{bmatriks} ] [ I = mula{bmatriks}
1 & 2 & 3 & 4 & 5 \
6 & 7 & 8 & 9 & 10 \
11 & 12 & 13 & 14 & 15 \
16 & 17 & 18 & 19 & 20 \
21 & 22 & 23 & 24 & 25
tamat{bmatriks} ]
Untuk mengira lilitan, kami meletakkan pusat kernel pada setiap piksel imej input dan melakukan langkah berikut:
1. Letakkan kernel: Letakkan bahagian tengah kernel di sudut kiri atas imej.
2. Pendaraban mengikut unsur: Darabkan setiap elemen kernel dengan elemen imej yang sepadan.
3. Penjumlahan: Jumlahkan hasil pendaraban mengikut unsur.
4. Gerakkan kernel: Alihkan kernel ke kedudukan seterusnya dan ulangi langkah 2-3.
Untuk kedudukan pertama (sudut kiri atas), pengiraan adalah seperti berikut:
[ mula {diselaraskan}(I * K)(1, 1) &= (1 cdot 1) + (2 cdot 0) + (3 cdot -1) \
&quad + (6 cdot 1) + (7 cdot 0) + (8 cdot -1) \
&quad + (11 cdot 1) + (12 cdot 0) + (13 cdot -1) \
&= 1 + 0 – 3 + 6 + 0 – 8 + 11 + 0 – 13 \
&= -6
akhir{diselaraskan} ]
Keputusan ini, -6, ialah nilai peta ciri output pada kedudukan (1, 1). Mengulangi proses ini untuk setiap kedudukan kernel di atas imej input menjana keseluruhan peta ciri output.
Operasi lilitan biasanya disertai dengan konsep tambahan seperti pelapik dan langkah:
- padding: Menambah piksel tambahan di sekeliling sempadan imej input, selalunya dengan sifar (sifar-padding), untuk mengawal dimensi spatial peta ciri output. Padding memastikan bahawa peta ciri output mempunyai dimensi yang sama dengan imej input, mengekalkan maklumat spatial.
- Langkah: Saiz langkah yang mana kernel bergerak merentasi imej input. Langkah 1 bermakna kernel menggerakkan satu piksel pada satu masa, manakala langkah 2 bermakna kernel menggerakkan dua piksel pada satu masa. Stride mempengaruhi dimensi spatial peta ciri output, dengan langkah yang lebih besar menghasilkan dimensi output yang lebih kecil.
Dimensi keluaran operasi lilitan boleh dikira menggunakan formula berikut:
[ teks{Lebar Output} = frac lantai kiri{teks{Lebar Input} – teks{Lebar Kernel} + 2 teks cdot{Padding}}{text{Stride}} lantai kanan + 1 ] [ teks{Ketinggian Output} = frac lantai kiri{teks {Input Height} – teks{Ketinggian Kernel} + 2 teks cdot{Padding}}{text{Stride}} rightfloor + 1 ]Formula ini memastikan bahawa dimensi spatial peta ciri output ditentukan dengan betul berdasarkan dimensi imej input, saiz kernel, pelapik dan langkah.
Dalam konteks rangkaian neural convolutional, berbilang lapisan convolutional disusun bersama, masing-masing dengan set kernel yang boleh dipelajari sendiri. Lapisan ini secara beransur-ansur mengekstrak ciri peringkat lebih tinggi daripada imej input, membolehkan rangkaian mengenali corak dan objek yang kompleks. Kernel dalam setiap lapisan dipelajari semasa proses latihan melalui perambatan balik, mengoptimumkan prestasi rangkaian pada tugasan yang diberikan.
Lapisan konvolusi sering diikuti oleh fungsi pengaktifan, seperti ReLU (Rectified Linear Unit), yang memperkenalkan bukan linear ke dalam model. Ketidak-linearan ini membolehkan rangkaian mempelajari perwakilan yang lebih kompleks. Selain itu, lapisan pengumpulan, seperti pengumpulan maksimum atau pengumpulan purata, digunakan untuk mengurangkan dimensi spatial peta ciri, menjadikan model lebih cekap dari segi pengiraan dan kurang terdedah kepada pemasangan berlebihan.
Contoh praktikal rangkaian saraf konvolusi untuk pengecaman imej ialah seni bina LeNet-5 yang terkenal, direka untuk pengecaman digit tulisan tangan. LeNet-5 terdiri daripada berbilang lapisan konvolusi dan gabungan, diikuti dengan lapisan bersambung sepenuhnya. Lapisan konvolusi mengekstrak ciri daripada imej input, manakala lapisan bersambung sepenuhnya melakukan pengelasan akhir.
Untuk menggambarkan operasi lilitan dalam konteks LeNet-5, pertimbangkan lapisan lilitan pertama, yang mengambil imej input 32×32 dan menggunakan enam biji 5×5 dengan langkah 1 dan tiada pelapik. Peta ciri keluaran mempunyai dimensi 28×28, dikira seperti berikut:
[ teks{Lebar Output} = frac lantai kiri{32 – 5 + 2 cdot 0}{1} lantai kanan + 1 = 28 ] [ teks{Ketinggian Output} = frac lantai kiri{32 – 5 + 2 cdot 0}{1} lantai kanan + 1 = 28 ]Setiap satu daripada enam kernel menghasilkan peta ciri 28×28 yang berasingan, menangkap pelbagai aspek imej input. Peta ciri ini kemudiannya melalui fungsi pengaktifan ReLU dan lapisan pengumpulan maksimum 2×2 dengan langkah 2, menghasilkan peta ciri 14×14.
Lapisan seterusnya dalam LeNet-5 terus menggunakan operasi lilitan dan pengumpulan, secara beransur-ansur mengurangkan dimensi spatial sambil meningkatkan kedalaman peta ciri. Lapisan terakhir yang disambungkan sepenuhnya melakukan pengelasan berdasarkan ciri yang diekstrak, mengeluarkan kelas digit yang diramalkan.
Operasi lilitan ialah asas rangkaian neural konvolusi, membolehkan pengekstrakan ciri bermakna daripada imej. Rumusan matematik operasi lilitan melibatkan gelongsor kernel ke atas imej input, melakukan pendaraban mengikut unsur, dan menjumlahkan keputusan. Konsep tambahan seperti pelapik dan langkah memainkan peranan penting dalam mengawal dimensi spatial peta ciri keluaran. Lapisan konvolusi, digabungkan dengan fungsi pengaktifan dan lapisan pengumpulan, membentuk blok binaan model pengecaman imej yang berkuasa seperti LeNet-5, yang mampu mengenali corak dan objek kompleks dalam data visual.
Soalan dan jawapan terbaru lain mengenai Penglihatan komputer yang maju:
- Apakah formula untuk fungsi pengaktifan seperti Unit Linear Dibetulkan untuk memperkenalkan bukan linear ke dalam model?
- Apakah formula matematik untuk fungsi kehilangan dalam rangkaian saraf lilitan?
- Apakah persamaan untuk pengumpulan maksimum?
- Apakah kelebihan dan cabaran menggunakan konvolusi 3D untuk pengecaman tindakan dalam video, dan bagaimanakah set data Kinetik menyumbang kepada bidang penyelidikan ini?
- Dalam konteks anggaran aliran optik, bagaimanakah FlowNet menggunakan seni bina penyahkod pengekod untuk memproses pasangan imej, dan apakah peranan yang dimainkan oleh set data Flying Chairs dalam melatih model ini?
- Bagaimanakah leverage seni bina U-NET melangkau sambungan untuk meningkatkan ketepatan dan perincian output segmentasi semantik, dan mengapa sambungan ini penting untuk perambatan belakang?
- Apakah perbezaan utama antara pengesan dua peringkat seperti Faster R-CNN dan pengesan satu peringkat seperti RetinaNet dari segi kecekapan latihan dan pengendalian komponen yang tidak boleh dibezakan?
- Bagaimanakah konsep Intersection over Union (IoU) meningkatkan penilaian model pengesanan objek berbanding menggunakan kehilangan kuadratik?
- Bagaimanakah sambungan baki dalam seni bina ResNet memudahkan latihan rangkaian saraf yang sangat dalam, dan apakah kesannya terhadap prestasi model pengecaman imej?
- Apakah inovasi utama yang diperkenalkan oleh AlexNet pada tahun 2012 yang memajukan bidang rangkaian saraf konvolusi dan pengecaman imej dengan ketara?
Lihat lebih banyak soalan dan jawapan dalam penglihatan komputer Lanjutan

