Bagaimanakah anda boleh mengakses teks yang diekstrak daripada imej menggunakan API Google Vision?

by Akademi EITCA / Rabu, Disember 27 2023 / Disiarkan dalam Kepintaran Buatan, API Penglihatan Google EITC/AI/GVAPI, Memahami teks dalam data visual, Mengesan dan mengekstrak teks dari tulisan tangan, Semakan peperiksaan

Untuk mengakses teks yang diekstrak daripada imej menggunakan Google Vision API, anda boleh mengikuti satu siri langkah yang melibatkan penggunaan keupayaan Optical Character Recognition (OCR) API. Teknologi OCR dalam API Google Vision membolehkan pengesanan dan pengekstrakan teks daripada imej, termasuk tulisan tangan. Fungsi ini amat berguna dalam aplikasi yang memerlukan analisis dan pemahaman maklumat tekstual yang terdapat dalam data visual.

Pertama, anda perlu menyediakan persekitaran yang diperlukan untuk berfungsi dengan API Google Vision. Ini melibatkan mencipta projek dalam Google Cloud Console, mendayakan Vision API dan mendapatkan bukti kelayakan pengesahan yang diperlukan seperti kunci API atau kunci akaun perkhidmatan.

Setelah persekitaran anda disediakan, anda boleh menggunakan kaedah `asyncBatchAnnotateFiles` API Vision untuk melaksanakan OCR pada fail imej. Kaedah ini membolehkan anda menghantar senarai fail imej untuk diproses dan menerima keputusan secara tidak segerak. Sebagai alternatif, anda boleh menggunakan kaedah `asyncBatchAnnotateImages` untuk memproses senarai imej secara langsung.

Untuk mengekstrak teks daripada imej, anda perlu mencipta contoh objek `AnnotateImageRequest` dan nyatakan ciri yang dikehendaki. Dalam kes ini, anda akan menetapkan ciri `TEXT_DETECTION` untuk menunjukkan bahawa anda ingin mengekstrak teks daripada imej. Anda juga boleh menentukan parameter tambahan seperti pembayang bahasa untuk meningkatkan ketepatan OCR.

Seterusnya, anda perlu mengekod fail imej ke dalam rentetan berkod base64 dan mencipta contoh objek `Imej` menggunakan data imej yang dikodkan. Objek `Image` ini harus ditambah pada objek `AnnotateImageRequest` yang dibuat sebelum ini.

Selepas menyediakan permintaan, anda boleh menghantarnya ke API Vision menggunakan kaedah `batchAnnotateImages` atau `batchAnnotateFiles`, bergantung pada pendekatan pilihan anda. API akan memproses imej dan mengembalikan respons yang mengandungi teks yang diekstrak.

Untuk mengakses teks yang diekstrak daripada respons, anda boleh mengulangi medan `textAnnotations` objek `AnnotateImageResponse`. Medan ini mengandungi senarai objek `EntityAnnotation`, setiap satu mewakili elemen teks yang dikesan dalam imej. Medan `penerangan` bagi setiap objek `EntityAnnotation` mengandungi teks yang diekstrak.

Berikut ialah coretan kod contoh dalam Python yang menunjukkan cara mengakses teks yang diekstrak daripada imej menggunakan API Google Vision:

python
from google.cloud import vision

def extract_text_from_image(image_path):
    client = vision.ImageAnnotatorClient()

    with open(image_path, 'rb') as image_file:
        content = image_file.read()

    image = vision.Image(content=content)

    request = vision.AnnotateImageRequest(
        image=image,
        features=[{'type': vision.Feature.Type.TEXT_DETECTION}]
    )

    response = client.batch_annotate_images(requests=[request])

    for annotation in response.responses[0].text_annotations:
        extracted_text = annotation.description
        print(extracted_text)

# Usage
extract_text_from_image('path_to_image.jpg')

Dalam contoh ini, fungsi `extract_text_from_image` membawa laluan ke fail imej sebagai input dan menggunakan pustaka klien Google Cloud Vision untuk menghantar permintaan kepada Vision API. Teks yang diekstrak kemudiannya dicetak.

Untuk mengakses teks yang diekstrak daripada imej menggunakan API Google Vision, anda perlu menyediakan persekitaran, mencipta objek `AnnotateImageRequest` dengan ciri yang dikehendaki, mengekod fail imej, menghantar permintaan kepada API dan mendapatkan semula teks yang diekstrak. daripada respon. Keupayaan OCR API Visi membolehkan pengesanan dan pengekstrakan teks daripada imej, termasuk tulisan tangan.

Soalan dan jawapan terbaru lain mengenai Mengesan dan mengekstrak teks dari tulisan tangan:

Lebih banyak soalan dan jawapan:

Bidang: Kepintaran Buatan
program: API Penglihatan Google EITC/AI/GVAPI (pergi ke program pensijilan)
Pelajaran: Memahami teks dalam data visual (pergi ke pelajaran yang berkaitan)
Topic: Mengesan dan mengekstrak teks dari tulisan tangan (pergi ke topik yang berkaitan)
Semakan peperiksaan

Tagged under: Kepintaran Buatan, API Google Cloud Vision, Pemprosesan imej, OCR, Pengiktirafan aksara optik, Pengekstrakan Teks

Akademi EITCA

Bagaimanakah anda boleh mengakses teks yang diekstrak daripada imej menggunakan API Google Vision?

Soalan dan jawapan terbaru lain mengenai Mengesan dan mengekstrak teks dari tulisan tangan:

Lebih banyak soalan dan jawapan:

Akademi EITCA ialah sebahagian daripada rangka kerja Pensijilan IT Eropah

Kelayakan untuk EITCA Academy 80% sokongan EITCI DSJC Subsidi

Akademi EITCA

MASUK KE AKAUN ANDA DENGAN SETIAP NAMA PENGGUNA ATAU ALAMAT E-mel

MENGUBAH BUTIRAN ANDA?

Buat akaun

Bagaimanakah anda boleh mengakses teks yang diekstrak daripada imej menggunakan API Google Vision?

Soalan dan jawapan terbaru lain mengenai Mengesan dan mengekstrak teks dari tulisan tangan:

Lebih banyak soalan dan jawapan:

Kelayakan untuk EITCA Academy 80% sokongan EITCI DSJC Subsidi