Scan lan OCR

Good afternoon

Mbokmenawa saben-saben kita ngadhepi tugas nalika sampeyan kudu nerjemahake dokumen kertas menyang wangun elektronik. Iki utamané perlu kanggo wong-wong sing sinau, nggarap dokumentasi, nerjemahake teks nganggo kamus elektronik, lan liya-liyane.

Ing artikel iki aku seneng nuduhake sawetara dasar proses iki. Umumé, pangritik lan pangenalan teks cukup akeh wektu, amarga sing paling akeh kudu dilakoni kanthi manual. Kita bakal nyoba kanggo nemtokake apa, carane lan apa.

Ora saben wong ngerti apa-apa. Sawise mindhai (pas kabeh lembaran ing scanner) sampeyan bakal duwe gambar format BMP, JPG, PNG, GIF (bisa uga ana format liyane). Dadi saka gambar iki sampeyan kudu njaluk teks - prosedur iki diarani pangenalan. Ing urutan iki, lan bakal diwenehi ing ngisor iki.

Isi

  • 1. Apa sing dibutuhake kanggo mindhai lan pangenalan?
  • 2. Pilihan mindhai teks
  • 3. Pangenalan teks teks kasebut
    • 3.1 Tèks
    • 3.2 Gambar
    • 3.3 Tabel
    • 3.4 Item sing ora perlu
  • 4. Pangenalan file PDF / DJVU
  • 5. Kesalahan mriksa lan nyimpen asil karya

1. Apa sing dibutuhake kanggo mindhai lan pangenalan?

1) Scanner

Kanggo nerjemahake dokumen dicithak menyang format teks, sampeyan kudu mbutuhake scanner lan, kanthi mangkono, program "native" lan pembalap sing mlebu. Kanthi wong-wong mau, sampeyan bisa nggolek dokumen lan disimpen kanggo proses luwih lanjut.

Sampeyan bisa nggunakake analog liyane, nanging piranti lunak sing teka karo scanner ing kit biasane dianggo luwih cepet lan duwe opsi liyane.

Gumantung apa jenis scanner sampeyan duwe - kecepatan karya bisa beda-beda. Ana scanner sing bisa njupuk gambar saka sheet sajrone 10 detik, ana sing bakal entuk 30 detik. Yen sampeyan ngetik buku kanthi 200-300 lembar - aku ora bisa ngetung kaping pirang-pirang bakal ana bedane wektu?

2) Program kanggo pangenalan

Ing artikel kita, aku bakal nuduhake sampeyan karya ing salah siji saka program paling apik kanggo mindhai lan ngenali pancen sembarang dokumen - ABBYY FineReader. Wiwit program wis dibayar, banjur langsung aku bakal menehi link menyang liyane - analog gratis saka Cunei Form. Bener, aku ora mbandhingake, amarga kasunyatan sing menang apik ing kabeh babagan, aku menehi rekomendasi kanggo nyoba kabeh padha.

ABBYY FineReader 11

Situs resmi: //www.abbyy.ru/

Salah sawijining program paling apik. Iki dirancang kanggo ngenali teks ing gambar. Mbangun akeh pilihan lan fitur. Sampeyan bisa ngetung pirang-pirang fonts, malah ndhukung versi handwritten (senadyan aku wis ora nyoba dhewe, aku luwih seneng ngenali versi handwritten kajaba sampeyan duwe tulisan tangan kaligrafi sing sampurna). Informasi liyane babagan nggarap dheweke bakal dibahas ing ngisor iki. Kita uga nyathet yen artikel bakal nampung karya ing program 11 versi.

Minangka aturan, versi ABBYY FineReader beda banget ora beda. Sampeyan bisa nindakake kanthi gampang ing liyane. Bentenane utama bisa uga digoleki, kacepetan program lan kemampuane. Contone, versi sadurungé nolak kanggo mbukak dokumen PDF lan DJVU ...

3) Dokumen kanggo dipindai

Ya, supaya ing kene, aku mutusake kanggo njupuk dokumen ing kolom kapisah. Ing sawetara kasus, pindhah buku, koran, artikel, majalah, lan liya-liyane buku-buku kasebut lan sastra sing dikarepake. Apa aku ngarahake? Saka pengalaman pribadi, aku bisa ngomong sing akeh sing pengin dipindai - bisa uga ana ing jaring! Kaping pirang-pirang wektu aku nyimpen wektu nalika nemokake buku utawa liyane sing wis dipindai ing jaringan. Aku mung kudu nyalin teks kasebut menyang dokumen lan terus nganggo.

Saka saran iki prasaja - sadurunge sampeyan ngilangi soko, priksa yen wong wis mentas lan sampeyan ora perlu mbuang wektu.

2. Pilihan mindhai teks

Kene, aku ora bakal ngomongake pembalap kanggo pemindai, program sing dilakoni, amarga kabeh model pemindai beda, perangkat lunak uga beda nang endi wae lan mbedakake lan malah luwih jelas nuduhake cara nindakake operasi iki ora realistis.

Nanging kabeh scanner duwe setelan sing padha sing bisa nyebabake banget babagan kacepetan lan kualitas karya panjenengan. Kene babagan mau aku bakal mung ngomong kene. Aku bakal ndaftar.

1) Kualitas pindai - DPI

Pisanan, nyetel kualitas pindai ing opsi sing ora luwih murah tinimbang 300 DPI. Pancen luwih becik yen sijine luwih cilik, yen bisa. Sing luwih dhuwur indikator DPI yaiku, gambar sing luwih cetha bakal katon, lan proses luwih lanjut bakal luwih cepet. Kajaba iku, luwih dhuwur kualitas scan - kurang kesalahan sampeyan sampeyan kudu mbenerake.

Pilihan paling apik, biasane 300-400 DPI.

2) chromaticity

Parameter iki banget ndadékaké wektu pindai (kanthi cara, DPI uga mengaruhi, nanging padha kuwat, lan mung nalika pangguna ngowahi nilai dhuwur).

Biasane ana telung mode:

- ireng lan putih (sampurna kanggo teks biasa);

- werna abu-abu (cocok kanggo teks karo tabel lan gambar);

- werna (kanggo majalah warna, buku, sacara umum, dokumen, ing ngendi werna wigati).

Biasane wektu pindho gumantung saka pilihan warna. Sawise kabeh, yen sampeyan duwe dokumen gedhe, malah ekstra 5-10 detik ing kaca kanthi sakabehe bakal nyebabake wektu sing layak ...

3) Foto

Sampeyan bisa njaluk dokumen kasebut ora mung dening mindhai, nanging uga njupuk foto kasebut. Minangka aturan, ing kasus iki sampeyan bakal duwe sawetara masalah liyane: distorsi gambar, surem. Amarga iki, mbutuhake panyuntingan luwih lanjut lan pangolahan teks sing ditampa maneh. Secara pribadi, aku ora nyaranake nggunakake kamera kanggo bisnis iki.

Penting kanggo dicathet yen ora saben dokumen kasebut bakal dikenali, amarga kualitas scan bisa dadi ...

3. Pangenalan teks teks kasebut

Kita nganggep manawa kaca-kaca sing disigar ditampilake sampeyan nampa. Paling kerep iku format: tif, bmb, jpg, png. Umumé, kanggo ABBYY FineReader - iki ora penting banget ...

Sawise mbukak gambar ing ABBYY FineReader, program, minangka aturan, ing mesin wiwit milih wilayah lan ngenali. Nanging kadhangkala dheweke nindakake salah. Kanggo iki kita nimbang pilihan saka wilayah sing dipengini kanthi manual.

Penting! Ora kabeh wong sing langsung mangerteni yen sawise mbukak dokumen ing program kasebut, dokumen sumber ditampilake ing sisih kiwa ing jendhela, sing nyorot wilayah sing beda-beda. Sawise ngeklik tombol "pangenalan", program ing jendhela ing sisih tengen bakal nggawa sampeyan teks rampung. Sawise pangenalan, omongane, dianjurake kanggo mriksa teks kanggo kasalahan ing FineReader sing padha.

3.1 Tèks

Wilayah iki digunakake kanggo nyorot tulisan. Gambar lan tabel kudu dikalahake. Fon jarang lan ora biasa kudu dietik kanthi manual ...

Kanggo milih area teks, menehi perhatian menyang panel ing sisih ndhuwur FineReader. Ana tombol "T" (pirsani. Gambar ing ngisor iki, pointer mouse mung ing tombol iki). Klik ing, banjur ing gambar ing ngisor iki pilih wilayah rapi sing apik ing ngendi teks kasebut. Ing cara iki, ing sawetara kasus sampeyan kudu nggawe pamblokiran teks 2-3, lan kadhangkala 10-12 saben kaca, amarga Formatting teks bisa beda lan ora pilih kabeh area kanthi siji persegi panjang.

Penting kanggo dicathet yen gambar ngirim ora tiba ing wilayah teks! Ing mangsa ngarep, bakal nylametake sampeyan akeh wektu ...

3.2 Gambar

Digunakna kanggo nyorot gambar lan wilayah kasebut sing angel diakoni amerga kualitas ora apik utawa font sing ora biasa.

Ing gambar ing ngisor iki, pointer mouse dumunung ing tombol sing digunakake kanggo milih area "gambar". Mangkono, pancen bagean saka kaca sing bisa dipilih ing wilayah iki, lan FineReader banjur nyisipake kasebut dadi gambar normal. Ie mung "bodho" bakal nyalin ...

Biasane, wilayah iki digunakake kanggo nyorot tabel sing ora dipindai, kanggo nyorot teks lan font non-standar, gambar kasebut piyambak.

3.3 Tabel

Gambar ing ngisor iki nuduhake tombol kanggo nyorot tabel. Umumé, aku banget migunani. Kasunyatane sampeyan kudu nggambar kanthi rutin (bener) saben baris ing meja lan nuduhake apa lan cara program kasebut. Yen tabel cilik lan ora kualitas apik, aku saranake nggunakake area "gambar" kanggo tujuan kasebut. Mangkene nyimpen akeh wektu, banjur sampeyan bisa kanthi cepet nggawe tabel ing Word kanthi basis gambar.

3.4 Item sing ora perlu

Penting kanggo dicathet. Kadhangkala ana unsur sing ora perlu ing kaca sing nggawe angel ngenali teks, utawa ora ngidini sampeyan milih wilayah sing dikarepake. Padha bisa dibusak kanthi nggunakake "penghapus" ing kabeh.

Kanggo nindakake iki, pindhah menyang mode editing gambar.

Pilih piranti eraser lan pilih area sing ora dikarepake. Bakal dibusak lan ing papane bakal dadi kertas putih.

Muga-muga, aku nyaranake nggunakake pilihan iki kanggo sampeyan sabanjure. Coba kabeh area teks sing dipilih, ing ngendi sampeyan ora mbutuhake pirembagan teks, utawa ana poin sing ora perlu, blurriness, distortions - mbusak karo eraser. Thanks kanggo pangenalan iki bakal luwih cepet!

4. Pangenalan file PDF / DJVU

Umumé, format pangenalan iki ora béda karo wong liya - umpamane. Sampeyan bisa nggarap kaya kaya gambar. Ing bab mung program ngirim ora versi lawas banget, yen sampeyan ora mbukak file PDF / DJVU - nganyari versi 11.

A saran sethithik. Sawise mbukak dokumen kasebut ing FineReader - bakal kanthi otomatis ngenali dokumen kasebut. Asring ing file PDF / DJVU, area tartamtu kaca ora dibutuhake saindhenging kabeh dokumen! Kanggo mbusak area sing kaya mengkene ing kabeh kaca, tindakake:

1. Pindhah menyang bagean editing gambar.

2. Aktifake pilihan "trimming".

3. Pilih area sing sampeyan butuhake ing kabeh kaca.

4. Klik ing kabeh kaca lan trim.

5. Kesalahan mriksa lan nyimpen asil karya

Iku bakal katon yen ana uga masalah liyane, nalika kabeh wilayah wis dipilih, banjur dikenali - njupuk lan nyimpen ... Ora ana!

Kaping pisanan, kita kudu mriksa dokumen!

Kanggo ngaktifake, sawise pangakuan, ing jendhela ing sisih tengen, bakal ana tombol "mriksa", ndeleng gambar ing ngisor iki. Sawise ngeklik, program FineReader kanthi otomatis bakal nuduhake sampeyan wilayah sing program kasalahan lan ora bisa dipercaya nemtokake simbol siji utawa liyane. Sampeyan mung kudu milih, utawa sampeyan setuju karo pendapat program, utawa ketik karakter sampeyan.

Muga-muga, ing setengah kasus, kira-kira, program iki bakal menehi sampeyan tembung sing wis rampung - sampeyan mung kudu nggunakake mouse kanggo milih pilihan sampeyan pengin.

Kapindho, sawise mriksa sampeyan kudu milih format sing nyimpen asil karya sampeyan.

Ing kene, FineReader menehi siji sing paling lengkap: sampeyan bisa langsung ngirim informasi ing tembung siji-on-siji, lan sampeyan bisa nyimpen ing salah siji saka puluhan format. Nanging aku pengin nyorot aspek liyane penting. Format manéka sing dipilih, luwih penting kanggo milih jenis salinan! Coba opsi paling menarik ...

Salinan sing tepat

Kabeh wilayah sing dipilih ing kaca kasebut ing dokumen sing diakoni bakal cocog persis ing dokumen sumber. Pilihan sing paling trep nalika penting kanggo sampeyan ora ilang ngowahi format teks. Miturut cara, fonts uga bakal meh padha karo asline. Aku nyaranake pilihan iki kanggo ngirim dokumen menyang Word, kanggo nerusake karya sing luwih akeh.

Nyunting salinan

Pilihan iki apik amarga sampeyan wis nampa versi teks sing wis diformat. Ie Indikasi saka kilometer, sing uga ana ing dokumen asli - sampeyan ora bakal ketemu. Opsi migunani yen sampeyan bakal ngowahi informasi kanthi nyata.

Bener, sampeyan ora milih yen penting kanggo sampeyan ngreksa gaya desain, fonts, indents. Kadhangkala, yen pangenalan ora banget sukses - dokumen sampeyan bisa "gawe curang" amarga format sing diganti. Ing kasus iki, dianjurake kanggo milih salinan pas.

Teks kosong

Opsi kanggo wong sing mung perlu teks saka kaca tanpa kabeh. Cocog kanggo dokumen tanpa gambar lan tabel.

Iki nyimpulake artikel pemindaian lan pangenalan dokumen. Mugi kanthi bantuan tips-tips sederhana iki sampeyan bisa ngatasi masalah sampeyan ...

Good luck!