Optično prepoznavanje znakov (OCR). Programska oprema za optično prepoznavanje znakov: ABBYY FineReader, CuneiForm

Vsebina

Kje se uporablja OCR
Postopek določanja točnosti besedila
Optična tehnologija za Braillovo pisavo
Izbira programske opreme za prepoznavanje besedila
Priljubljena programska oprema za mobilne naprave
Googlovi dokumenti
Optično prepoznavanje Abbyy
Storitev Adobe Acrobat v oblaku
Najboljša brezplačna programska oprema
Prepoznavanje znakov v operacijskem sistemu Linux

Tehnologijo OCR (optično prepoznavanje znakov) je mogoče uporabiti za pretvorbo tiskanega izvoda dokumenta v elektronsko različico. Če je na primer večstranska kopija skenirana v datoteko TIFF, se naloži v programsko opremo OCR, ki prepozna besedilo in ga nato prevede v datoteko, ki jo je mogoče urejati. Nekatere aplikacije omogočajo skeniranje strani in pretvorbo vsebine v dokument v enem koraku.

Čeprav je bila tehnologija prvotno razvita za optično prepoznavanje znakov, jo je mogoče uporabiti tudi za prepoznavanje rokopisa. Poštne službe, kot je USPS, na primer uporabljajo programsko opremo OCR da samodejno obdelavo pisem in paketov z branjem naslova.

Kje se uporablja OCR

OCR pomeni optično prepoznavanje znakov. Gre za razširjeno tehnologijo za prepoznavanje besedila v slikah v obliki skeniranih dokumentov in fotografij. Ta tehnologija se uporablja za pretvorbo skoraj vseh vrst slik, ki vsebujejo pisano, ročno ali tipkano besedilo, v strojno berljive besedilne podatke.

OCR je postal priljubljen v zgodnjih devetdesetih letih prejšnjega stoletja kot poskus digitalizacije zgodovinskega gradiva. Od takrat se je metoda bistveno izboljšala in zdaj zagotavlja skoraj popolno natančnost pri optičnem prepoznavanju znakov. Uporabljajo se napredne tehnike, kot je consko OCR za avtomatizacijo zapleteni delovni tokovi, ki temeljijo na pretvorbi tipkopisnih besedil v digitalne dokumente. Ko je skenirano gradivo obdelano, lahko besedilo urejate s programi, kot sta Microsoft Word ali Google Docs, ki sta urejevalnika besedila.

Pred uvedbo te tehnologije je bila edina možnost za digitalizacijo tiskanih dokumentov ročno tipkanje. To ni bilo le zamudno, temveč je privedlo tudi do netočnosti in napak pri reprodukciji kopije. OCR se pogosto uporablja kot "skrita" tehnologija v številnih znanih sistemih in storitvah, ki vključujejo avtomatizacijo vnosa podatkov in indeksiranje za iskalniki, samodejno optično prepoznavanje številk ter pomoč slepim in slabovidnim.

Postopek določanja točnosti besedila

Postopek za določanje natančnosti besedila

Vsak korak postopka OCR je pomemben za določitev natančnosti končnega besedila. Začne se s pretvorbo tiskanega dokumenta. Če so na zaslonu razmazani madeži, madeži in nizek kontrast, bo programska oprema za prepoznavanje delala napake in rezultat ne bo pravilen. Da bi se izognili tem težavam, lahko naredite izboljšano fotokopijo izpisa.

Prvi korak v postopku je skeniranje natisnjenega besedila. Programska oprema OCR deluje s slikovnimi datotekami. S skenerjem ali dobrim digitalnim fotoaparatom naredite jasne fotokopije dokumentov. Bolje je, da skenirane datoteke pretvorite v črno-belo. Postopek je binarni. S črno barvno shemo je besedilo OCR prepoznano na sliki, belo besedilo pa deluje kot ozadje.

Drugi korak je prepoznavanje znakov. Hitrost tega postopka je odvisna od uporabljene programske opreme OCR. Večina jih analizira vsak element posebej. namen programa je določiti znake, vendar dobri programi ne prepoznajo le besedila, temveč tudi tabele in druge elemente postavitve.

Postopek ni popoln, saj kot je na natančnost vpliva veliko dejavnikov. Kateri programi so zasnovani za optično prepoznavanje znakov, si oglejte spodaj. Uporabnik se mora sam odločiti, katera možnost je boljša. OCR imajo vgrajene programe za preverjanje črkovanja in poudarjajo napačno napisane besede. Nekateri so tako zapleteni, da označijo besedna neskladja in slovnične napake, uporabnik pa mora le opraviti potrebne popravke.

Zadnji korak je shranjevanje končnega dokumenta v želeni obliki. Če aplikacija ne ustvari želenega formata, lahko uporabite številne brezplačne spletne pretvornike.

Optična tehnologija za Braillovo pisavo

Tehnologija optičnega prepoznavanja znakov (OCR) omogoča slepim ali slabovidnim, da prepoznajo besedilo in ga povedo na glas. Pri tem se uporablja govorni izhod in informacije, prikazane v Braillovi pisavi.

Sistemi za optično prepoznavanje znakov imajo tri osnovne elemente: zajem slike, prepoznavanje in branje besedila. Kamera najprej zajame natisnjen dokument, nato ga programska oprema OCR pretvori v prepoznane znake in besede, sintetizator v sistemu pa vsebino glasno pove ali prikaže v Braillovi pisavi. Informacije so lahko shranjene v elektronski obliki v napravi, v kateri je nameščena programska oprema OCR, ali v pomnilniku samostojne naprave.

Pri tem se upošteva logična struktura jezika. sistem bo ugotovil, da je na primer veznik "da" na začetku stavka napaka in ga je treba brati kot "da". Uporablja leksikon in program za preverjanje črkovanja, ki sta podobna kot v številnih urejevalnikih besedil.

Vsi sistemi OCR ustvarijo začasne datoteke, ki vsebujejo znake in postavitev strani. V nekaterih sistemih jih je mogoče pretvoriti v formate, ki jih je mogoče najti s pogosto uporabljenimi računalniškimi aplikacijami, kot so urejevalniki besedil, preglednice in zbirke podatkov.

Izbira programske opreme za prepoznavanje besedila

Priporočljivo je, da zavestno pristopite k izbira programske opreme programska oprema za prepoznavanje. Bolje je, da opravite lastno testiranje ali upoštevate mnenje naprednih uporabnikov.

Pri testiranju se upoštevajo naslednji dejavniki

Natančnost je tisto, kar ločuje dober OCR od slabega. Kljub temu je od aplikacije za prepoznavanje pisave nerealno pričakovati 100-odstotno natančnost. Dejavniki, kot so kakovost izvirni dokumenti kakovost besedila in ločljivost slike pomembno vplivata na končni rezultat. Dobro OCR dosega 98 %, če uporabljate sodoben optični bralnik in vire v zadovoljivem stanju.
Večjezičnost - danes ima to funkcijo večina programske opreme. OCR skenira en znak, da bi določili njegovo. Če je zasnovan tako, da prepoznava samo angleške črke, ne bo mogel natančno interpretirati posebnih znakov, kot so črke z naglasom "е". Takšna programska oprema bo te znake predstavila z najbližjim angleškim ustreznikom. Pri uporabi aplikacije, ki podpira večjezičnost, se določi jezik dokumenta, da se zagotovi natančnost prepoznavanja.
Podpira vnos rokopisa. Besedilo, ustvarjeno s tipkovnico, zlahka prepozna vsak program. Ročno pisanje pa je povsem drugačen način skeniranja. Ljudje imajo zelo različne vzorce pisave. Nekateri pišejo urejeno, drugi ne kot večina Pisava ni dovolj čitljiva. Visokokakovostni OCR lahko prepozna vsako pisavo. Za arhiviranje rokopisnega gradiva potrebujete programe za rokopisno pisanje.
Stopnja avtomatizacije. OCR se lahko izvaja samodejno ali interaktivno. Če morate skenirati veliko strani naenkrat, je najbolje, da razmislite o samodejnih programih. S takšno funkcijo lahko z nekaj kliki optično preberete dokumente, medtem ko opravljate druga opravila, in preprosto poiščete dobljeno datoteko PDF, txt ali doc. Večina brezplačnih programov OCR ima omejeno avtomatizacijo.
Shranjevanje postavitve. Glavni namen teh programov je pretvorba besedila v elektronsko obliko. Nekateri ne ohranijo postavitve izvirnega dokumenta. Ureditev končne različice traja dolgo. Dober program mora ohraniti prvotno postavitev, nato pa bo treba končno kopijo nekoliko urediti. Takšne aplikacije ohranijo stolpce, tabele in grafike kot v prvotni različici.

Priljubljena programska oprema za mobilne naprave

OCR je odličen za prenos besedila iz fizičnih virov neposredno v digitalni dokument. Obstajajo različne vrste programov in aplikacij za namizje in mobilne naprave. Razlikujejo se po ceni in imajo svoje ključne razlikovalne funkcije.

Najbolj priljubljeni "Android"-skenerji:

Office Lens - uporabnikom Androida omogoča brezplačno optično branje strani in OCR. Za pretvorbo je potrebna internetna povezava.
Optični bralniki PDF (npr. ABBYY TextGrabber, CamScanner, MDScan, OCR Instantly) izvajajo skeniranje, ki mu sledi OCR. Število skeniranih strani ni omejeno, prav tako ni vodnih žigov.
Spletno OCR. Najdete ga na spletu, storitev je zelo preprosta in enostavna za uporabo. Odlikuje ga to, da podpira 46 jezikov, da izhodni dokument tehta manj kot 5 MB in da ga je mogoče preprosto pretvoriti v format Microsoft Word, Excel ali navadno besedilo. Po registraciji lahko pretvorite več strani PDF, RTF, Excel in datoteke do 100 MB. Za večje skene je na voljo plačljiva različica.

Googlovi dokumenti

Tisti, ki že poznate Googlove dokumente, lahko uporabite OCR, ki je vgrajen v Google Drive. Za najboljše rezultate je treba nastaviti pisave Arial ali Times New Roman. Rezultate lahko izboljšate tako, da poskrbite, da je optično prebrana slika enakomerno osvetljena in ima jasen kontrast. Fotografije lahko obdelujete posamično v datotekah jpg, png, gif ali v večstranskih dokumentih PDF. Razširitev podpira večino jezikov.

Google je ima veliko Učni programi in zmogljivosti obdelave v oblaku. Številni uporabniki menijo, da storitev nima dovolj naprednih funkcij in možnosti. Če pa uporabljate aplikacijo Google Drive za Android, lahko s kamero v pametnem telefonu skenirate strani neposredno iz aplikacije. V nasprotnem primeru prenesite dokumente s skenerjem, povezanim z računalnikom, ali na kakršen koli drug način in začnite obdelavo prepoznavanja v storitvi Google Drive. Google Drive posameznikom ponuja brezplačno stopnjo shrambe s približno 19 GB, ki jo je mogoče razširiti na 100 GB prek storitve Google One za 1,99 USD. ZDA.

Optično prepoznavanje Abbyy

Abbyy FineReader že dolgo dela z dokumenti. Je celovita rešitev za poslovne in običajne uporabnike. Ponuja vse funkcije, ki so potrebne za pridobivanje vsebine besedil iz optičnega bralnika s popolno čitljivostjo, urejeno digitalizacijo. Poleg prepoznavanja besedil in pretvorbe v formate PDF, Microsoft Office ali druge formate jih lahko tudi primerja, dodaja opombe in komentarje.

Abbyy FineReader lahko pretvarja gradivo v paketnem načinu in obdeluje številne izhodne formate v 192 različnih jezikih. Na voljo je spremljevalna mobilna aplikacija za hitro optično branje s telefona.

Programska oprema ni najsodobnejša, vendar je preprosta, funkcionalna in dobro opravlja svoje delo. Ta program ima velik ugled kot ena najboljših možnosti na področju optičnega prepoznavanja znakov. Na voljo je brezplačna preskusna različica. Cena programske opreme je 199,99 USD. Za standardno enkratno trajno licenco.

Če se komu zdi to drago, je dobra alternativa programu ABBYY FineReader, spletna različica programa ABBYY FineReader. Omejen je na optično branje le 10 strani na mesec. Vendar ima vse druge funkcije različice Premium. Za dostop je potrebna registracija. Podpira številne formate vhodnih datotek, izberete pa lahko tudi izhodne formate, kot so PDF, Word, Excel, PowerPoint in e-Pub.

Storitev Adobe Acrobat v oblaku

Adobe Acrobat izpolnjuje vse zahteve ter ponuja impresiven seznam funkcij in možnosti, čeprav je njegova cena nekoliko višja kot pri konkurenci. Za vse funkcije OCR izberite različico Pro programa Adobe Acrobat. DC je kratica za Document Cloud in se jasno povezuje z Adobejevo rešitvijo v oblaku, če želite do svojih datotek dostopati s katerega koli računalnika. Prav tako je omogočena enostavna in brezhibna integracija z vsemi drugimi Adobejevimi storitvami, kot je Photoshop.

Če se uporabnik odloči za različico Pro programa Adobe Acrobat DC, dobi vsa orodja za prepoznavanje besedila, možnost dodajanja komentarjev in povratnih informacij k vsebini, specializirano storitev za skeniranje tabel, možnost hitre primerjave dveh dokumentov skupaj. Gradivo lahko urejate neposredno na zaslonu nekaj sekund po optičnem branju.

Oznaka Adobe zagotavlja določeno raven kakovosti, uporabniki pa so navdušeni nad intuitivnostjo in zmogljivostmi programa Adobe Acrobat DC. Naročnine na storitev se začnejo pri 12,99 dolarja. ZDA.

Najboljša brezplačna programska oprema

Free OCR to Word je najboljša brezplačna programska oprema OCR, ki uporablja najnovejše mehanizme. Tesseract je najmočnejše orodje za to vrsto programske opreme in velja za eno najnatančnejših metod. Program podpira več slikovnih formatov in več strani TIFF. To storitev lahko popolnoma brezplačno uporabite za izpis besedila iz fotografskega gradiva, ki je na voljo.

Motor Tesseract je v letih 1985-1994 razvil laboratorij Hewlett Packard Labs. Leta 1996 so bile v njem uvedene nekatere spremembe. Leta 1995 je bil uvrščen med tri najboljše motorje za prepoznavanje. Deluje v operacijskih sistemih Windows, Linux in Mac OS X. FreeOCR lahko obdeluje slike z več stolpci in večjezičnim besedilom. Obdeluje formate PDF in podpira naprave TWAIN, kot so optični bralniki, ima razširjen vmesnik z dvema oknoma, katerega nastavitve so lahko razumljive.

Z brezplačnim OCR v Word lahko prihranite veliko časa, saj vam ni treba ponovno vnašati že napisanega dela. Programska oprema prevzame dokument, skeniran predmet ali sliko in jo pretvori v berljivo, urejeno in natančno gradivo. Programska oprema je brezplačno na voljo za prenos v Wordu. OCR v Word je optimiziran sodelovati z Uporablja vse vrste optičnih bralnikov in ima 98-odstotno oceno natančnosti, sodoben vmesnik, ki omogoča enostaven dostop do vseh opravil, ima funkcijo vrtenja, če se fotografija ne prilega pravilno na zaslon. Programska oprema z visoko natančnostjo in kakovostjo izpisuje besedilo iz zajetih slik s pametnimi telefoni ali digitalnimi fotoaparati.

Prepoznavanje znakov v operacijskem sistemu Linux

Paket OCRFeeder zagotavlja prijazen grafični vmesnik za Linux, ki je večinoma sprednji del nekaterih orodij za sliko, OCR in besedilo, kot sta izpis ali preverjanje črkovanja. Sam ne bere znakov, temveč uporablja druge aplikacije OCR prek nastavitev tako imenovanih mehanizmov za prepoznavanje. Ima vnaprej določene možnosti za Tesseract, CuneiForm, GOCR in Ocrad.

Uporabnik mora v Ubuntuju namestiti le izbrane motorje - enega ali več - in jih nato odkriti v nastavitvah podajalnika. Dodajanje in spreminjanje drugih motorjev te nastavitve ročno. V eni aplikaciji je mogoče uporabiti več različnih motorjev. V glavnem oknu podajalnika lahko sproti izbirate, kateri bo uporabljen za določeno območje, lahko pa ga tudi nastavite kot privzeto možnost. Za izbiro jezika besedila, ki se bere, morate v primeru Tesseracta in CuneiForma v nastavitve tega motorja dodati stikalo "-l" z ustrezno jezikovno/skriptualno kodo, npr. "-l pol" za poljščino ali "-l dan-frak" za danščino

Tehnologija optičnega prepoznavanja znakov "Tesseract" na začetku je lahko prepoznal samo besedilo v angleščini, različica 2.x je omogočil večjezičnost. Po potrebi lahko nastavite več kot en slovar. Nove različice digitalizirajo besedilo na podlagi standarda ISO 963-2.

Po uspešni namestitvi uporabite ukaz "teserakt>pot do slike>osnovno ime izhodne datoteke". Tesseract samodejno bo dal rezultat razširitev dokumenta ".txt", je mogoče določiti možnost "-l", ki ji sledi jezikovna koda. Za različice programa Tesseract, ki so starejše od različice 3, je zelo pomembno, da je slika v obliki datoteke z oznako in vrednostjo ter ima končnico ".tif", namesto ".tiff". Ukazna vrstica mora izgledati takole"$ tesseract ~ / input.izhod tif".

Kje: "vnos.tif" - to je dokument za pretvorbo, ki se nahaja v vaši domači mapi, in "izhod" - material, ki ga bo Tesseract ustvaril kot "izhod.txt". Skenirana besedila so pogosto shranjena kot bitne slike v velikem dokumentu PDF. Z uporabo programa ImageMagick lahko posamezne strani pridobite kot datoteke TIFF za obdelavo s programom Tesseract. Naslednja skripta lahko pomaga avtomatizirati ta postopek.

CuneiForm je še en sistem za optično prepoznavanje besedila, ki ga je prvotno razvilo podjetje Cognitive Technologies in temelji na odprti kodi. Različica za Windows, ki ima svoj grafični vmesnik, lahko zaženete z nekaterimi rezultati v programu Wine. Njen Linux port je razvit na Launchpadu in čeprav trenutno nima lastnega grafičnega vmesnika, lahko CuneiForm uspešno zaženete iz grafičnega vmesnika OCRFeeder.

Tukaj je primer, kako uspešno pretvoriti nekaj slik zaslonske slike .webp internetnih oglasnih desk v uporabne besedilne datoteke.

Pdfocr je skripta, ki izvaja OCR na večstranskih datotekah PDF in jih vstavi nazaj kot sloj besedila, ki ga je mogoče iskati. Uporablja lahko "Tesseract" ali klinopis kot mehanizem prepoznavanja. Sama skripta se lahko pridobi iz Github ali PPA. Če želite zagnati ukaz, v terminal vnesite: "pdfocr -i input.pdf -o izhod.pdf".

Tehnologija OCR ne stoji na mestu, saj bo v prihodnosti sprejeta inteligentna optična prepoznava znakov - ICR. Ta standard je vrhunski. Večina ICR ima samoučeči se sistem, imenovan nevronska mreža, ki samodejno posodablja podatkovno zbirko za nove vzorce pisave. Uporabnost naprav za skeniranje za obdelavo dokumentov razširja s prepoznavanja natisnjenega besedila (funkcija OCR) na rokopisno gradivo in pri branju rokopisnega gradiva v strukturiranih oblikah lahko doseže več kot 97-odstotno stopnjo natančnosti.