Mis on optiline märgituvastus (OCR)?

Sisukord:

Mis on optiline märgituvastus (OCR)?
Mis on optiline märgituvastus (OCR)?
Anonim

Optiline märgituvastus (OCR) viitab tarkvarale, mis loob prinditud, trükitud või käsitsi kirjutatud dokumendist digitaalse versiooni, mida arvutid saavad lugeda, ilma et oleks vaja teksti käsitsi tippida või sisestada. OCR-i kasutatakse tavaliselt PDF-vormingus skannitud dokumentide puhul, kuid see võib luua ka pildifailis olevast tekstist arvutis loetava versiooni.

Mis OCR on?

OCR, mida nimetatakse ka tekstituvastuseks, on tarkvaratehnoloogia, mis muudab sellised märgid nagu numbrid, tähed ja kirjavahemärgid (nimetatakse ka glüüfideks) trükitud või kirjutatud dokumentidest elektroonilisele kujule, mida arvutid ja muud tarkvaraprogrammid. Mõned OCR-programmid teevad seda nii, et dokument skannitakse või pildistatakse digikaameraga ja teised saavad seda protsessi rakendada dokumentidele, mida on eelnev alt skannitud või pildistatud ilma OCR-ita. OCR võimaldab kasutajatel otsida PDF-dokumentidest, redigeerida teksti ja dokumente ümber vormindada.

Image
Image
Ajaloolise ajalehe skannimine OCR-tarkvaraga.

Getty Images

Milleks OCR-i kasutatakse?

Kiire ja igapäevase skannimise jaoks ei pruugi OCR olla suurem asi. Kui skannite palju, saate PDF-failidest otsida, et leida täpselt vajalikku, säästa palju aega ja muudab teie skanneriprogrammi OCR-funktsiooni olulisemaks. Siin on veel mõned asjad, mille puhul OCR aitab:

  • Automaatne andmetöötlus ja andmesisestus (Näide: tööotsijate CV-de jälgimise süsteemid).
  • Skannitud raamatute otsitavaks muutmine.
  • Käsitsi kirjutatud skaneeringu teisendamine arvutis loetavaks tekstiks.
  • Nägemispuudega kasutajaid abistavate lugejaprogrammide jaoks dokumentide kasutatavamaks muutmine.
  • Ajalooliste dokumentide ja ajalehtede säilitamine, muutes need samas otsitavaks.
  • Andmete eraldamine ja ülekandmine raamatupidamisprogrammidesse (näide: kviitungid ja arved).
  • Dokumentide indekseerimine otsingumootoritele kasutamiseks.
  • Juhi numbrimärkide äratundmine kiiruskaamera ja punase tule kaamera tarkvara abil.
  • Kõnesüntesaatorid inimestele, kes ei oska rääkida – teoreetiline füüsik Stephen Hawking on ehk kõige tuntum kõnesüntesaatori programmi kasutaja.

Alumine rida

Miks mitte lihts alt pilti teha, eks? Sest te ei saaks midagi redigeerida ega tekstist otsida, sest see oleks lihts alt pilt. Dokumendi skannimine ja OCR-tarkvara käivitamine võib muuta selle faili millekski, mida saate redigeerida ja otsida.

OCR-i ajalugu

Kuigi tekstituvastuse kõige varasem kasutamine pärineb aastast 1914, algas optilise tekstituvastusega seotud tehnoloogiate laialdane arendamine ja kasutamine tõsiselt 1950. aastatel, eriti väga lihtsustatud fontide loomisega, mida oli lihtsam digitaalseks teisendada. loetav tekst. Esimese nendest lihtsustatud fontidest lõi David Shepard ja seda tuntakse üldiselt kui OCR-7B. OCR-7B on tänapäevalgi finantssektoris kasutusel krediit- ja deebetkaartidel kasutatava standardfondi jaoks. 1960. aastatel hakkasid mitme riigi postiteenused kasutama OCR-tehnoloogiat, et oluliselt kiirendada kirjade sorteerimist, sealhulgas Ameerika Ühendriikides, Suurbritannias, Kanadas ja Saksamaal. OCR on endiselt põhitehnoloogia, mida kasutatakse postiteenuste jaoks kogu maailmas. 2000. aastal kasutati põhiteadmisi OCR-tehnoloogia piiride ja võimaluste kohta CAPTCHA-programmide väljatöötamiseks, mida kasutatakse robotite ja rämpspostitajate peatamiseks.

Aastakümnete jooksul on OCR muutunud täpsemaks ja keerukamaks tänu edusammudele seotud tehnoloogiavaldkondades, nagu tehisintellekt, masinõpe ja arvutinägemine. Tänapäeval kasutab OCR-tarkvara mustrituvastust, funktsioonide tuvastamist ja teksti kaevandamist, et muuta dokumente kiiremini ja täpsem alt kui kunagi varem.

KKK

    Kuidas telefoni või tahvelarvutiga dokumente skannida?

    IOS-is avage rakendus Märkmed ja looge uus märge. Avage kaamera ja puudutage seejärel Scan Documents. Androidis avage Google Drive ja valige Plus (+), seejärel puudutage skannimiseks Scan dokumenteerige oma telefoniga.

    Kuidas kasutada OCR-i Adobe Acrobatis?

    Avage skannitud pilti sisaldav PDF-fail, seejärel valige Tools > Redigeeri PDF-i. Acrobat rakendab automaatselt OCR-i, et saaksite teksti redigeerida. Valige lihts alt koht, mida soovite muuta, ja hakake tippima.

    Mis vahe on OCR-il ja OMR-il?

    Optiline märgituvastus (OMR) on tarkvara, mis tuvastab paberil, tavaliselt mullilehel, olevad märgid. OMR-i kasutatakse eksamite, uuringute, küsimustike ja isegi valimiste tulemuste töötlemiseks. Erinev alt OCR-ist ei saa OMR lehel olevaid märke dešifreerida, vaid ainult kontrollib, kas märgid on olemas.

Soovitan: