Aj v časoch elektronických dokumentov potrebujeme niekedy previesť do elektronickej – textovej podoby tlačený text. Dôvody môžu byť rôzne, od archivovania dokumentov a výstrižkov v textovej podobe po použitie citácií v nejakých prácach. Na túto prísne špecializovanú činnosť, ktorej sa hovorí OCR (optical character recognition, optické rozpoznávanie písmen) nepotrebujeme drahý softvér, úplne nám postačia vlastné prostriedky Google.

Jediné, čo budeme na digitalizáciu potrebovať je samozrejme účet na Google a skener alebo smartfón. V niekoľkých veľmi jednoduchých krokoch si teraz ukážeme ako na to.

Oskenujeme/odfotíme si text. Ak je text vo viacerých stĺpčekoch, musíme odfotiť každý sĺpček zvlášť. Ja som si pre názornosť vybral jednoduchý text z knihy o Petržalke a fotil som iPhonom. Ak fotíme smartfónom, dbáme, aby bola predloha dobre osvetlená, ale pozor na prípadné odlesky (kriedový papier). Pre rozpoznávanie textu je dobré, keď je kontrast čo najvyšší, tak ak máme nejaký zažltnutý starý článok, pohrajme sa v mobile alebo počítači s kontrastom, mne sa osvedčilo aj prehodenie do čiernobielej.

Takto to vyzerá.

Teraz si otvoríme Disk Google. Praktické je vytvoriť si v ňom samostatný adresár na OCR. Nahráme doň obrázok, stačí potiahnuť myšou.

Teraz si klikneme na obrázok pravým tlačidlom myši a zvolíme „open in Google Docs“ – (vidíme, že ďalšou možnosťou je aj Pixlr Editor, kde môžeme obrázok ešte upraviť, napríklad zvýšiť kontrast atď. – viď predchádzajúci krok).

Po chvíli spracovávania to príde. Pod obrázkom sa nám zjaví text. Rozoznávanie dokonca prebehlo korektne aj keď bol obrázok o 90 stupňov “z jeho pohľadu” otočený.

Text teraz môžeme skopírovať a šupnúť do Wordu. Tu je úplne neupravený. Chyba v slove „rozpriestiera“ je preklep v knihe, takže jediná chyba, ktorej sa rozpoznávanie Google dopustilo, je „nova“ namiesto „nová“ (predposledný riadok). Inak perfektný výstup.

Samozrejme, pri starších a menej kvalitných predlohách je chybovosť vyššia, ale OCR je stále rýchlejšie ako ručné prepisovanie.

 

Marian Jaslovský, Mindshare Slovakia

O autorovi

Marian Jaslovský

Dlhoročný novinár. Ako žurnalista pracoval pre mnohé médiá a bol nominovaný na Novinársku cenu. Je autorom štyroch úspešných kníh. Rovnako ako písaniu sa venuje aj hudbe, spolupracoval s mnohými osobnosťami našej scény a aktívne fotografuje. Od roku 2019 je externým spolupracovníkom Mindshare a väčšinu svojej energie venuje občianskemu združeniu Post Bellum.