Hvordan fungerer Image-to-Text (aka Optical Character Recognition)

Hvordan fungerer Image-to-Text (aka Optical Character Recognition) / Teknologi forklart

Å trekke tekst ut av bilder har aldri vært enklere enn det er i dag takket være optisk tegngjenkjenning (OCR) -teknologi.

OCR lar oss gjøre alle slags nyttige ting, for eksempel å søke etter bilder ved hjelp av tekstspørsmål, gjengivelse av dokumenter uten å skrive dem ut for hånd, og til og med konvertere håndskrevet tekst til digital tekst. Slik konverterer du et bilde med håndskrift til tekst ved hjelp av OCR. Slik konverterer du et bilde med håndskrift til tekst ved hjelp av OCR For å konvertere et bilde av håndskrevet tekst til digital tekst som du kan redigere og søke, trenger du et OCR-verktøy (optisk tegngjenkjenning). Prøv ett av disse OCR-verktøyene for å digitalisere håndskrift. Les mer .

Men hva er optisk tegngjenkjenning? Hvordan fungerer det egentlig? Det kan virke som svart magi til deg, men i slutten av denne artikkelen har du en solid forståelse av hvordan datamaskiner kan gjenkjenne bokstaver og ord.

Hvordan Optisk Tegngjenkjenning Fungerer

For å forstå hvordan tekst blir hentet fra et bilde, må vi først forstå hva bildene er og hvordan de lagres på datamaskiner.

EN pixel er en enkelt prikk av en bestemt farge. en bilde er egentlig en samling av piksler. Jo flere piksler i et bilde, desto høyere er oppløsningen. En datamaskin vet ikke at et bilde av et skilt er virkelig en skilt - det vet bare at den første piksel er denne fargen, den neste piksel er den fargen, og viser alle dens piksler for at du skal se.

Dette betyr at tekst og ikke-tekst ikke er forskjellig fra en datamaskin, og det er derfor optisk tegngjenkjenning er så vanskelig. Med det i tankene, her er hvordan det fungerer.

Trinn 1: Forbehandling av bildet

Før teksten kan trekkes, må bildet masseres på bestemte måter for å gjøre utvinning enklere og mer sannsynlig å lykkes. Dette kalles forbehandling, og forskjellige programvareløsninger bruker forskjellige kombinasjoner av teknikker.

De vanligste forbehandlingsteknikkene inkluderer:

Binarization
Hver enkelt piksel i bildet konverteres til enten svart eller hvitt. Målet er å avklare hvilke piksler som tilhører tekst, og hvilke piksler tilhører bakgrunnen, noe som øker den faktiske OCR-prosessen.

forskyvningskorrigering
Siden dokumenter sjelden skannes med perfekt justering, kan tegnene ende opp skrå eller til og med opp og ned. Målet her er å identifisere horisontale tekstlinjer og deretter rotere bildet slik at disse linjene faktisk er horisontale.

Støvfjernar
Hvorvidt bildet er binarisert eller ikke, kan det være støy som kan forstyrre identifikasjonen av tegn. Despeckling blir kvitt den støyen og prøver å jevne ut bildet.

Linjefjerning
Identifiserer alle linjer og markeringer som sannsynligvis ikke er tegn, og fjerner dem så den faktiske OCR-prosessen blir ikke forvirret. Det er spesielt viktig når du skanner dokumenter med tabeller og bokser.

reguleringsplan
Skiller bildet i forskjellige tekststykker, for eksempel å identifisere kolonner i flere kolonne dokumenter.

Image Credit: WayneRay / Wikimedia

Trinn 2: Behandler bildet

For det første prøver OCR-prosessen å etablere grunnlinjen for hver tekstlinje i bildet (eller hvis den ble sonet i forbehandling, vil den fungere gjennom hver sone en om gangen). Hver identifisert linje med tegn håndteres en etter en.

For hver linje av tegn identifiserer OCR-programvaren avstanden mellom tegn ved å lete etter vertikale linjer med ikke-tekstpiksler (som skal være åpenbare med riktig binarisering). Hver del av piksler mellom disse ikke-tekstlinjene er merket som en “pollett” som representerer ett tegn. Derfor kalles dette trinnet tokenization.

Når alle potensielle tegnene i bildet er tokenized, kan OCR-programvaren bruke to forskjellige teknikker til å identifisere hvilke tegn disse tokens faktisk er:

Mønstergjenkjenning
Hver token sammenlignes piksel-til-piksel mot et helt sett med kjente glyfer - inkludert tall, tegnsetting og andre spesielle symboler - og nærmeste match blir plukket. Denne teknikken er også kjent som matrisematching.

Det er flere ulemper her. Først må tokens og glyphs være av tilsvarende størrelse, ellers vil ingen av dem passe sammen. For det andre må tokens være i en lignende skrift som glyphs, som regulerer håndskrift. Men hvis tokenens skrifttype er kjent, kan mønstergenkjenning være rask og nøyaktig.

Funksjonsekstraksjon
Hver token er sammenlignet med forskjellige regler som beskriver hva slags karakter det kan være. For eksempel er to vertikale linjer med like høyde forbundet med en enkelt horisontal linje sannsynligvis en hovedstad H.

Denne teknikken er nyttig fordi den ikke er begrenset til bestemte skrifttyper eller størrelser. Det kan også bli mer nyansert ved å gjenkjenne de subtile forskjellene mellom en hovedstad I, små bokstaver L og tallet 1. Ulempen? Programmering av reglene er mye mer komplisert enn bare å sammenligne pikslene i et token til pikslene i en glyph.

Trinn 3: Etterbehandling av bildet

Når alle token-matching er ferdig, kan OCR-programvaren bare kalle det en dag og presentere resultatene til deg. Men det er vanligvis litt mer fudging som må gjøres for å sikre at du ikke ruller øynene dine på gibberiske resultater.

Lexisk begrensning
Alle ordene er sammenlignet med et leksikon av godkjente ord, og noen som ikke samsvarer, erstattes med det nærmeste passende ord. En ordbok er et eksempel på et leksikon. Dette kan bidra til å rette ord med feilaktige tegn, som “torn” i stedet for “th0rn”.

Program-spesifikke optimaliseringer
Når OCR brukes i nisjeinnstillinger, for eksempel for medisinske eller juridiske dokumenter, kan det brukes en spesiell type OCR som er spesielt utviklet for denne innstillingen. I disse tilfellene kan OCR-programvaren se etter matematiske ligninger, bransjespesifikke vilkår, osv.

Naturlig språk
Denne avanserte teknikken korrigerer setninger ved å bruke en språkmodell som beskriver hvor sannsynlig enkelte ord skal følges av andre ord. Det ligner på teknologien som forutser hvilket ord du vil skrive neste på et mobiltastatur.

Når det er gjort bra, kan dette resultere i tekst som er bemerkelsesverdig lesbar.

Anbefalte verktøy for optisk tegngjenkjenning

Nå som du vet hvordan OCR fungerer, bør det være enkelt å se at ikke alle OCR-verktøyene blir gjort like. Nøyaktigheten av resultatene dine vil avhenge av hvor godt programvaren implementerer de ulike OCR-teknikkene som diskuteres i denne artikkelen.

Vi anbefaler på det sterkeste OneNote for dette, noe som bare er en grunn til at det slår Evernote til notatinntak Evernote vs OneNote: Hvilken notatkonkurranse er riktig for deg? Evernote vs OneNote: Hvilken notatkonkurranse er riktig for deg? Evernote og OneNote er fantastiske notatbøker. Det er vanskelig å velge mellom de to. Vi sammenlignet alt fra grensesnitt til notat organisasjon for å hjelpe deg å velge. Hva fungerer best for deg? Les mer . Hvis du er villig til å betale for en premium løsning, bør du vurdere OmniPage. Se vår sammenligning av OneNote vs OmniPage for OCR Free vs Paid OCR-programvare: Microsoft OneNote og Nuance OmniPage Sammenlignet Gratis vs Betalt OCR-programvare: Microsoft OneNote og Nuance OmniPage Sammenlignet OCR-skannerprogramvare lar deg konvertere tekst i bilder eller PDF-filer til redigerbar tekst dokumenter. Er et gratis OCR-verktøy som OneNote godt nok? La oss finne det ut! Les mer . For mobile dokumenter vil du sjekke ut disse OCR-appene for Android-enheter 6 Beste Android OCR-apper for å trekke ut tekst fra bilder 6 Beste Android OCR-apper for å trekke ut tekst fra bilder Trenger du å digitalisere hvilken som helst skrevet tekst, slik at du kan opprettholde en myk kopi av det? I så fall er alt du trenger, et verktøy for optisk tegngjenkjenning (OCR). Les mer .

Hvordan bruker du OCR? Har du noen favoritt OCR-verktøy som vi ikke nevnte? Gi oss beskjed i kommentarene nedenfor!

Utforsk mer om: Image Converter, OCR.