Utdrag tekst fra bilder med disse beste OCR-programvaren

2019

I disse dager har nesten alt (f.eks. Bilder, musikk, videoer) gått digitalt (og det er fornuftig, da digitalt innhold enkelt kan administreres, redigeres og deles). Så hvordan kan tekstdokumenter forbli. Takket være fremdriftene i OCR-teknikker (Optical Character Recognition), er det nå enklere enn noensinne å digitalisere teksten i trykte / håndskrevne dokumenter, noe som gjør det redigerbart av tekstbehandlingsprogrammer.

Nå, for å gjøre det, trenger du noen veldig gode OCR-programmer, og det er akkurat hva denne artikkelen handler om. Disse programmene kan enten skaffe kildedrukte dokumenter som bilder fra skanneenheter, eller du kan legge inn dine egne dokumentbilder som skal konverteres til redigerbar tekst. Fascinert? Vel, la oss ikke slå rundt bushen og komme til de 5 beste OCR-programmene .

1. ABBYY FineReader

Når det gjelder Optisk tegngjenkjenning, er det nesten ingenting som kommer like nær ABBYY FineReader. Lastet til randen med en vanvittig mengde kraftverkfunksjoner, gjør ABBYY FineReader til å trekke ut tekst fra alle slags bilder, en bris.

Til tross for toting og omfattende liste over funksjoner, er ABBYY FineReader super enkel å bruke. Det kan trekke ut tekst fra nesten alle slags populære bildeformater, for eksempel PNG, JPG, BMP og TIFF. Og det er ikke alt. ABBYY FineReader kan også trekke ut tekst fra PDF- og DJVU-filer. Når kildefilen eller bildet (som helst skal ha en oppløsning på minst 300 dpi, for optimal skanning) er lastet opp, analyserer programmet det og bestemmer automatisk ulike deler av filen som har ekstraherbar tekst. Du kan enten ha all teksten hentet, eller bare velge noen spesifikke seksjoner. Etter det er alt du trenger å gjøre, bruk Save-alternativet til å velge utdataformat, og ABBYY FIneReader vil ta vare på resten. Det er mange utdataformater som støttes, for eksempel TXT, PDF, RTF, og til og med EPUB.

Utdatateksten er perfekt redigerbar, og tekst fra selv de mest innholdsintensive dokumentene (f.eks. De som har flere kolonner og komplekse layouter) hentes feilfritt. Andre funksjoner inkluderer omfattende språkstøtte, mange skriftstiler / -størrelser og bildekorrigeringsverktøy for filer hentet fra skannere og kameraer.

I et nøtteskall, hvis du vil ha den absolutt beste OCR-programvaren der ute, komplett med omfattende inn / ut-format og prosesseringsstøtte, gå til ABBYY FineReader.

Plattform tilgjengelighet: Windows 10, 8, 7, Vista og XP; Mac OS X 10.6 og nyere

Pris: Betalte versjoner starter fra $ 169, 99, 30 dager gratis prøveversjon tilgjengelig

nedlasting

2. Readiris

På jakt etter en ekstremt kraftig OCR-programvare som er tung på funksjoner, men tar egentlig ikke mye arbeid for å komme i gang med? Ta en titt på Readiris, da det bare kan være det du trenger.

En profesjonell karakterapplikasjon, Readiris har et omfattende funksjonssett som stort sett er identisk med den tidligere diskuterte ABBYY FineReader. Fra BMP til PNG, og fra PCX til TIFF, støtter Readiris ganske mange bildeformater. Annet enn det, kan PDF- og DJVU-filer behandles like bra. Bilder kan hentes fra skannerenheter, og programmet lar deg også sette tilpassede behandlingsparametere til kildefiler / bilder, for eksempel glattning og DPI-justering, før du analyserer dem. Selv om Readiris kan behandle bilder med lavere oppløsning bare bra, bør den optimale oppløsningen være minst 300 dpi. Når analysen er gjort, bestemmer Readiris tekstseksjoner (eller soner), og teksten kan hentes fra enten bestemte soner eller hele filen. Den ekstraherte teksten kan redigeres, og kan lagres i flere formater, for eksempel PDF, DOCX, TXT, CSV og HTM.

Dessuten gjør Readiris Pros skybesparende funksjonen deg direkte å lagre utdraget tekst til forskjellige skylagringstjenester som Dropbox, OneDrive, GoogleDrive, og så litt mer. Det finnes også et sunt antall tekstredigerings- / behandlingsfunksjoner, og selv strekkoder kan skannes.

Alt i alt, bør du bruke Readiris hvis du vil ha robuste tekstutvinnings- / redigeringsfunksjoner i en enkel å bruke pakke, komplett med omfattende støtte for input / output format. Readiris svikter imidlertid litt når det gjelder å behandle dokumenter med komplekse oppsett som flere kolonner, tabeller, etc.

Plattform tilgjengelighet: Windows 10, 8, 7, Vista og XP; Mac OS X 10.7 og senere

Pris: Betalte versjoner starter fra $ 99, 10 dager gratis prøveversjon tilgjengelig

nedlasting

3. FreeOCR

Hvis du leter etter en enkel og ingen oppstyr OCR-programvare med anstendig tekstgjenkjenning, ikke se lenger enn FreeOCR . Selv om det ikke kan overbelastes med alle slags fancy funksjoner, fungerer det fortsatt svært godt for hva det er.

Basert på den ekstremt populære, Google-støttede Tesseract OCR-motoren, er FreeOCR ekstremt enkel å bruke. Det kan skaffe trykte dokumenter skannet via skannere, og lar deg også laste opp bilder som har tekstlig innhold. Ikke bare det, det kan også trekke ut tekst fra tungformaterte multi-sidedokumenter. Du kan få programmet til å trekke ut alt teksten fra input PDF / image, eller definere en bestemt tekstbit. Konverteringshastigheter er ganske gode, og den konverterte teksten kan enten lagres i formater som TXT og RTF, eller eksporteres direkte til Microsoft Word. FreeOCR støtter alle større bildeformater, som PNG, JPG og TIFF.

Som sagt, har FreeOCR noen mangler. Det er for grunnleggende, og har ingen tekst etterbehandlingsfunksjoner. Videre blir utformingen av den ekstraherte teksten ofte ødelagt, med overlappende linjer og kolonner. Bruk det bare hvis du trenger noen grunnleggende OCR-funksjonalitet for sporadisk bruk.

Plattform tilgjengelighet: Windows 10, 8, 7, Vista og XP

Pris: Gratis

nedlasting

4. Microsoft OneNote

OneNote er en imponerende funksjon rik notatprogram som er lett å komme i gang med også. Imidlertid er notetaking ikke det eneste det er bra på. Hvis du bruker OneNote som en del av arbeidsflyten din, kan du bruke den til å gjøre litt grunnleggende tekstutvinning, takket være OCR-godheten som er innebygd i den.

Å bruke OneNote til å trekke ut tekst fra bilder er latterlig enkelt. Hvis du bruker skrivebordsprogrammet, er alt du trenger å gjøre ved å bruke Sett inn- alternativet for å sette inn bildet i noen av notatbøkene eller seksjonene. Når det er gjort, bare høyreklikk på bildet, og velg alternativet Kopier tekst fra bilde . Hele tekstinnholdet fra bildet ville bli kopiert til utklippstavlen, og kan limes inn (og dermed redigert) hvor som helst, per krav. Enten, enten det er PNG, JPG, BMP eller TIFF, støtter OneNote nesten alle store bildeformater.

Imidlertid er OneNotes tekstutvinningsfunksjoner ganske begrenset, og det kan ikke håndtere bilder med komplekse tekstinnholdsoppsett som tabeller og underavsnitt. Så det er noe du bør huske på.

Plattform tilgjengelighet: Windows 10, 8, 7 og Vista; Mac OS X 10.10 og senere

Pris: Gratis

nedlasting

5. GOCR

Merk: Før du begynner, er det viktig å vite at selv om GOCR støtter vanlige bildeformater som PNG og JPG, klarte det ikke å gjenkjenne dem under testingen (utført på en Windows 10-kjørende PC). Det er veldig mye mulig at det kan fungere med disse formatene på Linux-maskiner, men hvis du bruker Windows, må du konvertere kildebildet (er) til PNM-formatet. Dette kan gjøres via mange elektroniske filkonverteringverktøy, for eksempel denne.

Det som setter GOCR fra hverandre, er at det egentlig ikke har en grafisk brukergrensesnitt (GUI) -fronten . Det er et kommandolinjebasert verktøy, og som sådan er det egentlig ikke det enkleste å bruke. Men når du er komfortabel med det grunnleggende, kan GOCR vise seg å være veldig nyttig i tekstutvinning fra bilder. Det er også verdt å merke seg at for at GOCR skal fungere skikkelig, bør kildebildene ha tydelig synlig tekstinnhold, og helst hvit bakgrunn, da verktøyet egentlig ikke fungerer med komplekse kildefiler. GOCR trekker teksten fra bilder og lagrer dem i TXT-formatet. Mens det støtter ganske mange argumenter og funksjoner, trenger bare noen få å være kjent for å komme i gang. For eksempel, for å trekke ut tekst fra et PNM-bilde, må du skrive inn følgende ved ledeteksten.

X: \ sample folder \ gocr049 -i file.pnm -o file.txt

Her er X: \ sample-mappen stedet der GOCRs kommandolinjeverktøy ligger, og file.pnm og file.txt er henholdsvis inngangs- og utdatafiler (både på samme sted som GOCR, hvis stedet er annerledes, den komplette banen skal angis). Også hvis du vil endre gråtonenivåene for bildet, kan du angi en numerisk verdi som argument, sammen med -l. Klikk her for å lese om bruken i detalj.

For å oppsummere er GOCR et ganske godt OCR-verktøy, og når det gjelder tekstutvinning fra enkle bilder, virker det usedvanlig bra. Det er imidlertid svært begrenset i funksjoner, og krever en god innsats for å få jobbe.

Plattform tilgjengelighet: Windows 10, 8, 7, Vista og XP; Linux; OS / 2

Pris: Gratis

nedlasting

Alt satt til å konvertere bilder til tekst?

Digitalisering av trykt (og håndskrevet) tekstlig innhold er ekstremt nyttig, da det gjør lagring, redigering og deling av tekst ekstremt enkelt. Og ovennevnte OCR-programvare gjør det raskt å gjøre akkurat det, uansett hvor grunnleggende eller avansert tekstutvinningsbehovet er. Trenger du profesjonelt nivå tekstutvinningsfunksjoner med de beste postbehandlingsverktøyene? Gå til ABBYY FineReader eller Readiris. Vil du foretrekke en enklere OCR-programvare som bare får grunnleggende ferdigheter? Bruk OneNote eller FreeOCR. Prøv dem, og se hvordan de trener for deg. Vet du om hvilken som helst annen OCR-programvare som kunne vært inkludert i oppføringen ovenfor? Røy ut i kommentarene nedenfor.