Imate PDF dokument ili sliku koju želite pretvoriti u tekst? Nedavno mi je netko poslao poruku u poruci koju sam trebao urediti i vratiti s ispravkama. Osoba nije mogla pronaći digitalnu kopiju, tako da sam zadužen za dobivanje tog teksta u digitalni format.
Nisam imao načina da idem provesti sate dok se sve vratim natrag, tako da sam završio uzimajući lijepu kvalitetnu sliku dokumenta, a zatim sam spalio moj put kroz hrpu online OCR usluge vidjeti što će mi dati najbolje rezultati.
U ovom članku ću proći kroz nekoliko mojih omiljenih web mjesta za OCR koje su besplatne. Valja napomenuti da većina tih web stranica pruža osnovnu besplatnu uslugu, a zatim plaćaju mogućnosti ako želite dodatne značajke poput većih slika, PDF dokumenata s više stranica, različitih jezika unosa itd.
Također je dobro znati da većina tih usluga neće biti u mogućnosti odgovarati oblikovanju vašeg izvornog dokumenta. To su uglavnom za vađenje teksta i to je to. Ako vam je sve potrebno za određeni izgled ili format, morat ćete to učiniti ručno nakon što dobijete sav tekst iz OCR-a.
Osim toga, najbolji rezultati za dobivanje teksta dolaze iz dokumenata s razlučivosti od 200 do 400 DPI. Ako imate slabu sliku DPI, rezultati neće biti tako dobri.
Naposljetku, bilo je puno web mjesta koje sam testirao, ali to jednostavno nije uspjelo. Ako ste Googleov besplatni OCR na mreži, vidjet ćete hrpu web mjesta, ali nekoliko web mjesta u 10 najboljih rezultata nisu ni dovršile pretvorbu. Neki bi odustali, drugi će davati pogreške, a neki su se upravo zaglavili na stranici "pretvaranja" pa nisam ni željela spomenuti one web stranice.
Za svaku web-lokaciju testirala sam dva dokumenta kako bih vidjela koliko bi to izlaz bio. Za moje testove jednostavno sam koristio svoj iPhone 5S za snimanje oba dokumenta, a zatim sam ih prenio izravno na web stranice za konverziju.
U slučaju da želite vidjeti kakve su slike izgledale kao da sam se koristio za moj test, ovdje sam ih priložio: Test1 i Test2. Imajte na umu da to nisu verzije pune rezolucije slika snimljene s telefona. Prilikom prijenosa na web lokacije upotrijebio sam sliku pune rezolucije.
OnlineOCR.net je čista i jednostavna stranica koja je isporučila vrlo dobre rezultate u mom testu. Glavna stvar koju mi se sviđa je da nema puno oglasa na cijelom mjestu, što je obično slučaj s ovim vrstama web mjesta za niša.
Za početak odaberite datoteku i pričekajte dok ne završi prijenos. Maksimalna veličina prijenosa za ovu web-lokaciju iznosi 100 MB. Ako se registrirate za besplatni račun, dobivate nekoliko dodatnih značajki kao što su veća veličina prijenosa, PDF više stranica, različiti jezici unosa, više konverzija na sat itd.
Zatim odaberite svoj ulazni jezik, a zatim odaberite izlazni format. Možete birati između Worda, Excela ili običnog teksta. Kliknite gumb Pretvoriti gumb i vidjet ćete tekst koji se prikazuje pri dnu u kutiji zajedno s vezom za preuzimanje.
Ako je sve što želite je tekst, samo ga kopirajte i zalijepite iz kutije. Ipak, predlažem vam da preuzmete Word dokument jer to čini iznenađujuće velik posao zadržavanja izgleda izvornog dokumenta.
Na primjer, kada sam otvorio Word dokument za moj drugi test, bio sam iznenađen kad otkrijem da je dokument uključivao stol s tri stupca, baš kao na slici.
Od svih mjesta, ovaj je bio daleko najbolji. Potpuno se vrijedi prijaviti ako trebate mnogo pretvorbi.
Za potpunost, ja ću povezati i izlazne datoteke stvorene od strane svake usluge, tako da možete vidjeti rezultate za sebe. Ovdje su rezultati iz OnlineOCR: Test1 Doc i Test2 Doc.
Imajte na umu da prilikom otvaranja ovih Wordovih dokumenata na računalu dobit ćete poruku u programu Word, navodeći da je s Interneta i da je uređivanje onemogućeno. To je savršeno u redu jer Word ne vjeruje u dokumente s Interneta i stvarno ne morate omogućiti uređivanje ako samo želite pregledati dokument.
Još jedan site koji je dao prilično dobre rezultate bio je i2OCR. Proces je vrlo sličan: odaberite jezik, datoteku, a zatim pritisnite Ekstrakt teksta.
Morat ćete pričekati minutu ili dvije, jer ovo mjesto traje nešto duže. Isto tako, u koraku 2, provjerite prikazuje li se slika u desnom pregledu, inače ćete dobivati hrpu gibe kao izlaz. Iz nekog razloga, slike s mog iPhone uređaja prikazivale su se u portretnom načinu na računalu, ali krajolik kad sam ih prenio na ovu web-lokaciju.
Morao sam ručno otvoriti sliku u aplikaciji za uređivanje fotografija, zakrenuti je za 90 stupnjeva, zatim ga okrenuti u portret i ponovno ga spremiti. Kada dovršite, pomaknite se dolje i prikazat će vam pregled teksta zajedno s gumbom za preuzimanje.
Ova je stranica bila prilično dobra s izlazom za prvo testiranje, ali nije dobro uspjela s drugim testom koji je imao izgled stupca. Ovdje su rezultati iz i2OCR: Test1 Doc i Test2 Doc.
Free-OCR.com će uzeti vaše slike i pretvoriti ih u običan tekst. Nemate mogućnost izvoza u Word formatu. Odaberite svoju datoteku, odaberite jezik, a zatim kliknite Početak.
Stranica je brza i brzo ćete dobiti izlaz. Samo kliknite vezu za preuzimanje tekstne datoteke na računalo.
Kao i kod NewOCR-a spomenutog u nastavku, ova stranica kapitalizira sve T-ove u dokumentu. Nemam pojma zašto bi to učinila, ali zbog nekog čudnog razloga ova stranica i NewOCR su to učinili. Nije velika stvar za promjenu, ali to je dosadan proces za koji ne biste trebali učiniti.
Ovdje su rezultati iz FreeOCR: Test1 Doc i Test2 Doc.
Da biste koristili FineReader Online, morate se registrirati za račun, što besplatno dobiva 15-dnevno besplatno probno razdoblje za OCR do 10 stranica. Ako trebate samo jednokratni OCR za nekoliko stranica, možete upotrijebiti ovu uslugu. Pazite da kliknete vezu za potvrdu u e-poruci za potvrdu nakon registracije.
Kliknite na Prepoznati na vrhu, a zatim kliknite Učitaj za odabir datoteke. Odaberite jezik, izlazni format, a zatim kliknite Prepoznati na dnu. Ova web lokacija ima čisto sučelje i nema oglasa.
U mojim testovima ova stranica je uspjela zgrabiti tekst iz prvog testnog dokumenta, ali bilo je apsolutno ogromno kad sam otvorio Word doc, pa sam završio to ponovnim radom i odabirom običnog teksta kao izlaznog formata.
Za drugi test sa stupcima, dokument Word bio je prazan, a ja nisam mogao ni naći tekst. Nisu sigurni što se tamo dogodilo, ali čini se da ne može ništa drugo osim jednostavnih odlomaka. Ovdje su rezultati FineReadera: Test1 Doc i Test2 Doc.
Sljedeća stranica, NewOCR.com, bila je u redu, ali ne baš kao dobra kao i prva stranica. Prvo, imamo oglase, ali srećom ne tona. Najprije odaberite datoteku, a zatim kliknite gumb pregled dugme.
Zatim možete rotirati sliku i podesiti područje na kojem želite tražiti tekst. Prilično je slično tome kako postupak skeniranja radi na računalu s priloženim skenerom.
Ako dokument ima više stupaca, možete provjeriti Analiza izgleda stranice gumb i pokušat će podijeliti tekst u stupce. Kliknite gumb OCR, pričekajte nekoliko sekundi da se dovrši, a zatim se pomaknite prema dolje do dna kada se stranica osvježi.
U prvom testu je ispravno dobio sav tekst, ali iz nekog razloga je kapitalizirao svaki T u dokumentu! Nemam pojma zašto bi to učinila, ali to je učinilo. U drugom testu s omogućenom analizom stranice, dobio je većinu teksta, ali izgled je bio potpuno isključen.
Ovdje su rezultati NewOCR: Test1 Doc i Test2 Doc.
Kao što možete vidjeti, besplatno vam doista ne daje vrlo dobre rezultate većinu vremena na žalost. Prvi spomenuti site je daleko najbolji jer nije samo činio izvrstan posao pri prepoznavanju čitavog teksta, već je uspio zadržati format izvornog dokumenta.
Ako vam je potrebna samo tekst, većina gore navedenih web-mjesta trebala bi to moći učiniti za vas. Ako imate pitanja, slobodno komentirajte. Uživati!