Imate PDF dokument koji želite izvući sav tekst? Što je sa slikovnim datotekama skeniranog dokumenta koji želite pretvoriti u tekst koji se može uređivati? Ovo su neki od najčešćih problema koje sam vidio na radnom mjestu kada radite s datotekama.
U ovom ću članku govoriti o nekoliko različitih načina na koje možete pokušati izdvojiti tekst iz PDF-a ili slike. Vaši rezultati ekstrakcije razlikovat će se ovisno o vrsti i kvaliteti teksta u PDF-u ili slici. Isto tako, vaši će se rezultati razlikovati ovisno o alatu koji upotrebljavate pa je najbolje isprobati što je moguće više dolje navedenih opcija kako biste dobili najbolje rezultate.
Najjednostavniji i najbrži način za početak je probati online PDF izdavač tekstualne usluge. To su obično besplatni i mogu vam dati upravo ono što tražite bez potrebe za instaliranjem bilo čega na računalu. Evo dva koji sam koristio s vrlo dobrim i izvrsnim rezultatima:
ExtractPDF je besplatan alat za snimanje slika, teksta i fontova iz PDF datoteke. Jedino ograničenje je da je maksimalna veličina za PDF datoteku 10 MB. To je malo mala; pa ako imate veću datoteku, isprobajte neke od ostalih metoda u nastavku. Odaberite datoteku, a zatim kliknite gumb Pošaljite datoteku dugme. Rezultati su obično vrlo brz i trebali biste vidjeti pregled teksta kada kliknete karticu Tekst.
Također je lijepa dodatna pogodnost koja ekstrakt slike iz PDF datoteke previše, samo u slučaju da vam je potrebna! Sve u svemu, on-line alat izvrsno funkcionira, ali upućujem na nekoliko PDF dokumenata koji mi daju smiješne rezultate. Tekst se izvlači sasvim u redu, ali iz nekog razloga to će imati prekid linije nakon svake riječi! Nije veliki problem za kratku PDF datoteku, ali svakako problem za datoteke s puno teksta. Ako vam se to dogodi, probajte sljedeći alat.
Online OCR obično ima tendenciju da radi za dokumente koji se nisu ispravno pretvorili u ExtractPDF, stoga je dobra ideja da isprobate obje usluge kako biste vidjeli one koje vam daje bolju izvedbu. Online OCR također ima neke ljepše značajke koje mogu dokazati ruci za svakoga tko ima veliku PDF datoteku koja samo treba pretvoriti tekst na nekoliko stranica, a ne cijeli dokument.
Prva stvar koju želite učiniti je naprijed i stvoriti besplatan račun. To je pomalo neugodno, ali ako ne stvorite besplatni račun, on će samo djelomično pretvoriti PDF, a ne cijeli dokument. Također, umjesto da samo prenesete samo 5 MB dokument, možete prenijeti do 100 MB po datoteci s računom.
Najprije odaberite jezik, a zatim odaberite vrstu izlaznog formata koju želite pretvoriti. Imate nekoliko mogućnosti i možete odabrati više od jednog ako želite. Pod, ispod Višeslojni dokument, možete odabrati Brojevi stranica a zatim odaberite samo stranice koje želite pretvoriti. Zatim odaberete datoteku i kliknete Pretvoriti!
Nakon konverzije bit ćete dovedeni u odjeljak Dokumenti (ako ste prijavljeni) gdje možete vidjeti koliko slobodnih stranica imate i veze za preuzimanje konvertiranih datoteka. Čini se kao da imate samo 25 stranica besplatno za jedan dan, pa ako trebate više od toga, morat ćete pričekati malo ili kupiti više stranica.
Online OCR je izvrstan posao pretvaranja PDF-ova jer je uspio održati stvarni izgled teksta. U mom testu, uzeo sam Word doc koji je koristio metke, različite veličine fonta, itd. I pretvorio ga u PDF. Tada sam koristio Online OCR da ga pretvorim u Word formatu i bio je oko 95% isti kao izvorni. To je prilično impresivno za mene.
Osim toga, ako želite pretvoriti sliku u tekst, onda Online OCR može to učiniti jednako lako kao i vađenje teksta iz PDF datoteka.
Budući da su govorili o slikovnom tekstu OCR-a, dopustite mi da spomenem još jednu dobru web stranicu koja jako dobro funkcionira na slikama. Free Online OCR bio je vrlo dobar i vrlo precizan pri izdvajanju teksta iz mojih testnih slika. Uzeo sam par fotografija s iPhonea na stranicama iz knjiga, pamfleta itd. I bio sam iznenađen koliko je uspjelo pretvoriti tekst.
Odaberite svoju datoteku, a zatim kliknite gumb Učitaj. Na sljedećem zaslonu postoji nekoliko opcija i pregled slike. Možete ga izrezati ako ne želite OCR čitavu stvar. Zatim kliknite gumb OCR i konvertirani tekst pojavit će se ispod pregleda slike. Također nema nikakvih ograničenja, što je stvarno lijepo.
Osim on-line usluga, postoje dva freeware PDF pretvarača koji želim spomenuti u slučaju da trebate softver koji se izvodi lokalno na vašem računalu za obavljanje pretvorbi. S mrežnim uslugama uvijek ćete trebati internetsku vezu i to možda neće biti moguće za sve. Međutim, primijetio sam da je kvaliteta pretvorbi iz freeware programa znatno lošija od onih na web stranicama.
PDF Tekst Extractor je freeware koji čini prilično dobar posao izdvajanja teksta iz PDF datoteka. Nakon što ga preuzmete i instalirate, kliknite gumb Otvori da biste odabrali PDF datoteku. Zatim kliknite Ekstrakt teksta da biste pokrenuli postupak.
Pitat će vas o lokaciji za pohranu tekstualne datoteke, a zatim će početi izdvajati. Također možete kliknuti na Opcija gumb, koji vam omogućuje odabir samo određenih stranica za izdvajanje i vrstu ekstrakcije. Druga je opcija zanimljiva jer izvlači tekst u različitim izgledima i vrijedi pokušati sve tri da biste vidjeli one koje vam najbolje pružaju.
PDF2Text Pilot radi u redu za izdvajanje teksta. Nema nikakvih mogućnosti; samo dodajte datoteke ili mape, pretvorite se i nadajte se najbolje. To je dobro funkcioniralo u nekim PDF dokumentima, ali za većinu njih bilo je mnogo pitanja.
Samo kliknite Dodaj datoteke, a zatim kliknite Pretvoriti, Kada pretvorba završi, kliknite Pregledaj da biste otvorili datoteku. Vi kilometraža će se razlikovati pomoću ovog programa, tako da ne očekujte mnogo.
Također, vrijedno je spomenuti da ako ste u korporacijskom okruženju ili možete dobiti svoje ruke na kopiji Adobe Acrobata s posla, onda možete zaista dobiti puno bolje rezultate. Acrobat očito nije besplatan, ali ima mogućnosti pretvoriti PDF u Word, Excel i HTML format. Ona također čini najbolji posao za održavanje strukture izvornog dokumenta i pretvaranje kompliciranog teksta.