Nije uvijek moguće izvaditi tekst iz PDF datoteke koristeći konvencionalno kopiranje. Često su stranice takvih dokumenata skenirani sadržaj njihovih verzija papira. Za pretvaranje takvih datoteka u tekstualne podatke koji se mogu uređivati, koriste se posebni programi s funkcijom optičkog prepoznavanja (OCR).

Takva rješenja su vrlo teška za implementaciju i stoga troše mnogo novca. Ako redovito trebate prepoznati tekst s PDF-om, preporučljivo je kupiti odgovarajući program. U rijetkim slučajevima bilo bi logičnije koristiti jednu od dostupnih online usluga sa sličnim funkcijama.

Kako prepoznati tekst iz PDF-a na mreži

Naravno, skup značajki za online usluge OCR-a ograničen je u usporedbi s punim stolnim rješenjima. Ali s takvim resursima možete raditi besplatno ili za nominalnu naknadu. Glavna stvar je da se odgovarajuće web aplikacije nose s njihovim glavnim zadatkom, odnosno prepoznavanjem teksta.

Prva metoda: ABBYY FineReader Online

Tvrtka za razvoj usluga je jedan od lidera u području prepoznavanja optičkih dokumenata. ABBYY FineReader za Windows i Mac moćno rješenje za pretvaranje PDF-a u tekst i daljnje surađivanje s njom.

Web kolega programa, naravno, inferioran je u funkcionalnosti. Ipak, usluga može prepoznati tekst iz skeniranja i fotografija na više od 190 jezika. Podržava pretvorbu PDF datoteka u dokumente riječ , nadmašiti itd

ABBYY FineReader Online online usluga

  1. Prije nego što počnete raditi s alatom, izradite račun na web-lokaciji ili se prijavite pomoću svog računa Facebook, Google ili Microsoft.
    Registrirajte se s ABBYY FineReader Online
    Da biste otvorili prozor za prijavu, kliknite gumb "Prijava" na gornjoj traci izbornika.
  2. Nakon što se prijavite, uvezite željeni PDF dokument u FineReader pomoću gumba "Prenesi datoteke" .
    Prepoznavanje teksta iz PDF dokumenta u mrežnoj usluzi ABBYY FineReader Online
    Zatim kliknite "Odabir brojeva stranica" i odredite željeni interval za prepoznavanje teksta.
  3. Zatim odaberite jezike prisutnih u dokumentu, format rezultirajuće datoteke i kliknite gumb "Prepoznaj" .
    Započnite prepoznavanje teksta iz PDF dokumenta u ABBYY FineReader Online
  4. Nakon obrade, trajanje koje u cijelosti ovisi o veličini dokumenta, možete preuzeti gotovinu s tekstualnim podacima jednostavno klikom na njeno ime.
    Preuzimanje gotovog dokumenta s internetske usluge ABBYY FineReader Online
    Ili ga izvezite na jednu od dostupnih usluga u oblaku.

Usluga se razlikuje vjerojatno od najpreciznijih algoritama prepoznavanja teksta na slikama i PDF datotekama. No, nažalost, njegova besplatna upotreba ograničena je na pet obrađenih stranica mjesečno. Da biste radili s više voluminoznih dokumenata, morate kupiti jednu godinu pretplatu.

Međutim, ako je funkcija OCR-a vrlo rijetko potrebna, ABBYY FineReader Online je izvrstan izbor za izdvajanje teksta iz malih PDF datoteka.

Način 2: Besplatni OCR Online

Jednostavna i praktična usluga za digitalizaciju teksta. Bez potrebe za registracijom, resurs vam omogućuje prepoznavanje 15 punih PDF stranica po satu. Besplatni OCR u cijelosti radi s dokumentima na 46 jezika i bez odobrenja podržava tri formata izvoza teksta - DOCX, XLSX i TXT.

Pri registraciji korisnik može obrađivati ​​dokumente s više stranica, ali je besplatan broj tih stranica ograničen na 50 jedinica.

Online usluga Besplatni OCR OCR

  1. Da biste prepoznali tekst iz PDF-a kao "gost", bez odobrenja za resurs, upotrijebite odgovarajući obrazac na glavnoj stranici web mjesta.
    Prepoznavanje PDF-a u OCR mrežnoj usluzi Besplatno Online
    Odaberite željeni dokument pomoću gumba "File" , odaberite glavni jezik teksta, izlazni format, a zatim pričekajte da se datoteka preuzme i kliknite "Pretvori" .
  2. Na kraju postupka digitalizacije kliknite "Preuzmi izlaznu datoteku" da biste spremili gotov dokument s tekstom na računalu.
    Preuzimanje rezultata prepoznavanja teksta iz PDF-a putem besplatne online OCR online usluge

Za ovlaštene korisnike, slijed akcija je nešto drugačiji.

  1. Pomoću gumba "Registriraj" ili "Prijava" u gornjoj traci izbornika stvorite ili pristupite svom Besplatnom OCR računu.
    7
  2. Nakon autorizacije na ploči za prepoznavanje, držite pritisnutu tipku "CTRL" i odaberite najviše dva jezika izvornog dokumenta s popisa koji ste dobili.
    8
  3. Navedite daljnje parametre za vađenje teksta iz PDF-a i kliknite gumb "Odabir datoteke" da biste dokument prenijeli u uslugu.
    9
    Zatim, za početak prepoznavanja kliknite "Pretvori" .
  4. Nakon obrade dokumenta kliknite vezu s nazivom izlazne datoteke u odgovarajućem stupcu.
    10
    Rezultat prepoznavanja bit će odmah pohranjen u memoriji vašeg računala.

Ako trebate izdvojiti tekst iz malog PDF dokumenta, možete se sigurno služiti upotrebom gore opisanog alata. Da biste radili s velikim datotekama, morat ćete kupiti dodatne simbole u besplatnom OCR-u ili pribjeći drugom rješenju.

Metoda 3: NewOCR

Potpuno besplatna OCR servis koji vam omogućuje izdvajanje teksta iz gotovo svih grafičkih i elektroničkih dokumenata kao što su DjVu i PDF. Resurs ne nameće ograničenja veličine i broja prepoznatljivih datoteka, ne zahtijeva registraciju i nudi širok raspon povezanih funkcija.

NewOCR podržava 106 jezika i sposoban je ispravno rukovati čak i niskom kvalitetom skeniranja dokumenata. Moguće je ručno odabrati područje za prepoznavanje teksta na stranici s datotekama.

Online usluga NewOCR

  1. Dakle, odmah možete početi raditi s resursima, bez potrebe za nepotrebnim radnjama.
    Preuzimanje PDF datoteke za prepoznavanje na NewOCR online uslugu
    Izravno na glavnoj stranici nalazi se obrazac za uvoz dokumenta na stranicu. Da biste prenijeli datoteku u NewOCR, upotrijebite gumb "Odaberi datoteku" u odjeljku "Odabir datoteke" . Zatim u polju "Jezik prepoznavanja" odaberite jedan ili više jezika izvornog dokumenta, a zatim kliknite "Učitaj + OCR" .
  2. Postavite željene postavke prepoznavanja, odaberite željenu stranicu za izdvajanje teksta i kliknite gumb "OCR" .
    12
  3. Pomaknite se malo dolje i pronađite gumb "Preuzimanje" .
    13
    Kliknite na nju i odaberite željeni format dokumenta za preuzimanje na padajućem popisu. Nakon toga, završena datoteka s ekstrahiranim tekstom preuzeta će na vaše računalo.

Alat je prikladan i prepoznaje sve znakove dovoljno visoke kvalitete. Međutim, obrada svake stranice uvezenog PDF dokumenta mora biti pokrenuta neovisno i prikazana u zasebnoj datoteci. Naravno, možete odmah kopirati rezultate prepoznavanja u međuspremnik i spojiti ih s drugima.

Ipak, s obzirom na gore navedenu nijansu, velike količine teksta pomoću NewOCR-a vrlo je teško izvaditi. Usluga se kopira s malim datotekama "s bangom".

Metoda 4: OCR.Space

Jednostavan i razumljiv izvor za digitalizaciju teksta omogućuje vam prepoznavanje PDF dokumenata i izlazak rezultata u TXT datoteku. Nema ograničenja broja stranica. Jedino ograničenje je da veličina ulaznog dokumenta ne smije biti veća od 5 megabajta.

OCR.Space online usluga

  1. Registrirajte se za rad s alatom nije potrebno.
    Uvoz PDF datoteke u OCR.Space online uslugu
    Jednostavno kliknite na gornju vezu i prenesite PDF dokument na web stranicu sa svog računala pomoću gumba "Odaberi datoteku" ili iz mreže klikom na vezu.
  2. Na padajućem popisu "Odaberite OCR jezik" odaberite jezik uvezenog dokumenta.
    15
    Zatim započnite postupak prepoznavanja teksta klikom na gumb "Pokreni OCR!" .
  3. Na kraju obrade datoteke pregledajte rezultat u polju "OCR rezultat" i kliknite "Preuzmi" da biste preuzeli gotov TXT dokument.
    16

Ako samo trebate izdvojiti tekst iz PDF-a, konačno oblikovanje uopće nije bitno, OCR.Space je dobar izbor. Jedini dokument mora biti "jednojezičan", jer priznavanje dva ili više jezika u isto vrijeme u usluzi nije predviđeno.

Vidi također: Slobodni analozi FineReadera

Ocjenjivanjem on-line alata predstavljenih u članku, treba napomenuti da ABBYY FineReader Online obrađuje OCR funkciju najpreciznije i preciznije. Ako je najveća točnost prepoznavanja teksta važno za vas, najbolje je razmotriti tu posebnu mogućnost. No, kako bi platili za to, najvjerojatnije, također moraju.

Ako trebate digitalizirati male dokumente, a vi ste spremni sami ispraviti pogreške na usluzi, preporučljivo je koristiti NewOCR, OCR.Space ili Free Online OCR.