среда, март 28, 2012

Besplatno prepoznavanje teksta (OCR)

OCR je skraćenica od Optical Character Recognition što bi predstavljalo prepoznavanje i pretvaranje slika slova u stvarna slova (u tekst). Ako skenirate neki tekstualni dokument, dobićete sliku tog dokumenta. Ukoliko naknadno želite da izvučete tekst iz te slike, pomoći će vam OCR program. OCR u širem smislu se sastoji od više faza:
  • skeniranje dokumenta
  • analiza rasporeda elemenata na dokumentu
  • prepoznavanje slova
  • post-procesiranje (formatiranje i pravljenje recimo PDF datoteke)
Mi ćemo se ovde baviti samo fazom prepoznavanja slova.
Online OCR je besplatan online program za OCR kojem se pristupa iz vašeg Internet čitača. U program možete učitati grafičku ili PDF datoteku, izabrati jezik i na izlazu dobiti Word ili običan tekstualni dokument.


Prednosti ovog programa su to što je besplatan i što ima podršku za srpski jezik. Mane su neprepoznavanje naših slova poput šđčćž, limit od 4MB po ulaznoj datoteci, maksimum 15 zahteva na sat i to što šaljete možda poverljive dokumente na obradu nekome tamo u oblaku.

Нема коментара:

Постави коментар