недеља, јул 15, 2012

OCR za Linux

Ranije smo našli besplatnu online aplikaciju za optičko prepoznavanje teksta (OCR) a sada ćemo se pozabaviti takođe besplatnom aplikacijom iste namene ali za Linux pod nazivom Tesseract. Pošto se ovde bavimo samo mogućnostima prepoznavanja teksta, sa Interneta smo skinuli jedan skenirani dokument.


Tesseract se kao i svaki pravi program za Linux pokreće iz komandne linije:

tesseract ugovor_original.jpg ugovor_original.txt -l srp

Rezultat prepoznavanja teksta je nimalo impresivan:

ćran 1. sanrazunr a nova.-ljivnsri padaraka
su. pnnaar rz nung ugnunra ¡ pauaur n raaurru ¡ vfasniku računa au sankarska «ama u srnissu zaxuna a aankarna r na
rnngu sa naz pnsabna saglasnasu v|aanu<a računa saupšrauau rranrnn fisurra nsrrn u sxxauu sa zaknnnrn.
vlasnik računa ra saglasan aa u a|uča¡u auraza ugavara r nranara nnrrazrvarua Banka prarna vxasnrku računa Banka
nnvnrrr vlasnrku nnfraziuarua sanpszi sva nnnanra r a¡n¡sn¡sa u vazi sa naaražrvanrrrna kan ¡ da svu anrrunnamaanu
unruueurun 1 nva¡ ugsunr sa srnrrr njaaavirn sasraunrrn uaravirna sraur na raannnanarna novom u|asn¡|<u nnzraž;uanra_
Član H. Sporazum n zarasi dostavljanja
Banka na vxasnika racuna unavasravazr n prnrnazu r szan¡u na računu narrnanja raunnrn guursn¡e na anrasu v|asnu<a
računa ru nnavas«an¡a aaaurnr na rasnnxananp vrasnrku računa u mnalr :zanka kn|a unni račun u zavisnasu nn naerna
nnauašcauarua «nn vsasnrk računa izanara ugnvarna szrana saglasno kanszaeuju na su sua uns«av|¡an¡a vxasnirru
računa nunnvažna na aurasu uznaeanu nnu „uušru srau na anrasu  a da su sva das|av|jan¡a eanui nunnvazrra na
adrasu su1avaros|nbnaanra ura] ao. Nuvi san

Pošto znamo da je OCR programima potrebno dati dokument što bolje rezolucije (što krupnijih slova) kako bi ga što bolje prepoznali, originalni skenirani dokument je u GIMP-u povećan na 150% pa smo dobili ovo:


Ponovo pokrećemo program:

tesseract ugovor_150.jpg ugovor_150.txt -l srp

i dobijamo nešto što će nas poštedeti prekucavanja :-)

Član 7. Sporazum o poverljivosti podataka
Svi podaci iz ovog Ugovora i podaci o računu i Vlasniku računa su Bankarska tajna u smislu Zakona o Bankama i ne
mogu se bez posebne saglasnosti Vlasnika računa saopštavati trećim licima osim u skladu sa zakonom,
Vlasnik računa je saglasan da u slučaju otkaza Ugovora i prodaje potraživanja Banke prema Vlasniku računa Banka
novom vlasniku potraživanja saopšti sve podatke i činjenice u vezi sa potraživanjima kao i da svu dokumentaciju
uključujući i ovaj Ugovor sa svim njegovim sastavnim delovima stavi na raspolaganje novom vlasniku potraživanja.
Član 8. Sporazum o adresi dostavljanja
Banka će Vlasnika računa obaveštavati o prometu i stanju na računu najmanje jednom godišnje na adresu Vlasnika
računa ili obaveštenje staviti na raspolaganje Vlasniku računa u filijali Banke koja vodi račun u zavisnosti od načina
obaveštavanje koji Vlasnik računa izabere. Ugovorne strane saglasno konstatuju da su sva dostavljanja Vlasniku
računa punovažna na adresu označenu pod „poštu slati na adresuz“, a da su sva dostavljanja Banci punovažna na
adresu Bulevar Oslobođenja broj 80, Novi Sad,

Tesseract ne zna za srpsku ćirilicu.

Нема коментара:

Постави коментар