On 2014-12-02 11:48, Łukasz 'Cyber Killer' Korpalski wrote:
W dniu 02.12.2014 o 11:28, antoszka pisze:
Tako rzecze Łukasz 'Cyber Killer' Korpalski (2014-12-02, 10:57):
czy ktoś zna może jakiś sprawdzony, wolny i otwarty program/system do OCR? Wdzięcznym za sugestie.
Ja zazwyczaj stosuję wygodną klawiaturę, zręczne łapska i kogoś do dyktowania tekstu. Wyniki wszelakich OCRów jakie przez lata próbowałem zawsze były tak kiepskie że więcej czasu zajmowało mi poprawienie i doprowadzenie zeskanowenego tekstu do użytku niż napisanie go w całości ręcznie :-P.
No więc milordzie, tesseract jest zajebisty. Ostatnio zOCRowałem nim 4 strony umowy i musiałem tylko w vimie przytrzymać J kilkanaście razy, żeby akapity, które były akapitami znów skleić do jednej linijki.
Oprócz tego musiałem usunąć jedno (słownie: jedno) ` które się pojawiło z racji jakiegoś paprocha.
OK, spróbuję przy następnej okazji, nie twierdzę że moje podejście jest jedyne słuszne :-).
Ostatni raz OCRów próbowałem z 10 lat temu, wtedy zamknięty FineReader był najlepszym co można było znaleźć, a i tak był koszmarnie słaby. Po tym doświadczeniu spisałem wszelką technologię OCR na straty.
Czysta kartka, wysoka rozdziałka skanu, postprocessing na curves albo brightness/contrast.
Dasz radę.