On Sat, 4 Oct 2014, Leszek Jakubowski wrote:
On 01/10/14 10:31, rysiek wrote:
Cześć,
I'm in a bit of a pickle, szukam metody automagicznego przerzucenia PDFa do ODT -- tak, mogę sobie kopiować tekst ręcznie, ale to jest upierdliwe; there has to be a better way, a jak na razie poza szemranymi stronami na necie "przekonwertujemy i wyślemy Ci mailem", nic nie znalazłem.
Libreoffice otwiera PDF i pozwala go edytować, ale jako... obrazek z (edytowalnym) tekstem. No way to save as ODT, all you get is ODG (grafika OpenDocument).
Halp?
PDF z założenia nie ma tylu informacji, co ODT. Ma informację, że literka a znajduje się na stronie nr 2, i ma współrzędne 344,22.
Może mieć te informacje, ale nie musi. Dlatego OOo otwiera PDFa jako grafikę, bo to jest format graficzny.
Niektórymi narzędziami takimi jak pstoedit można uzyskać z PDF'a coś do obróbki wektorowej, PDF'owi jak Leszek pisze bliżej do SVG i formatów takich jak Windows Meta File (wektorowy), niż do tekstu w stylu .odt.
Jeżeli jest to PDF wypluty z OOo/LibreOffice to możliwe, że ktoś zaembedował w PDFie ODT, ale jeżeli pochodzi z innego źródła, to widziałem kilka extensionów do importowania PDFów do writera. One po prostu zgadują, które literki są częścią którego wiersza/akapitu (taki prawie OCR).
Np. http://extensions.openoffice.org/en/project/oracle-pdf-import-extension-open...
Rozszerzenia robią albo coś w stylu "pdftotext" (jak pisałeś wyżej - zgadywanie linijek) albo robią z tego EMF (OpenOffice'owy wektorowy metafile).
Czasami masz jeszcze zagwostkę - zastosowano niestandardowe czcionki w układzie CID, więc mapowanie znaków jest przypadkowe (wcale nie ASCII/ISO/cokowlwiek sensownego) - aby uzyskać rozwiązanie ogólne trzeba jeszcze OCR-ować czcionkę.
Obrabiałem ostatnio pliki z tekstem w EBCDIC :)
//Saper