Re: [HS General] Konwersja PDF na ODT

4 Oct 2014


      On Sat, 4 Oct 2014, Leszek Jakubowski wrote:
...
On 01/10/14 10:31, rysiek wrote:
...
Cześć,
I'm in a bit of a pickle, szukam metody automagicznego przerzucenia PDFa do
ODT -- tak, mogę sobie kopiować tekst ręcznie, ale to jest upierdliwe; 
there
has to be a better way, a jak na razie poza szemranymi stronami na necie
"przekonwertujemy i wyślemy Ci mailem", nic nie znalazłem.
Libreoffice otwiera PDF i pozwala go edytować, ale jako... obrazek z
(edytowalnym) tekstem. No way to save as ODT, all you get is ODG (grafika
OpenDocument).
Halp?
PDF z założenia nie ma tylu informacji, co ODT. Ma informację, że literka a 
znajduje się na stronie nr 2, i ma współrzędne 344,22.
Może mieć te informacje, ale nie musi. Dlatego OOo otwiera PDFa jako grafikę, 
bo to jest format graficzny.
Niektórymi narzędziami takimi jak pstoedit można uzyskać z PDF'a coś do obróbki
wektorowej, PDF'owi jak Leszek pisze bliżej do SVG i formatów takich
jak Windows Meta File (wektorowy), niż do tekstu w stylu .odt.
...
Jeżeli jest to PDF wypluty z OOo/LibreOffice to możliwe, że ktoś zaembedował 
w PDFie ODT, ale jeżeli pochodzi z innego źródła, to widziałem kilka 
extensionów do importowania PDFów do writera. One po prostu zgadują, które 
literki są częścią którego wiersza/akapitu (taki prawie OCR).
Np. 
http://extensions.openoffice.org/en/project/oracle-pdf-import-extension-open...
Rozszerzenia robią albo coś w stylu "pdftotext" (jak pisałeś wyżej - zgadywanie
linijek) albo robią z tego EMF (OpenOffice'owy wektorowy metafile).
Czasami masz jeszcze zagwostkę - zastosowano niestandardowe czcionki w układzie
CID, więc mapowanie znaków jest przypadkowe (wcale nie ASCII/ISO/cokowlwiek
sensownego) - aby uzyskać rozwiązanie ogólne trzeba jeszcze OCR-ować czcionkę.
Obrabiałem ostatnio pliki z tekstem w EBCDIC :)
//Saper

2026

2025

2024

2023

2022

2021

2020

2019

2018

2017

2016

2015

2014

2013

2012

2011

Re: [HS General] Konwersja PDF na ODT