Hledám kvalitní konvertor .pdf na soubor pro WinAlign, který zvládá i češtinu
Thread poster: Stepanka
Stepanka
Stepanka
Czech Republic
Local time: 01:24
Czech to German
+ ...
Sep 18, 2013

Krásný večer všem kolegům,

prosím Vás o radu, zda máte někdo zkušenost s kvalitním konvertorem souborů z .pdf na jakýkoliv typ souboru, podporovaný programem WinAlign. Jedná se o celkem velký soubor, zkouším všechny dříve osvědčené online konvertory, které jinak bezvadně fungují, ale nedaří se mi. Vždycky jsou v textu místo písmen s diakritikou zástupné znaky.

Díky předem za radu
Štěpánka


 
Zbyněk Táborský
Zbyněk Táborský  Identity Verified
Czech Republic
Local time: 01:24
English to Czech
+ ...
SITE LOCALIZER
ABBYY PDF Transformer Sep 18, 2013

Hezký večer Štěpánko,

pro konverzi PDF souborů (ale i jako virtuální PDF tiskárnu) používám program ABBYY PDF Transformer.


 
Stepanka
Stepanka
Czech Republic
Local time: 01:24
Czech to German
+ ...
TOPIC STARTER
Moc děkuji za radu, Zbyňku, používáš placenou verzi, Sep 18, 2013

nebo stačí free-verze?

 
Milan Condak
Milan Condak  Identity Verified
Local time: 01:24
English to Czech
Asi placený SW Sep 18, 2013

Stepanka wrote:

prosím Vás o radu, zda máte někdo zkušenost s kvalitním konvertorem souborů z .pdf na jakýkoliv typ souboru,


Dobrý večer,

Pro OCR anglického textu, pokud nefunguje extrakce textu, používám SW z

http://www.pdfocr.net/

Program jsem si stáhl v den, kdy byla rozdávaná licence zdarma. Funguje v MS Windows.

Když individuálně školím uživatele Wordfastu, kontroluji s nimi jejich verzi MS Office. Součástí MS Office bývají Nástroje sady Microsoft Office a v nich "Imaging...". České "Imaging" podporují češtinu. Výsledek je TXT nebo HTM. Naposled jsem měl v MS Office 2003. Nyní používám levnější verzi MS Office 2007, ve kterých Imaging není.

OCR je i součástí Wordfastu Anywhere, www.freetm.com . Když jsem testoval, tak drobné české písmo nebylo rozpoznáno. FineReader si s tím ale poradil.

Kdo potřebuje dělat OCR pravidelně, měl by si koupit některý z placených programů. Uživatelé asi doporučí svůj nástroj.

Milan


 
Stepanka
Stepanka
Czech Republic
Local time: 01:24
Czech to German
+ ...
TOPIC STARTER
Milane, moc děkuji za obsáhlé vysvětlení i náměty, Sep 18, 2013

budu zkoušet, co se osvědčí, dám poté vědět. Bude to ale určitě nějakou dobu trvat.

Krásný večer
Štěpánka


 
Zbyněk Táborský
Zbyněk Táborský  Identity Verified
Czech Republic
Local time: 01:24
English to Czech
+ ...
SITE LOCALIZER
ABBYY PDF Transformer Sep 18, 2013

Stepanka wrote:

nebo stačí free-verze?


Já jsem program koupil, používám ho často na naskenované smlouvy atd.

Bezplatná verze je, pokud si dobře pamatuju, omezená počtem stránek.


 
Milan Condak
Milan Condak  Identity Verified
Local time: 01:24
English to Czech
Někdy to jde i bez OCR a bez WinAlign Sep 26, 2013

Stepanka wrote:

Vždycky jsou v textu místo písmen s diakritikou zástupné znaky.



Překladovou paměť je možno snadno vytvořit ze dvou nebo více PDF, pokud v každém souboru PDF je text v jednom jazyce.

http://www.condak.net/tools/align-sentence/lf-align3-5/cs/00.html

Na 8. maratonu strojového překladu jsem dostal publikaci Čeština v digitálním věku.

Soubor jsem našel i na internetu ( http://www.meta-net.eu/whitepapers/e-book/czech.pdf ).

Soubor jsem stáhl a vytvořil jsem z anglického a českého textu překladovou paměť.

Zvládl jsem to i bez OCR a bez WinAlign, ale s podobným problémem.

Většina profesionálních CAT používá na konverzi PDF do MS Wordu stejný software. Já jsem použil Wordfast Pro.

Problémy činily

- anglické znaky "Th", místo "The" jenom "e", dále "fi" a podobně.

- dalším problémem byl text ve dvou sloupcích na některých stránkách;
za prvním řádkem levého sloupce následoval první řádek pravého sloupce;
tato potíž se projevila ve všech třech výskytech textu: oba sloupce česky, oba sloupce anglicky, jeden sloupec česky a druhý anglicky.

Mohl jsem si stáhnout FineReader. Bez licence umožňuje konvertovat 50 stránek a uložit jednu stránku.
Můj soubor je ale delší. Vyzkoušel jsem více bezplatných nástrojů. K tématu se ještě vrátím.

Mohou se majitelé s licencí některého OCR SW vyjádřit, jak se ji podaří udělat převod souboru "czech.pdf"? Jak snadno oddělí anglický a český text před následným přiřazením?

Milan


 
Stepanka
Stepanka
Czech Republic
Local time: 01:24
Czech to German
+ ...
TOPIC STARTER
WinAlign se podařil Sep 26, 2013

Použila jsem konverzi z placeného PDF OCR do .rtf, kterou mi poskytl Zbyněk - JEŠTĚ JENOU MOC DĚKUJI -, kterou ale WinAlign také nechtěl chroupat a převedla ji na radu vynikající podpory ZStudia do .doc. Pak už bylo vše naprosto v pohodě.

Díky i za předchozí příspěvek, Milane, také je velmi inspirativní.

Přeji Vám všem krásný den a hodně úspěchů
Štěpánka


 
Milan Condak
Milan Condak  Identity Verified
Local time: 01:24
English to Czech
Prezentace několika metod konverze Oct 14, 2013

Milan Condak wrote:
Soubor jsem stáhl a vytvořil jsem z anglického a českého textu překladovou paměť.

Zvládl jsem to i bez OCR a bez WinAlign, ale s podobným problémem.

Já jsem použil Wordfast Pro.



Kolega Martin Janda udělal konverzi ve Finereaderu, já jsem přidal ukázku překládání PDF v OmegaT a dokončil jsem prezentaci.

http://www.condak.net/lekce/pdf-txt/cs/00.html

Konverze PDF do TXT nebo DOC

Vytvoření TMX z PDF

Překlad PDF v OmegaT

Milan


 


There is no moderator assigned specifically to this forum.
To report site rules violations or get help, please contact site staff »


Hledám kvalitní konvertor .pdf na soubor pro WinAlign, který zvládá i češtinu






Trados Business Manager Lite
Create customer quotes and invoices from within Trados Studio

Trados Business Manager Lite helps to simplify and speed up some of the daily tasks, such as invoicing and reporting, associated with running your freelance translation business.

More info »
CafeTran Espresso
You've never met a CAT tool this clever!

Translate faster & easier, using a sophisticated CAT tool built by a translator / developer. Accept jobs from clients who use Trados, MemoQ, Wordfast & major CAT tools. Download and start using CafeTran Espresso -- for free

Buy now! »