1. |
Re: *** HIX GURU *** #7115 (mind) |
33 sor |
(cikkei) |
2. |
PDF szerkeszto / konvertalo (mind) |
45 sor |
(cikkei) |
3. |
PDF szerkeszto / konvertalo (mind) |
17 sor |
(cikkei) |
4. |
ekezetes PDF konvertalas (mind) |
14 sor |
(cikkei) |
5. |
re: PDF szerkeszto / konvertalo (mind) |
89 sor |
(cikkei) |
6. |
Re: PDF szerkeszto / konvertalo (mind) |
8 sor |
(cikkei) |
|
+ - | Re: *** HIX GURU *** #7115 (mind) |
VÁLASZ |
Feladó: (cikkei)
|
2019. 02. 14. 2:59 keltezéssel, HIX GURU írta:
> Üdv!
A gond2 az, hogy ezek a PDF-ek úgy készültek, hogy wordból / akármibõl
PDF nyomtatóra voltak küldve, és nem törõdtek olyasmivel, hogy
kitöltsék a szerzõ, cím, és stb. mezõket, amit pl. a mai mobilos
readerek megjelenítenek a felületükön. Azaz nagyon nehéz kikeresni
az
áhított mûvet olyan borítóképek közül, amiken a szerzõk Word 4.0, a
mûvek címe pedig egy random valami. + Gond, hogy sokszor a képek nem
kerültek a fájlba, hanem egy külön mappába lettek mentve sokuknál
valami logika alapján.
...
Török István
Szia Pista!
Nem tudom hány fájlról van szó, de a szerzõi és egyéb információk
szerkesztésére esetleg kereshetnél programot. Csak példaképpen Linux
alatt a pdfmod-ra ezt írja a telepítõ:
"PDF Mod is a simple application for modifying PDF documents
You can reorder, rotate, and remove pages, export images from a document,
*edit the title, subject, author, and keywords,* and combine documents
via drag and drop."
Szerintem a *pdftk* is tud ilyesmit, de nem nézetem meg.
Török Árpád
|
+ - | PDF szerkeszto / konvertalo (mind) |
VÁLASZ |
Feladó: (cikkei)
|
Szia!
A PDF formátum saját, nem Unicode kódolásokat használ. A cél ugye a
dokumentum megjelenésének a megõrzése. A kódolás jobb esetben
egybeesik valamilyen szabványossal, ha a PDF generátornak eszébe jut
olyat használni, de elõfordulhat, hogy csak találomra újradefiniál
ezt-azt. Most csak hogy hasból mondjak egy példát, a PDF nyomtatónak
nem jut eszébe magyar szöveghez a 852-es kódlapot használni, mert
mondjuk nem is ismeri, ezért a 850-est használja, csak mondjuk a @-ot
átdefiniálja õ-vé, a &-t meg û-vé. Vagy nem is definiál át semmit,
csak a felhasznált fontra bízza a helyes megjelenítést. Vagy nincs is
felhasznált font, mert szkennelt könyv esetében a szokásos eljárás,
hogy a megjelenítést kép biztosítja, amihez csatolódik egy külön
szövegréteg. Én nem tudom, hogy a te dokumentumaid hogyan épülnek fel,
de az utóbbi -- azaz képbõl megjelenített könyvlapok + szöveg-layer --
esetben már eleve az OCR-nél is elcsúszhatott a dolog, ami eddig sosem
derült ki, mert sosem a szöveget babráltad, hanem a képeket olvastad.
Bármelyik is a helyzet, az egyetlen járható útnak az újra-OCR-ezést
tartom, mert akár fontokból, akár képbõl van berakva a megjelenés,
szite biztos, hogy csak az "sértetlen" tartalom, a karakterkódolás már
a .pdf-ben el van barmolva, és ha vissza is állítható, szoftver legyen
a talpán, amelyik megcsinálja. Inkább meg kéne nyitni és szövegréteg
nélkül újra elmenteni, vagy valami pdf->pdf konverterrel ezt
megcsinálni. Esetleg pdf->PostScript konverzióval, ami kihagyja a
szöveget és csak a nyomtatni való megjelenést kódolja. Majd ezekbõl a
fájlokból újrakonvertálni .pdf-fé új, modern OCR-rel. Szerintem azt
akár az Online Converter is megteszi, de biztos vannak letölthetõ
konverterek. Én nem nagyon használok ilyeneket. PDF -> PostScript
convertert igen, de csak DOS-on. Ez a PDFTOPS.EXE, elküldöm, mert
szélsõséges esetben Windows-on is használhatod, ha nem találsz semmi
egyszerûbb megoldást, mondjuk DOSBox-ban, de úgy jóval lassabb lehet,
mint igazi vason. Innen érheted el: http://www.nomdo.dds.nl/psview.htm
csak az a link él, amelyik a 3.02-es verzióra irányít. Az a gyanúm
azért, hogy Windows-ra is létezik néhány PostScript generátor és jobb
esetben nem hagyják benne a szöveget, vagy legalább opciót hagynak rá,
hogy kivedd.
Üdv:
--
KORMOS Krisztián
+36304778633
- User of Links 2.17/2.15 web browser for DOS operating system on Caldera
DR-DOS 7.03 KormaX distribution, 2019.
-- Author of KormaX DOS distribution for modern PC's
DOS ain't dead C:\>_
|
+ - | PDF szerkeszto / konvertalo (mind) |
VÁLASZ |
Feladó: (cikkei)
|
Még valami, bár szintén DOS, de ahogy elnézem Linuxra és Windowsra is
létezik, tartalmazza egyrészt a PDFTOPS.EXE eggyel újabb verzióját,
másrészt egy szöveg extractort és egy .pdf -> html konvertert is
egyebek között (képextractor, stb.). Lehet, hogy van Windows-ra is,
XPDF a neve. https://www.opus.co.tt/dave/apps.htm
"Xpdf v3.03"-ként keresd az oldalon és a "DOS binary and source
download"-linkre kattintva töltheted le DOS-ra, az alap link viszont
Linux és Windows letöltésekhez vezet, esetleg érdemes kipróbálnod.
Üdv
--
KORMOS Krisztián
+36304778633
- User of Links 2.17/2.15 web browser for DOS operating system on Caldera
DR-DOS 7.03 KormaX distribution, 2019.
-- Author of KormaX DOS distribution for modern PC's
DOS ain't dead C:\>_
|
+ - | ekezetes PDF konvertalas (mind) |
VÁLASZ |
Feladó: (cikkei)
|
Sziasztok!
Szerintem sehogy. Anno decibel a PDF-ekben nem volt olyan font, ami magyar
ekezetes karaktert tudott volna, tehat kvazi nyomdaszatilag ossze lett
rakva
egy o betubol meg egy ekezetbol. Innentol kezdve OCR nelkul eselytelen
vagy
konvertalni.
Udv,
marky
|
+ - | re: PDF szerkeszto / konvertalo (mind) |
VÁLASZ |
Feladó: (cikkei)
|
PDF szerkeszto / konvertalo (Török István HIX GURU 7115 2019-02-14)
Környezetem:
MacBook 10.13.6 (OS X, BSD Unix alapú),
Aquamacs 3.4 (leánynevén emacs)
Reguláris kifejezés: véges automatával felismerhetõ
jelsorozat
Az OS X teljesen Unicode, azaz tud ,,minden" ábécét
(majdnem...), így ékezetes betûket is.
Pár részleges tippel szolgálhatok csak - ráadásul mindezt
unix-linux stb. alapon, de tudtommal mennek Windows alatt
is, annak kezelését másra hagynám.
1. PDF szerkesztés
Pdf-et korábban Adobe Acrobat DC (?) szerkesztõvel
szerkesztettem, ez fizetõs (drága). Nem emlékszem már,
mennyire volt könnyû vagy sem a helyettesítés, de nem
hiszem, hogy fölvenné a versenyt az Emacs/Unix
módszerrel. Az OS X Preview nevû programja (része a
rendszernek) tkp. az Adobe Reader-t helyettesíti, ebbe
kezdetlegesen be lehet írni, jegyzetelni hozzá, hasznos, de
neked sajnos nem ez kell.
2. Emacs konvertálás
A Unix/Linux egyik erõssége a szövegkeresés illetve
helyettesítés, különösen reguláris kifejezésekkel, de
amióta (régóta) Emacs-hívõ lettem, elszoktam az ehhez
használatos alkalmi pársoros szövegátalakító, keresõ
stb. shell programocskáktól, hanem kb. minden ilyesmit
Emacs-ban végzek. Szövegszerkesztést is, gyakori eszközöm
a LaTeX, amit az Emacs jól támogat.
tr, sed ilyen Unix alapprogramok. Újabban Perl-ben ûzik
mindezt - már aki nem Emacs-ban. Mindezt? Milyen mindezt?
Pl. egykor (mondjuk 20 éve) a HIX még nem tudott magyar
ékezetes betûket írni, az én akkor gépi környezetem már
igen, így az ékezetekkel ellátott magyar betûket át kellett
alakítani a HIX megfelelõ ISO 8859-1 betûkre. Ha jól látom,
ez ma is a helyzet, csak már a HIX ezt maga is megteszi,
visszabutítja (egységesíti) a karakterkészletet erre. Na,
ezt az átalakítást végeztem Emacs makrókkal: az adott
magyar ISO-8859-2 (magyar ékezetes) szöveget
HIX-konverzióra változtattam, ez egyetlen parancs (emacs
makró) volt, a szöveget ezen végigfuttatva küldhettem a
HIX-nek. Ma az egész világ Unicode (ebben tévedhetek).
Ez az Emacs-Lisp nagyon könnyû (ilyen egyszerûbb
esetekben), az Emacs-makrók is, hamar meg lehet tanulni és
azontúl nagyon kényelmes tetszõleges nagy szöveg, több száz
oldal átalakítására. Néha, finomításként, többet alkalmaztam
egymás után, amikor pl. az u" (u után közvetlenül kettõs
ékezet) nem akart volna û (magyar hosszú û, azaz az u-n
kettõs hosszú ékezet) lenni, hanem maradnia kellett u
záró idézõjelnek. Ez a kézi vacakolás a reguláris
kifejezések szövegfüggetlen voltából következik, kicsit
ügyeskedni kell, de ebbe nem megyek bele, nem érdemes külön
környezetfüggõ nyelvtant gyártani pár alkalmi kivételre.
Mindehhez azonban el kell jutni egy szöveghez - legyen
azontúl akár ISO 8859 karakterkészletben, akár Unicode-ban
- a PDF-bõl.
Ennek egy lehetséges eszköze a pdf-tools
https://github.com/politza/pdf-tools
ez Emacs alapú, Windows-ban és OS X-ben (meg persze
Linux-ban) is megy. Ha ehhez hozzájutsz illetve
elsajátítod, sokat tudó eszköz lesz a kezedben. Ezt csak
képzelem, ugyanis nem próbáltam. Ez tud pdf-bõl sima
szöveget gyártani, ás akkor már nyert ügyed van, Emacs-ban
helyreteszed a hibás betûket és visszaalakítod PDF-fé.
3. Szövegbõl ismét PDF - Emacs, org
Az Emacs-nak van egy szövegszerkesztõ módja, org a neve.
Ha egy file-t ilyen kiterjesztéssel gyártunk, akkor abból
pdf, LaTeX, html, text (és még tán másféle) szöveget is
gyárthatunk egyszerû Export-álással.
Nem a te kérdésed, de szakcikket, könyvet legjobban
TeX ill. LaTeX formában érdemes gyártani, így a legjobb a
minõség, a ,,gyári" szövegszerkesztõk, Word, Notes akármi
nyomukba sem érnek, ha nem közönséges módon kell a szöveget
kezelni - pl. egy vastag könyvet LaTeX-ben pillanatok alatt
úgy le lehet kicsinyíteni, mondjuk felére (vagy
1/e-szeresére), hogy a méreteken kívül minden ugyanilyan
marad - sorok, elválasztások, bekezdések, fejezetek.
Üdvözlettel Gaál Tamás (F)
|
+ - | Re: PDF szerkeszto / konvertalo (mind) |
VÁLASZ |
Feladó: (cikkei)
|
Próbáld meg az eredeti ékezetes szöveges fileokat (pl html) sima notepad-al
megnyitni majd változtatás nélkül elmenteni saveas-al úgy hogy nem a alapértelm
e
zett ANSI kódolás van kiválasztva hanem az UTF-8.. (Ha hozzáad még txt
kiterjesz
tést azt töröld) Ezután a konvertálóprogik jól kezelik az ékezeteket remélhetõl
e
g.
|
|