Jest to polecenie pdfsandwich, które można uruchomić u dostawcy bezpłatnego hostingu OnWorks przy użyciu jednej z naszych wielu bezpłatnych stacji roboczych online, takich jak Ubuntu Online, Fedora Online, emulator online systemu Windows lub emulator online systemu MAC OS
PROGRAM:
IMIĘ
pdfkanapka - Generator kanapkowych plików PDF OCR ze zeskanowanych plików PDF
STRESZCZENIE
pdfkanapka [Opcje] plik wejściowy.pdf
OPIS
pdfkanapka generuje pliki pdf typu „sandwich” OCR, tj. pliki pdf zawierające wyłącznie obrazy
(bez tekstu) zostanie przetworzony przez optyczne rozpoznawanie znaków (OCR) i tekst zostanie
dodawane do każdej strony w sposób niewidoczny „za” obrazami. Zauważ to pdfkanapka potrzebuje
następujące programy: unpaper, Convert, gs, hocr2pdf (dla tesseract < 3.03) i tesseract.
Ponieważ tesseract >= 3.03 może zapisywać pliki PDF, hocr2pdf jest potrzebny tylko w przypadku starszych wersji
tesserakt. Proszę odwiedź http://www.tobias-elze.de/pdfkanapka.
OPCJE
-konwertować
-konwertować nazwa pliku: nazwa konwersji binarnej (domyślnie: konwersja)
-gruchać -gruchać Opcje : dodatkowa konwersja Opcje; pamiętaj o cytowaniu; np -gruchać
"-normalizować -czarny próg 75%” konwersji telefonicznej --help albo człowiek nawróci się dla wszystkich
konwertować Opcje
-odpluskwić przechowuj wszystkie pliki tymczasowe / Tmp (do debugowania)
-enforcehocr2pdf
użyj hocr2pdf, nawet jeśli tesseract >= 3.03
-pierwsza strona
-pierwsza strona liczba : numer strony, od której ma się rozpocząć OCR (domyślnie: 1)
-szary filtr
włącz szary filtr papieru; dalej Opcje można ustawić przez -niepo
-gs -gs nazwa pliku: nazwa pliku binarnego gs (domyślnie: gs)
-hocr2pdf
-hocr2pdf nazwa pliku: nazwa pliku binarnego hocr2pdf (domyślnie: hocr2pdf); ignorowane dla
tesserakt >= 3.03, chyba że opcja -enforcehocr2pdf ustawiono
-huo -huo Opcje : dodatkowy hocr2pdf Opcje; koniecznie zacytuj
-zidentyfikować
-zidentyfikować nazwa pliku: nazwa binarna identyfikacji (domyślnie: identyfikacja)
-Ostatnia strona
-Ostatnia strona liczba : liczba stron do przetworzenia OCR (domyślnie: liczba
strony w pliku wejściowym)
-długie -długie język : język tekstu; opcja tesseraktu (domyślnie: eng) np.: eng,
deu, deu-frak, fra, rus, swe, spa, ita, ... zobacz opcję -lista_języków; Wiele
można określić języki, oddzielając je znakami plus.
-układ
-układ { singiel | podwójne | brak } : układ skanowanych stron; wymaga papieru
pojedynczy: jedna strona na arkusz podwójny: dwie strony na arkusz brak: brak automatycznego układu
(Domyślne)
-lista_języków
wyświetl aktualnie dostępne języki i wyjdź; w przypadku niestandardowych plików binarnych
tesserakt, umieść to po -tesserakt opcja
-maxpiksele
-maxpiksele NUM : maksymalna liczba pikseli dozwolona dla pliku wejściowego if
(rozdzielczość/72)^2 *szerokość*wysokość > maxpiksele, a następnie przeskaluj stronę pliku wejściowego w dół
przed OCR, aby rozmiar strony w pikselach odpowiadał maxpikselom; domyślny:
17415167 (A3 @ 300 dpi)
-brak obrazka
nie umieszczaj obrazu nad tekstem (wymaga hocr2pdf; ignorowane bez
-enforcehocr2pdf opcjonalnie)
-nopreproc
nie poddawaj wstępnej obróbce papierem
-n wątków
-n wątków number : liczba równoległych wątków (domyślnie: przewidywana liczba procesorów; if
zgadywanie zawodzi: 1)
-o -o nazwa pliku: plik wyjściowy; domyślnie: plik wejściowy_ocr.pdf (jeśli rozszerzenie jest inne
z .pdf, zachowane jest oryginalne rozszerzenie)
-rozmiar strony
-rozmiar strony { oryginał | NUMxNUM }: ustaw rozmiar strony wyjściowego oryginału PDF: taki sam jak
plik wejściowy (domyślny) NUMxNUM: szerokość x wysokość w pikselach (np. dla A4: -rozmiar strony
595x842)
-rozkład
-rozkład NUM: rozdzielczość (dpi) używana do OCR (domyślnie: 300)
rgb używaj dla obrazów przestrzeni barw RGB (domyślnie: czarno-biały); używaj ostrożnie: przyczyny
problemy z niektórymi przestrzeniami kolorów
-niechlujny_tekst
niechlujnie umieszczaj tekst, grupuj słowa, nie rysuj pojedynczych glifów; ignorowane dla tesseraktu
>= 3.03, chyba że opcja -enforcehocr2pdf ustawiono
-tesserakt
-tesserakt nazwa pliku: nazwa pliku binarnego tesseract (domyślnie: tesseract)
-tesso -tesso Opcje : dodatkowy tesserakt Opcje; koniecznie zacytuj
-niepapier
-niepapier nazwa pliku: nazwa pliku binarnego unpaper (domyślnie: unpaper)
-niepo -niepo Opcje : dodatkowy papier Opcje; koniecznie zacytuj
-cichy tłumić wyjście
-gadatliwy
produkować więcej
-wersja
wersję do druku i wyjdź
-Pomoc Wyświetl tę listę Opcje
--help Wyświetl tę listę Opcje
JĘZYKI
Za pośrednictwem Tesseract dostępnych jest wiele pakietów językowych – kliknij ten link
http://code.google.com/p/tesseract-ocr/downloads/list aby uzyskać pełną listę. Oto
niepełny wybór obsługiwanych języków i ich skrótów:
ara (arabski), aze (azerbejdżański), bul (bułgarski), cat (kataloński), ces (czeski), chi_sim
(chiński uproszczony), chi_tra (chiński tradycyjny), chr (czirokeski), dan (duński), dan-
frak (duński (Fraktur)), deu (niemiecki), ell (grecki), eng (angielski), enm (staroangielski), epo
(Esperanto), est (estoński), fin (fiński), fra (francuski), frm (starofrancuski), glg
(galicyjski), heb (hebrajski), hin (hindi), hrv (chorwacki), hun (węgierski), ind (indonezyjski),
ita (włoski), jpn (japoński), kor (koreański), lav (łotewski), lit (litewski), nld (holenderski),
nor (norweski), pol (polski), por (portugalski), ron (rumuński), rus (rosyjski), slk
(słowacki), slv (słoweński), sqi (albański), spa (hiszpański), srp (serbski), swe (szwedzki),
tam (tamilski), tel (telugu), tgl (tagalski), tha (tajski), tur (turecki), ukr (ukraiński), vie
(Wietnamski)
Można określić wiele języków, oddzielając je znakami plus. Należy pamiętać, że
Aby można było z niego korzystać, w systemie musi być zainstalowany odpowiedni pakiet językowy tesseract
pdfkanapka. Opcja -lista_języków wyświetla listę języków dostępnych w systemie.
DOSTĘPNOŚĆ
Źródła i pakiety oraz kompleksową pomoc można znaleźć na stronie http://www.tobias-
elze.de/pdfkanapka.
Korzystaj z pdfsandwich online, korzystając z usług onworks.net