GoGPT Best VPN GoSearch

Icône de favori OnWorks

pdfsandwich - En ligne dans le Cloud

Exécutez pdfsandwich dans le fournisseur d'hébergement gratuit OnWorks sur Ubuntu Online, Fedora Online, l'émulateur en ligne Windows ou l'émulateur en ligne MAC OS

Il s'agit de la commande pdfsandwich qui peut être exécutée dans le fournisseur d'hébergement gratuit OnWorks en utilisant l'un de nos multiples postes de travail en ligne gratuits tels que Ubuntu Online, Fedora Online, l'émulateur en ligne Windows ou l'émulateur en ligne MAC OS

PROGRAMME:

Nom


sandwich pdf - Un générateur de pdf OCR sandwich à partir de fichiers pdf scannés

SYNOPSIS


sandwich pdf [Options] fichier_entrée.pdf

DESCRIPTION


sandwich pdf génère des fichiers pdf OCR "sandwich", c'est-à-dire des fichiers pdf qui ne contiennent que des images
(pas de texte) sera traité par reconnaissance optique de caractères (OCR) et le texte sera
ajouté à chaque page de manière invisible "derrière" les images. Noter que sandwich pdf a besoin de
programmes suivants : unpaper, convert, gs, hocr2pdf (pour tesseract < 3.03) et tesseract.
Comme tesseract >= 3.03 peut écrire des fichiers pdf, hocr2pdf n'est nécessaire que pour les anciennes versions de
tesseract. Veuillez visiter http://www.tobias-elze.de/sandwich pdf.

OPTIONS


-convertir
-convertir filename : nom du binaire convert (par défaut : convert)

-roucouler -roucouler Options : conversion supplémentaire Options; assurez-vous de citer; par exemple -roucouler
"-normaliser -seuil-noir 75%" appel converti --Aidez-moi ou homme converti pour tous
convertir Options

-déboguer conserver tous les fichiers temporaires dans / Tmp (pour le débogage)

-appliquerhocr2pdf
utiliser hocr2pdf même si tesseract >= 3.03

-première page
-première page nombre : nombre de pages à partir desquelles démarrer l'OCR (par défaut : 1)

-filtre gris
activer le filtre gris du papier ; plus loin Options peut être réglé par -unpo

-gs -gs filename : nom du binaire gs (par défaut : gs)

-hocr2pdf
-hocr2pdf filename : nom du binaire hocr2pdf (par défaut : hocr2pdf) ; ignoré pour
tesseract >= 3.03 sauf option -appliquerhocr2pdf est réglé

-hou -hou Options : supplémentaire hocr2pdf Options; assurez-vous de citer

-identifier
-identifier filename : nom du binaire d'identification (par défaut : identifier)

-dernière page
-dernière page nombre : nombre de page jusqu'à laquelle traiter l'OCR (par défaut : nombre de
pages dans le fichier d'entrée)

-long -long langue : langue du texte ; option de tesseract (par défaut : eng) par exemple : eng,
deu, deu-frak, fra, rus, swe, spa, ita, ... voir option -list_langs; Plusieurs
les langues peuvent être spécifiées, séparées par des caractères plus.

-disposition
-disposition { célibataire | double | aucun } : mise en page des pages numérisées ; nécessite du papier
simple : une page par feuille double : deux pages par feuille aucun : pas de mise en page automatique
(Par défaut)

-list_langs
lister les langues actuellement disponibles et quitter ; en cas de binaires personnalisés de
tesseract, placez-le après le -tesseract option

-maxpixels
-maxpixels NUM : nombre maximal de pixels autorisés pour le fichier d'entrée si
(résolution/72)^2 *largeur*hauteur > maxpixels puis redimensionner la page du fichier d'entrée vers le bas
avant l'OCR afin que la taille de la page en pixels corresponde à maxpixels ; défaut:
17415167 (A3 à 300 ppp)

-pas d'image
ne placez pas l'image sur le texte (nécessite hocr2pdf ; ignoré sans
-appliquerhocr2pdf option)

-nopreproc
ne pas prétraiter avec un papier

-ntthreads
-ntthreads nombre : nombre de threads parallèles (par défaut : nombre de processeurs deviné ; si
deviner échoue : 1)

-o -o nom de fichier : fichier de sortie ; par défaut : inputfile_ocr.pdf (si l'extension est différente
à partir de .pdf, l'extension d'origine est conservée)

-taille de la page
-taille de la page { original | NUMxNUM } : définir la taille de la page de l'original pdf de sortie : identique à
fichier d'entrée (par défaut) NUMxNUM : largeur x hauteur en pixels (par exemple pour A4 : -taille de la page
595x842)

-résolution
-résolution NUM : résolution (dpi) utilisée pour l'OCR (par défaut : 300)

-RVB utiliser l'espace colorimétrique RVB pour les images (par défaut : noir et blanc) ; à utiliser avec précaution : causes
problèmes avec certains espaces colorimétriques

-texte_sloppy
placez le texte de manière négligente, regroupez les mots, ne dessinez pas de glyphes uniques ; ignoré pour tesseract
>= 3.03 sauf option -appliquerhocr2pdf est réglé

-tesseract
-tesseract filename : nom du binaire tesseract (par défaut : tesseract)

-tesso -tesso Options : tesseract supplémentaire Options; assurez-vous de citer

-déballer
-déballer filename : nom du binaire unpaper (par défaut : unpaper)

-unpo -unpo Options : papier supplémentaire Options; assurez-vous de citer

-silencieux supprimer la sortie

-verbeux
produire plus de sortie

-version
version imprimée et quitter

-Aide Afficher cette liste de Options

--Aidez-moi Afficher cette liste de Options

LANGUE


Via Tesseract, de nombreux packages linguistiques disponibles - suivez ce lien
http://code.google.com/p/tesseract-ocr/downloads/list pour une liste complète. Voici un
sélection incomplète des langues prises en charge et de leurs abréviations :

ara (arabe), aze (Azerbaïdjanais), bul (bulgare), cat (catalan), ces (tchèque), chi_sim
(chinois simplifié), chi_tra (chinois traditionnel), chr (cherokee), dan (danois), dan-
frak (danois (Fraktur)), deu (allemand), ell (grec), eng (anglais), enm (vieil anglais), epo
(espéranto), est (estonien), fin (finnois), fra (français), frm (ancien français), glg
(galicien), heb (hébreu), hin (hindi), hrv (croate), hun (hongrois), ind (indonésien),
ita (italien), jpn (japonais), kor (coréen), lav (letton), lit (lituanien), nld (néerlandais),
nor (norvégien), pol (polonais), por (portugais), ron (roumain), rus (russe), slk
(slovaque), slv (slovène), sqi (albanais), spa (espagnol), srp (serbe), swe (suédois),
tam (tamoul), tel (télougou), tgl (tagalog), tha (thaï), tur (turc), ukr (ukrainien), vie
(Vietnamien)

Plusieurs langues peuvent être spécifiées, séparées par des caractères plus. Notez que le
Le package de langue tesseract respectif doit être installé sur votre système pour être utilisable par
sandwich pdf. Option -list_langs répertorie les langues disponibles sur votre système.

DISPONIBILITÉ


Vous trouverez des sources et des packages ainsi qu'une aide complète sur http://www.tobias-
elze.de/sandwich pdf.

Utilisez pdfsandwich en ligne en utilisant les services onworks.net


Serveurs et postes de travail gratuits

Télécharger des applications Windows et Linux

Commandes Linux

Ad




×
Publicité
❤ ️Achetez, réservez ou achetez ici — gratuitement, contribue à maintenir la gratuité des services.