GoGPT Best VPN GoSearch

icono de página de OnWorks

pdf2txt - Online en la nube

Ejecute pdf2txt en el proveedor de alojamiento gratuito de OnWorks a través de Ubuntu Online, Fedora Online, emulador en línea de Windows o emulador en línea de MAC OS

Este es el comando pdf2txt que se puede ejecutar en el proveedor de alojamiento gratuito de OnWorks utilizando una de nuestras múltiples estaciones de trabajo en línea gratuitas, como Ubuntu Online, Fedora Online, emulador en línea de Windows o emulador en línea de MAC OS.

PROGRAMA:

NOMBRE


pdf2txt: extrae el contenido de texto de los archivos PDF

SINOPSIS


pdf2texto [opción...] presentar...

DESCRIPCIÓN


pdf2texto extrae el contenido de texto de un archivo PDF. Extrae todo el texto que se va a
renderizado mediante programación, es decir, texto representado como cadenas ASCII o Unicode. No puede
reconocer el texto dibujado como imágenes que requerirían el reconocimiento óptico de caracteres. También
extrae las ubicaciones correspondientes, nombres de fuente, tamaños de fuente, dirección de escritura
(horizontal o vertical) para cada parte del texto. Debe proporcionar una contraseña para
documentos PDF protegidos cuando su acceso está restringido. No puede extraer ningún texto de un
Documento PDF que no tiene permiso de extracción.

OPCIONES


-o presentar
Especifica el nombre del archivo de salida. El valor predeterminado es imprimir el contenido extraído
estándar y salida en formato de texto.

-p pageno [, pageno, ...]
Especifica la lista separada por comas de los números de página que se extraerán. Número de páginas
empezar en uno. De forma predeterminada, extrae texto de todas las páginas.

-c códec
Especifica el códec de salida.

-t tipo
Especifica el formato de salida. Actualmente se admiten los siguientes formatos:

texto
Formato de texto. Este es el predeterminado.

html
Formato HTML. No se recomienda.

xml
Formato XML. Proporciona la mayor cantidad de información.

etiqueta
Formato “PDF etiquetado”. Un PDF etiquetado tiene su propio contenido anotado con HTML
las etiquetas. pdf2texto intenta extraer sus flujos de contenido en lugar de inferir su texto
ubicaciones. Las etiquetas utilizadas aquí se definen en el (PDF) Referencia, Sexto Edición[ 1 ]
(§10.7 “PDF etiquetado”).

-D modo de escritura
Especifica el modo de escritura de las salidas de texto:

lr-tb
De izquierda a derecha, de arriba a abajo.

tb-rl
De arriba a abajo, de derecha a izquierda.

auto
Determinar el modo de escritura automáticamente

-M margen de caracteres, -L margen de línea, -W margen de palabra
Estos son los parámetros utilizados para el análisis de diseño. En un archivo PDF real, texto
las porciones pueden dividirse en varios trozos en el medio de su ejecución, dependiendo de
el software de autoría. Por lo tanto, la extracción de texto debe empalmar fragmentos de texto. En el
figura a continuación, dos fragmentos de texto cuya distancia es más cercana que la margen de caracteres is
se consideran continuos y se agrupan en uno. Además, dos líneas cuya distancia es
más cerca que el margen de línea se agrupa como un cuadro de texto, que es un área rectangular que
contiene un "grupo" de porciones de texto. Además, puede ser necesario insertar un espacio en blanco
caracteres (espacios) según sea necesario si la distancia entre dos palabras es mayor que la
margen de palabra, ya que un espacio en blanco entre palabras podría no representarse como un espacio, pero
indicado por el posicionamiento de cada palabra.

Cada valor se especifica no como una longitud real, sino como una proporción de la longitud a
el tamaño de cada carácter en cuestión. Los valores predeterminados son margen de caracteres = 1.0,
margen de línea = 0.3, y W = 0.2, respectivamente.

-n
Suprime el análisis de diseño.

-A
Forzar el análisis del diseño de todas las cadenas de texto, incluido el texto contenido en figuras.

-V
Habilite la detección de escritura vertical.

-s escala
Especifica la escala de salida. Esta opción solo se puede utilizar en formato HTML.

-m n
Especifica el número máximo de páginas para extraer. De forma predeterminada, todas las páginas de una
se extraen los documentos.

-P la contraseña
Proporciona la contraseña de usuario para acceder al contenido del PDF.

-d
Aumente el nivel de depuración.

EJEMPLOS


Extraiga el texto como un archivo HTML cuyo nombre de archivo es output.html:

$ pdf2texto -o output.html samples / naacl06-shinyama.pdf

Extraiga un archivo HTML japonés en escritura vertical:

$ pdf2texto -c euc-jp -D tb-rl -o output.html samples / jo.pdf

Extraiga texto de un archivo PDF cifrado:

$ pdf2texto -P micontraseña -o salida.txt secreto.pdf

Use pdf2txt en línea usando los servicios de onworks.net


Servidores y estaciones de trabajo gratuitos

Descargar aplicaciones de Windows y Linux

Comandos de Linux

Ad




×
Anuncio
❤ ️Compre, reserve o adquiera aquí: sin costo, ayuda a mantener los servicios gratuitos.