pdf2txt - Online na nuvem

Este é o comando pdf2txt que pode ser executado no provedor de hospedagem gratuita OnWorks usando uma de nossas várias estações de trabalho online gratuitas, como Ubuntu Online, Fedora Online, emulador online do Windows ou emulador online do MAC OS

PROGRAMA:

NOME


pdf2txt - extrai conteúdo de texto de arquivos PDF

SINOPSE


pdf2txt [opção...] lima...

DESCRIÇÃO


pdf2txt extrai o conteúdo do texto de um arquivo PDF. Ele extrai todo o texto que deve ser
renderizado programaticamente, ou seja, texto representado como strings ASCII ou Unicode. Eu não posso
reconhecer texto desenhado como imagens que exigiriam reconhecimento óptico de caracteres. Isso também
extrai os locais correspondentes, nomes de fontes, tamanhos de fontes, direção de escrita
(horizontal ou vertical) para cada parte do texto. Você precisa fornecer uma senha para
documentos PDF protegidos quando seu acesso é restrito. Você não pode extrair qualquer texto de um
Documento PDF que não possui permissão de extração.

OPÇÕES


-o lima
Especifica o nome do arquivo de saída. O padrão é imprimir o conteúdo extraído para
saída standand em formato de texto.

-p pageno [, pageno, ...]
Especifica a lista separada por vírgulas dos números de página a serem extraídos. Números de página
comece em um. Por padrão, ele extrai texto de todas as páginas.

-c codec
Especifica o codec de saída.

-t tipo
Especifica o formato de saída. Os seguintes formatos são atualmente suportados:

texto
Formato de texto. Este é o padrão.

html
Formato HTML. Não é recomendado.

xml
Formato XML. Ele fornece o máximo de informações.

etiqueta
Formato “PDF marcado”. Um PDF marcado tem seu próprio conteúdo anotado como HTML
Tag. pdf2txt tenta extrair seus fluxos de conteúdo em vez de inferir seu texto
Localizações. As tags usadas aqui são definidas no PDF Referência, Sexto edição
(§10.7 “PDF marcado”).

-D modo de escrita
Especifica o modo de escrita das saídas de texto:

lr-tb
Da esquerda para a direita, de cima para baixo.

tb-rl
De cima para baixo, da direita para a esquerda.

auto
Determine o modo de escrita automaticamente

-M margem de caracteres, -L margem de linha, -W margem da palavra
Esses são os parâmetros usados ​​para análise de layout. Em um arquivo PDF real, o texto
porções podem ser divididas em vários pedaços no meio de sua execução, dependendo
o software de autoria. Portanto, a extração de texto precisa unir pedaços de texto. No
figura abaixo, dois blocos de texto cuja distância é mais próxima do que o margem de caracteres is
considerados contínuos e agrupados em um. Além disso, duas linhas cuja distância é
mais perto do que o margem de linha é agrupado como uma caixa de texto, que é uma área retangular que
contém um “grupo” de porções de texto. Além disso, pode ser necessário inserir um espaço em branco
caracteres (espaços) conforme necessário se a distância entre duas palavras for maior que o
margem da palavra, já que um espaço em branco entre as palavras pode não ser representado como um espaço, mas
indicado pelo posicionamento de cada palavra.

Cada valor é especificado não como um comprimento real, mas como uma proporção do comprimento para
o tamanho de cada personagem em questão. Os valores padrão são margem de caracteres = 1.0,
margem de linha = 0.3 e W = 0.2, Respectivamente.

-n
Suprima a análise de layout.

-A
Força a análise de layout para todas as sequências de texto, incluindo o texto contido nas figuras.

-V
Ative a detecção de escrita vertical.

-s escada
Especifica a escala de saída. Esta opção pode ser usada apenas no formato HTML.

-m n
Especifica o número máximo de páginas a serem extraídas. Por padrão, todas as páginas em um
documento são extraídos.

-P senha
Fornece a senha do usuário para acessar o conteúdo do PDF.

-d
Aumente o nível de depuração.

EXEMPLOS


Extraia o texto como um arquivo HTML cujo nome de arquivo é output.html:

$ pdf2txt -o output.html samples / naacl06-brilhanteama.pdf

Extraia um arquivo HTML japonês em escrita vertical:

$ pdf2txt -c euc-jp -D tb-rl -o output.html samples / jo.pdf

Extraia texto de um arquivo PDF criptografado:

$ pdf2txt -P minha senha -o output.txt secret.pdf

Use o pdf2txt online usando os serviços onworks.net



Programas online mais recentes para Linux e Windows