pstotext - Online na nuvem

Este é o comando pstotext que pode ser executado no provedor de hospedagem gratuita OnWorks usando uma de nossas várias estações de trabalho online gratuitas, como Ubuntu Online, Fedora Online, emulador Windows online ou emulador MAC OS online

PROGRAMA:

NOME


pstotext - extrai texto ASCII de um arquivo PostScript ou PDF

SINTAXE


pstotexto [opção | nome do caminho] ...

onde a opção inclui:

-cortiça
-panorama
-paisagemOutro
-Retrato
-
-arquivo de saída
-gs comando
-depurar
-bboxes

DESCRIÇÃO


pstotexto lê um ou mais arquivos PostScript ou PDF e grava na saída padrão de um
representação do texto simples que seria exibido se o arquivo PostScript fosse
impresso. Conforme descrito na seção DETALHES abaixo, esta representação é apenas um
aproximação. No entanto, muitas vezes é útil para a recuperação de informações (por exemplo, executando
grep(1) ou construir um índice de texto completo) ou para recuperar o texto de um arquivo PostScript cujo
fonte que você perdeu.

pstotexto chama Ghostscript e requer Aladdin Ghostscript versão 3.51 ou mais recente.
O Ghostscript deve ser invocável no caminho de pesquisa atual como gs. Alternativamente, você pode
use a opção -gs para especificar o comando (nome do caminho e opções) para executar o Ghostscript. Para
Por exemplo, no Windows, você pode usar -gs "c: \ gs \ gswin32c.exe -Ic: \ gs; c: \ gs \ fonts".

pstotexto lê e processa sua linha de comando da esquerda para a direita, ignorando o caso de
opções. Ao encontrar um nome de caminho, ele abre o arquivo e espera encontrar um
Trabalho PostScript ou documento PDF a ser processado. A opção - significa ler e processar um
Trabalho PostScript da entrada padrão. Se nenhum - ou argumentos de nome de caminho forem encontrados,
pstotexto lê um trabalho PostScript da entrada padrão. (Documentos PDF requerem acesso aleatório,
portanto, não pode ser lido da entrada padrão.) Você pode usar a opção -output para especificar um
arquivo de saída (lembre-se de invocá-lo antes o arquivo de entrada); de outra forma pstotexto escreve para
saída padrão.

A opção -cork só é relevante para arquivos PostScript produzidos por dvips de TeX ou LaTeX
documentos; diz pstotexto para usar a codificação Cork (conhecida como T1 em LaTeX) em vez de
a codificação de texto TeX antiga (conhecida como OT1 em LaTeX). Infelizmente, arquivos produzidos por dvips
não distingue quais codificações de fonte foram usadas.

As opções -landscape e -landscapeOther devem ser usadas para documentos que devem ser
girado 90 graus no sentido horário ou anti-horário, respectivamente, para ser legível.

As opções -debug e -bboxes são mais úteis para os mantenedores de pstotexto. -depurar
mostra a saída do Ghostscript e mensagens de erro. -bboxes gera uma palavra por linha com
informações da caixa delimitadora.

DETALHES


pstotexto faz seu trabalho dizendo ao Ghostscript para carregar uma biblioteca PostScript que o faz
para escrever em sua informação de saída padrão sobre cada string renderizada por um trabalho PostScript
ou documento PDF. Essas informações incluem os caracteres da string e o suficiente
informações adicionais para aproximar o retângulo delimitador da string. pstotexto
pós-processa essas informações e produz uma sequência de palavras delimitadas por espaço,
newline e formfeed.

pstotexto produz palavras na mesma sequência em que são processadas pelo documento. Esse
normalmente, mas nem sempre, segue a ordem em que um humano leria as palavras em uma página.
Dentro desta sequência, as palavras são separadas por espaço ou nova linha, dependendo se
ou não eles caem na mesma linha. Cada página é encerrada com um feed de formulário. Se você usar
a opção incorreta do conjunto {-portrait, -landscape, -landscapeOther}, pstotexto is
provavelmente substituirá o espaço por nova linha.

Um trabalho PostScript ou documento PDF muitas vezes processa uma palavra como várias cadeias de caracteres, a fim de obter
espaçamento correto entre pares específicos de caracteres. pstotexto faz o seu melhor para
reúna essas strings de volta em palavras, usando uma heurística simples: strings separadas por um
distância de menos de 0.3 vezes o mínimo das larguras médias dos caracteres nos dois
strings são consideradas parte da mesma palavra. Observe que isso normalmente causa
caracteres de pontuação à esquerda e à direita a serem incluídos com uma palavra.

A linguagem PostScript fornece um esquema de codificação flexível pelo qual os códigos de caracteres em
strings selecionam caracteres específicos (símbolos), de modo que um trabalho PostScript é livre para usar qualquer
Código do caractere. Por outro lado, pstotexto sempre se traduz para o ISO 8859-1 (Latim-1)
código de caracteres, que é uma extensão do ASCII que cobre a maior parte da Europa Ocidental
línguas. Quando um personagem não está presente no ISO 8859-1, pstotexto usa uma sequência de
caracteres, por exemplo, "---" para travessão ou "A \ 226" para Abreve. pstotexto pode ser enganado por um
fonte cujo vetor de codificação não segue as convenções da Adobe, mas contém heurísticas
permitindo que ele lide com uma ampla variedade de fontes com comportamento inadequado.

(pstotexto não traduz mais hífen (\ 255) para menos (\ 055).)

Use pstotext online usando serviços onworks.net



Programas online mais recentes para Linux e Windows