这是 pstotext 命令,可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行,例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器
程序:
您的姓名
pstotext - 从 PostScript 或 PDF 文件中提取 ASCII 文本
句法
文本 [选项|路径名]...
其中选项包括:
-软木
-景观
-风景其他
-肖像
-
-输出文件
-gs 命令
-调试
-bbox
商品描述
文本 读取一个或多个 PostScript 或 PDF 文件,并写入标准输出
表示 PostScript 文件时将显示的纯文本
打印。 正如下面的详细信息部分所述,这种表示只是一个
近似。 然而,它通常对信息检索很有用(例如,运行
grep的(1) 或建立全文索引)或从 PostScript 文件中恢复文本
你失去的来源。
文本 调用 Ghostscript,并且需要 Aladdin Ghostscript 3.51 或更新版本。
Ghostscript 必须可以作为 gs 在当前搜索路径上调用。 或者,您可以
使用 -gs 选项指定运行 Ghostscript 的命令(路径名和选项)。 为了
例如,在 Windows 上,您可以使用 -gs "c:\gs\gswin32c.exe -Ic:\gs;c:\gs\fonts"。
文本 从左到右读取和处理其命令行,忽略大小写
选项。 当它遇到路径名时,它打开文件并期望找到一个
要处理的 PostScript 作业或 PDF 文档。 选项 - 表示读取和处理一个
来自标准输入的 PostScript 作业。 如果没有遇到 - 或路径名参数,
文本 从标准输入读取 PostScript 作业。 (PDF 文档需要随机访问,
因此不能从标准输入中读取。)您可以使用 -output 选项指定一个
输出文件(记得调用它 before 输入文件); 除此以外 文本 写入
标准输出。
选项 -cork 仅与 TeX 或 LaTeX 的 dvips 生成的 PostScript 文件相关
文件; 它说 文本 使用 Cork 编码(在 LaTeX 中称为 T1)而不是
旧的 TeX 文本编码(在 LaTeX 中称为 OT1)。 不幸的是 dvips 产生的文件
不要区分使用了哪些字体编码。
选项 -landscape 和 -landscapeOther 应用于必须
分别顺时针或逆时针旋转 90 度,以便可读。
选项 -debug 和 -bboxes 主要用于 文本. -调试
显示 Ghostscript 输出和错误消息。 -bboxes 每行输出一个单词
边界框信息。
详细信息
文本 通过告诉 Ghostscript 加载导致它的 PostScript 库来完成它的工作
将有关 PostScript 作业呈现的每个字符串的信息写入其标准输出
或 PDF 文件。 这个信息包括字符串的字符,足够
附加信息来近似字符串的边界矩形。 文本
对这些信息进行后处理并输出以空格分隔的单词序列,
换行和换页。
文本 以与文档呈现的顺序相同的顺序输出单词。 这个
通常(但并非总是)遵循人类阅读页面上的文字的顺序。
在此序列中,单词由空格或换行符分隔,具体取决于
或者他们是否落在同一条线上。 每页都以换页结束。 如果你使用
集合 {-portrait, -landscape, -landscapeOther} 中的错误选项, 文本 is
可能用换行符代替空格。
PostScript 作业或 PDF 文档通常将一个单词呈现为多个字符串,以便获得
特定字符对之间的正确间距。 文本 尽力而为
使用简单的启发式方法将这些字符串重新组合成单词:由
距离小于两者平均字符宽度最小值的 0.3 倍
字符串被认为是同一个词的一部分。 请注意,这通常会导致
要包含在单词中的前导和尾随标点符号。
PostScript 语言提供了一种灵活的编码方案,其中的字符编码
字符串选择特定的字符(符号),因此 PostScript 作业可以自由使用任何
字符代码。 另一方面, 文本 始终转换为 ISO 8859-1 (Latin-1)
字符代码,它是 ASCII 的扩展,涵盖了大部分西欧
语言。 当 ISO 8859-1 中不存在字符时, 文本 使用一系列
字符,例如“---”代表长破折号或“A\226”代表 Abreve。 文本 可以被愚弄
其编码向量不遵循 Adobe 约定的字体,但它包含启发式
允许它处理各种行为不端的字体。
(文本 不再将连字符 (\255) 转换为减号 (\055)。)
使用 onworks.net 服务在线使用 pstotext