GoGPT Best VPN GoSearch

OnWorks 网站图标

catdoc - 云端在线

通过 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器在 OnWorks 免费托管服务提供商中运行 catdoc

这是可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行的命令 catdoc,例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器

程序:

您的姓名


catdoc - 读取 MS-Word 文件并将其内容作为纯文本放在标准输出上

概要


目录 [-vlu8btawxV[-m [ -s 字符集[ -d 字符集[ -f 输出格式] 文件

商品描述


目录 行为很像 (1) 但它读取 MS-Word 文件并生成人类可读的文本
在标准输出上。 可选地,它可以使用 胶乳(1) 字符的转义序列
对 LaTeX 有特殊意义。 它还在识别 MS-Word 表格方面做出了一些努力,
尽管它从不尝试为 LaTeX 表格环境编写正确的标题。 额外的
输出格式,例如 HTML 可以很容易地定义。

目录 不尝试从 MS-Word 中提取表格以外的格式信息
文档,所以不同的输出方式主要意味着不同的字符应该是
用于表示字符的转义和不同方式,从输出字符集中丢失。 看
下面的字符替换

目录 使用内部 统一(4) 表示文本,因此可以转换文本
当源文档中的字符集与目标系统上的字符集不匹配时。 见人物
设置如下。

如果没有提供文件名, 目录 处理其标准输入,除非它是终端。 它
不太可能有人可以从键盘输入 Word 文档,所以如果 目录 调用
没有参数并且标准输入不会被重定向,它会打印简短的使用信息并退出。
可以使用破折号“-”作为文件强制处理标准输入(甚至在其他文件中)
名称。

默认情况下, 目录 包装超过 72 个字符的行并分隔段落
通过空行。 这种行为可以通过 -w 转变。 在 模式 目录 打印
as 一种 线, 合适的 HPMC胶囊 进口 执行的文字处理器
换行。

配置


-a - -f ascii 的快捷方式。 产生 ASCII 文本作为输出。 分隔表格列
带标签

-b - 处理损坏的 MS-Word 文件。 一般, 目录 检查 if 第一 8 字节 文件是
微软 OLE 签名。 如果是,它处理文件,否则它只是将它复制到
标准输入。 它旨在使用 目录 作为用于查看所有文件的过滤器 .DOC
延期。

-d字符集
- 指定目标字符集名称。 字符集文件的格式在
字符集如下,应该有 。文本 扩展和居住 目录 图书馆
目录 ( ${prefix}/lib/x86_64-linux-gnu/catdoc)。 By 默认, 当前 当地
如果编译了 langinfo 支持,则使用字符集。

-f格式
- 指定输出格式,如下面的 CHARACTER SUBSTITUTION 中所述。 目录
带有两种输出格式 - ascii 和 tex。 如果你愿意,你可以添加你自己的。

-l 原因 目录 列出可用字符集的名称到标准输出并退出
成功。

-m
指定文本的右边距(默认 72)。 -m 0 相当于 -w

-s字符集
指定源字符集。 (在 Word 文档中使用的一种),如果 Word 文档没有
包含 UTF-16 文本。 在阅读 rtf 文档时,通常没有必要,
因为 rtf 文档包含 ansicpg 规范。 但它可以设置错误
Word(我看过俄语的 RTF 文档,其中指定了 cp1252)。 在这
如果此选项优先于文档中指定的字符集。
但是配置文件中的 source_charset 语句的优先级低于
文档中的字符集。

-t - 快捷方式 -f TEX
转换所有可打印的字符,这些字符对 胶乳(1) 进
适当的控制序列。 分隔表格列 &.

-u - 声明 Word 文档包含文本的 UNICODE (UTF-16) 表示
(如某些 Word-97 文档)。 如果 catdoc 无法更正 Word 文档
默认字符集,试试这个选项。

-8 - 声明是 Word 文档是 8 位。 以防万一那个catdoc
错误地识别文件格式。

-w 禁用自动换行。 默认情况下 目录 输出不再分成几行
超过 72 个(或数字,由 -m 选项指定)字符和段落是
由空行分隔。 使用此选项,每个段落都是一个长行。

-x 导致 catdoc 将未知的 UNICODE 字符输出为 \xNNNN,而不是问题
标记。

-v 导致 catdoc 打印一些关于 word 文档结构的无用信息
文本实际开始之前的标准输出。

-V 输出 catdoc 版本

字符 集合


处理 MS-Word 文件时 目录 使用关于两个字符集的信息,通常
不同
- 输入和输出。 它们存储在纯文本文件中 目录 库目录。
字符集文件应包含两个以空格分隔的十六进制数字 - 8 位
字符集中的代码和 16 位 Unicode 代码。 从哈希标记到行尾的任何内容都是
忽略,以及空行。

目录 发行版包括其中一些字符集。 附加字符集
定义,可直接使用 目录 可以从 ftp.unicode.org 获得。 字符集文件
它们在许多情况下都能提供类似的结果。 。文本 后缀,不应在命令行或配置文件中指定。

需要注意的是 目录 默认使用西里尔字符集分发。 如果你不是俄罗斯人,
你可能不想要它,应该在编译时或运行时重新配置 catdoc
配置文件。

处理包含非默认字符集的文档时,请记住 Microsoft
从不使用 ISO 字符集。 虽然字母在,说 cp1252 与在相同的位置
ISO-8859-1,如果你指定 ISO-8859-1 作为输入,一些标点符号会丢失
字符集。 如果您使用 cp1252,catdoc 将按照 CHARACTER 中的描述处理这些标志
下面的替代品。

字符 代换


目录 将 MS-Word 文件转换为以下内部 Unicode 表示:

1. 段落以ASCII换行符(0x000A)分隔

2. 行内表格单元格由 ASCII 字段分隔符分隔
(0x001C)

3.表格行由ASCII记录分隔符(0x001E)分隔

4. 所有可打印的字符,包括空格都用它们的
各自的 UNICODE 代码。

此 UNICODE 表示随后被转换为目标字符中的 8 位文本
使用以下四步算法设置:

1. 在特殊字符列表中搜索给定的 Unicode 字符。
如果找到,则输出适当的多字符序列而不是字符。

2. 如果目标字符集中有等价物,则输出。

3. 否则,查找替换列表,如果存在多字符
替换这个 UNICODE 字符,它是输出。

4. 如果以上都失败,则输出“未知字符”符号(问号)。

特殊字符列表和替换列表与字符集无关,
因为特殊字符应该被转义,不管它们是否存在于目标字符中
set(通常,它们是 US-ASCII 的一部分,因此存在于任何字符集中)和
替换列表只搜索那些在目标中找不到的字符
字符集。

这些列表存储在 目录 带有格式名称前缀的文件中的库目录。
这些文件具有以下格式:

每行可以是注释(以哈希标记开头)或包含十六进制 UNICODE
值,由空格与字符串分隔,它将被替换而不是它。 如果
字符串不包含空格,可以按原样使用,否则应包含在
单引号或双引号。 通常的反斜杠序列,如 '\n','\t' 可以用在这些
字符串。

运行 配置


启动时 catdoc 读取其系统范围的配置文件( 目录 in 目录 图书馆
目录),然后是用户特定的配置文件 ${HOME}/.catdocrc。

这些文件可以包含以下指令:

源字符集 = 字符集名称
设置默认源字符集,如果没有,将使用 -s 选项指定。
查阅附近 Windows 工作站的配置以找到您需要的。

目标字符集 = 字符集名称
设置默认输出字符集。 您可能知道,您使用的是哪一种。

字符集路径 = 目录列表
以冒号分隔的目录列表,用于搜索字符集文件。 这个
允许您在主目录中安装其他字符集。 如果先
路径的目录组件是 ~ 它被替换为 主页 环境
多变的。 在 MS-DOS 平台上,如果目录名以 %s 开头,它将被替换
与可执行文件的目录。 列表中的空元素(即两个后果
冒号)被认为是当前目录。

地图路径 = 目录列表
以冒号分隔的目录列表,用于搜索特殊字符映射
和替换地图。 与中相同的替换规则 字符集路径 被应用。

格式 = 格式 姓名
默认情况下将使用的输出格式。 目录 有两种格式 -
ASCIITEX 但是没有什么可以阻止您编写自己的格式(设置两个地图
文件 - 特殊字符映射和替换映射)。

未知字符 = 字符 规范
将字符设置为输出而不是未知的 Unicode 字符(默认为 '?')
字符规范可以有两种形式之一 - 用单个字符括起来
引号或十六进制代码。

使用语言环境 =(是|否)
启用或禁用输出字符集的自动选择(默认 ),
基于系统区域设置(如果在编译时启用)。 如果自动
启用检测,而不是在配置文件中输出字符集设置(但
不在命令行中)被忽略,并使用当前系统区域设置字符集
反而。 没有基于区域设置语言的输入字符集的自动选择,
因为大多数现代 Word 文件(自 Word 97 起)无论如何都是 Unicode

使用 onworks.net 服务在线使用 catdoc


免费服务器和工作站

下载 Windows 和 Linux 应用程序

Linux 命令

Ad




×
广告
❤️在这里购物、预订或购买——免费,有助于保持服务免费。