GoGPT Best VPN GoSearch

온웍스 파비콘

catdoc - 클라우드 온라인

Ubuntu Online, Fedora Online, Windows 온라인 에뮬레이터 또는 MAC OS 온라인 에뮬레이터를 통해 OnWorks 무료 호스팅 제공업체에서 catdoc을 실행하세요.

Ubuntu Online, Fedora Online, Windows 온라인 에뮬레이터 또는 MAC OS 온라인 에뮬레이터와 같은 여러 무료 온라인 워크스테이션 중 하나를 사용하여 OnWorks 무료 호스팅 공급자에서 실행할 수 있는 catdoc 명령입니다.

프로그램:

이름


catdoc - MS-Word 파일을 읽고 그 내용을 일반 텍스트로 표준 출력에 넣습니다.

개요


고양이 [-vlu8btawxV] [-m 번호] [ -s 문자셋] [ -d 문자셋] [ -f 출력 형식] 파일

기술


고양이 처럼 행동 방법(1) 그러나 MS-Word 파일을 읽고 사람이 읽을 수 있는 텍스트를 생성합니다.
표준 출력에서. 선택적으로 사용할 수 있습니다 유액(1) 다음 문자에 대한 이스케이프 시퀀스
LaTeX에는 특별한 의미가 있습니다. 또한 MS-Word 표를 인식하기 위해 약간의 노력을 기울입니다.
LaTeX 테이블 형식 환경에 대해 올바른 헤더를 작성하려고 시도하지는 않지만. 추가의
HTML과 같은 출력 형식을 쉽게 정의할 수 있습니다.

고양이 MS-Word에서 테이블 이외의 형식 정보를 추출하려고 시도하지 않습니다.
따라서 서로 다른 출력 모드는 주로 서로 다른 문자가
출력 문자 집합에서 누락된 문자를 나타내는 데 사용되는 이스케이프 및 다른 방법입니다. 보다
아래 캐릭터 대체

고양이 내부 사용 유니 코드(4) 텍스트 표현으로 텍스트를 변환할 수 있습니다.
소스 문서의 문자 집합이 대상 시스템의 문자 집합과 일치하지 않는 경우. 캐릭터 보기
아래에 설정합니다.

파일 이름이 제공되지 않으면 고양이 터미널이 아닌 경우 표준 입력을 처리합니다. 그것
누군가가 키보드에서 Word 문서를 입력할 수 있을 것 같지 않습니다. 고양이 호출
인수가 없고 stdin이 리디렉션되지 않으면 간단한 사용법 메시지를 인쇄하고 종료합니다.
표준 입력 처리(다른 파일 사이에서도)는 대시 '-'를 파일로 사용하여 강제할 수 있습니다.
이름입니다.

기본적으로, 고양이 길이가 72자를 초과하는 줄을 줄 바꿈하고 단락을 구분합니다.
빈 줄로. 이 동작은 -w 스위치. ~ 안에 넓은 모드 고양이 인쇄물
마다 as 선, 적당한 을 통한 import 으로 수행하는 워드 프로세서
단어 포장.

옵션


-a - -f ascii 단축키. ASCII 텍스트를 출력으로 생성합니다. 테이블 열을 구분합니다.
탭으로

-b - 깨진 MS-Word 파일을 처리합니다. 보통, 고양이 체크 무늬 if 먼저 8 바이트 파일의
마이크로소프트 OLE 서명. 그렇다면 파일을 처리하고 그렇지 않으면 그냥 복사합니다.
표준 입력 사용하기위한 것입니다 고양이 모든 파일을 보기 위한 필터로 .DOC
확대.

-d문자셋
- 대상 문자 집합 이름을 지정합니다. Charset 파일에는 다음에 설명된 형식이 있습니다.
아래에 문자 세트가 있어야 합니다. 이 .txt 확장 및 거주 고양이 도서관
예배 규칙서 ( ${접두사}/lib/x86_64-linux-gnu/catdoc). By 기본 current 장소
langinfo 지원이 컴파일된 경우 charset이 사용됩니다.

-f체재
- 아래 CHARACTER SUBSTITUTION에 설명된 대로 출력 형식을 지정합니다. 고양이
ascii 및 tex의 두 가지 출력 형식이 제공됩니다. 원하는 경우 직접 추가할 수 있습니다.

-l 활동 고양이 사용 가능한 문자 집합의 이름을 stdout에 나열하고 종료합니다.
성공적으로.

-m번호
텍스트의 오른쪽 여백을 지정합니다(기본값 72). -m 0 에 해당하는 -w

-s문자셋
소스 문자 집합을 지정합니다. (Word 문서에서 사용되는 것), Word 문서가 그렇지 않은 경우
UTF-16 텍스트를 포함합니다. rtf 문서를 읽을 때 일반적으로 필요하지 않으며,
rtf 문서에는 ansicpg 사양이 포함되어 있기 때문입니다. 그러나 잘못 설정할 수 있습니다.
Word (cp1252가 지정된 러시아어 RTF 문서를 본 적이 있습니다). 이에
이 옵션은 문서에 지정된 문자 집합보다 우선합니다.
그러나 구성 파일의 source_charset 문은 다음보다 우선 순위가 낮습니다.
문서의 문자셋.

-t - 단축키 -f 텍스
특별한 의미가 있는 인쇄 가능한 모든 문자를 변환합니다. 유액(1)으로
적절한 제어 시퀀스. 다음으로 테이블 열을 구분합니다. &.

-u - Word 문서에 텍스트의 유니코드(UTF-16) 표현이 포함되어 있음을 선언합니다.
(일부 Word-97 문서로). catdoc이 다음을 사용하여 Word 문서를 수정하지 못하는 경우
기본 문자 집합을 사용하려면 이 옵션을 사용해 보십시오.

-8 - Word 문서가 8비트임을 선언합니다. catdoc의 경우를 대비하여
파일 형식을 잘못 인식합니다.

-w 자동 줄 바꿈을 비활성화합니다. 기본적으로 고양이 출력이 더 이상 라인으로 분할되지 않음
72자(또는 -m 옵션으로 지정된 숫자) 이상의 문자와 단락은
빈 줄로 구분됩니다. 이 옵션을 사용하면 각 단락이 하나의 긴 행이 됩니다.

-x catdoc이 질문 대신 알 수 없는 유니코드 문자를 \xNNNN으로 출력하도록 합니다.
점수.

-v catdoc이 단어 문서 구조에 대한 쓸모없는 정보를 출력하도록 합니다.
텍스트의 실제 시작 전에 stdout.

-V catdoc 버전 출력

캐릭터 SETS


MS-Word 파일 처리 시 고양이 일반적으로 두 문자 집합에 대한 정보를 사용합니다.
다른
- 입력과 출력. 일반 텍스트 파일에 저장됩니다. 고양이 라이브러리 디렉토리.
문자 집합 파일에는 두 개의 공백으로 구분된 8진수(XNUMX비트)가 포함되어야 합니다.
문자 집합의 코드 및 16비트 유니코드 코드. 해시 마크에서 줄 끝까지는
무시되고 빈 줄도 포함됩니다.

고양이 배포에는 이러한 문자 세트 중 일부가 포함됩니다. 추가 문자 세트
직접 사용 가능한 정의 고양이 ftp.unicode.org에서 얻을 수 있습니다. 문자셋 파일
있다 이 .txt 명령줄 또는 구성 파일에 지정하면 안 되는 접미사입니다.

참고 고양이 기본적으로 키릴 문자 세트와 함께 배포됩니다. 당신이 러시아인이 아니라면,
아마 원하지 않을 것입니다. 컴파일 타임이나 런타임에 catdoc을 재구성해야 합니다.
구성 파일.

기본값 이외의 문자 집합을 사용하여 문서를 처리할 때 Microsoft
ISO 문자 집합을 사용하지 마십시오. cp1252가 들어 있는 문자는 같은 위치에 있습니다.
ISO-8859-1, ISO-8859-1을 입력으로 지정하면 일부 문장 부호가 손실됩니다.
문자셋. cp1252를 사용하는 경우 catdoc은 CHARACTER에 설명된 대로 해당 기호를 처리합니다.
아래에 대체.

캐릭터 치환


고양이 MS-Word 파일을 다음 내부 유니코드 표현으로 변환합니다.

1. 단락은 ASCII Line Feed 기호(0x000A)로 구분됩니다.

2. 행 내의 테이블 셀은 ASCII 필드 구분 기호로 구분됩니다.
(0x001C)

3. 테이블 행은 ASCII 레코드 구분 기호(0x001E)로 구분됩니다.

4. 공백을 포함하여 인쇄 가능한 모든 문자는
각각의 유니코드 코드.

이 유니코드 표현은 이후 대상 문자의 8비트 텍스트로 변환됩니다.
다음 XNUMX단계 알고리즘을 사용하여 설정합니다.

1. 주어진 유니코드 문자에 대한 특수 문자 목록을 검색합니다.
발견되면 문자 대신 적절한 다중 문자 시퀀스가 ​​출력됩니다.

2. 대상 문자셋에 해당하는 것이 있으면 출력한다.

3. 그렇지 않으면 대체 목록을 검색하고 다중 문자가 있는 경우
이 유니코드 문자를 대체하면 출력됩니다.

4. 위의 모든 것이 실패하면 "알 수 없는 문자" 기호(물음표)가 출력됩니다.

특수 문자 목록과 대체 목록은 문자 집합에 독립적입니다.
특수 문자는 대상 문자에 존재 여부에 관계없이 이스케이프되어야 하기 때문입니다.
set(일반적으로 US-ASCII의 일부이므로 모든 문자 집합에 존재함) 및
대체 목록은 대상에서 찾을 수 없는 문자에 대해서만 검색됩니다.
문자 집합.

이 목록은 다음에 저장됩니다. 고양이 형식 이름의 접두사가 있는 파일의 라이브러리 디렉토리.
이러한 파일의 형식은 다음과 같습니다.

각 행은 주석(해시 표시로 시작)이거나 XNUMX진수 유니코드를 포함할 수 있습니다.
대신 대체되는 문자열에서 공백으로 구분된 값입니다. 만약에
문자열에 공백이 없으면 그대로 사용할 수 있습니다. 그렇지 않으면 공백으로 묶어야 합니다.
작은따옴표 또는 큰따옴표. 다음과 같은 일반적인 백슬래시 시퀀스 '\N','\티' 이것들에서 사용될 수 있습니다
끈.

실행 시간 구성


시작할 때 catdoc은 시스템 전반에 걸친 구성 파일을 읽습니다( 고양이독 in 고양이 도서관
디렉토리) 다음 사용자별 구성 파일 ${홈}/.catdocrc.

이러한 파일에는 다음 지시문이 포함될 수 있습니다.

소스_문자 집합 = 문자 집합 이름
없는 경우 사용되는 기본 소스 문자셋을 설정합니다. -s 옵션이 지정되었습니다.
가까운 Windows 워크스테이션의 구성을 참조하여 필요한 워크스테이션을 찾으십시오.

target_charset = 문자 집합 이름
기본 출력 문자셋을 설정합니다. 당신은 아마 당신이 사용하는 것을 알고 있습니다.

charset_path = 디렉토리 목록
charset 파일을 검색하는 콜론으로 구분된 디렉토리 목록입니다. 이것
홈 디렉토리에 추가 문자 집합을 설치할 수 있습니다. 처음이라면
경로의 디렉토리 구성 요소는 ~의 내용으로 대체됩니다. 환경
변하기 쉬운. MS-DOS 플랫폼에서 디렉토리 이름이 %s로 시작하면 대체됩니다.
실행 파일의 디렉토리와 함께. 목록의 빈 요소(예: 두 개의 연속
콜론)은 현재 디렉토리로 간주됩니다.

지도_경로 = 디렉토리 목록
특수 문자 맵을 검색하는 콜론으로 구분된 디렉토리 목록
그리고 교체맵. 에서와 동일한 대체 규칙 charset_path 적용됩니다.

체재 = 체재 name
기본적으로 사용되는 출력 형식입니다. 고양이 두 가지 형식으로 제공됩니다 -
아스키 그리고 텍스 그러나 자신의 형식을 작성하는 것을 방해하는 것은 없습니다(두 개의 맵 설정
파일 - 특수 문자 맵 및 대체 맵).

알 수 없는_문자 = 문자 명세서
알 수 없는 유니코드 문자 대신 출력할 문자를 설정합니다(기본값 '?').
문자 사양은 두 가지 형식 중 하나를 가질 수 있습니다. 단일 문자로 묶인 문자
따옴표 또는 XNUMX진수 코드.

use_locale =(예|아니요)
출력 문자 집합의 자동 선택을 활성화하거나 비활성화합니다(기본값 ),
시스템 로캘 설정을 기반으로 합니다(컴파일 시 활성화된 경우). 자동인 경우
구성 파일의 출력 문자 집합 설정보다 탐지가 활성화됩니다(그러나
명령행에 없음)은 무시되고 현재 시스템 로케일 문자 세트가 사용됩니다.
대신에. 로케일 언어를 기반으로 하는 입력 문자 집합의 자동 선택이 없습니다.
대부분의 최신 Word 파일(Word 97 이후)은 어쨌든 유니코드이기 때문에

onworks.net 서비스를 사용하여 온라인에서 catdoc 사용


무료 서버 및 워크스테이션

Windows 및 Linux 앱 다운로드

Linux 명령

Ad




×
광고
❤️여기에서 쇼핑, 예약, 구매하세요. 비용이 들지 않아 서비스를 무료로 유지하는 데 도움이 됩니다.