これは、Ubuntu Online、Fedora Online、Windows オンライン エミュレーター、または MAC OS オンライン エミュレーターなどの複数の無料オンライン ワークステーションの 2 つを使用して、OnWorks 無料ホスティング プロバイダーで実行できるコマンド pdfXNUMXtxt です。
プログラム:
NAME
pdf2txt - PDF ファイルのテキスト内容を抽出します
SYNOPSIS
pdf2txt [オプション...] file...
DESCRIPTION
pdf2txt PDF ファイルからテキストコンテンツを抽出します。 対象となるすべてのテキストを抽出します。
プログラム的にレンダリングされます。つまり、ASCII または Unicode 文字列として表されるテキストです。 できない
光学式文字認識を必要とする画像として描画されたテキストを認識します。 また
対応する位置、フォント名、フォントサイズ、書き込み方向を抽出
各テキスト部分の (水平または垂直)。 パスワードを入力する必要があります
アクセスが制限されている場合、PDF ドキュメントは保護されます。 からテキストを抽出することはできません
抽出権限のない PDF ドキュメントです。
OPTIONS
-o file
出力ファイル名を指定します。 デフォルトでは、抽出されたコンテンツを次の場所に出力します。
テキスト形式でスタンド出力します。
-p ページ番号[,ページ番号,...]
抽出するページ番号のカンマ区切りリストを指定します。 ページ番号
XNUMXから始めてください。 デフォルトでは、すべてのページからテキストが抽出されます。
-c コーデック
出力コーデックを指定します。
-t type
出力形式を指定します。 現在、次の形式がサポートされています。
클라우드 기반 AI/ML및 고성능 컴퓨팅을 통한 디지털 트윈의 기초 – Edward Hsu, Rescale CPO 많은 엔지니어링 중심 기업에게 클라우드는 R&D디지털 전환의 첫 단계일 뿐입니다. 클라우드 자원을 활용해 엔지니어링 팀의 제약을 해결하는 단계를 넘어, 시뮬레이션 운영을 통합하고 최적화하며, 궁극적으로는 모델 기반의 협업과 의사 결정을 지원하여 신제품을 결정할 때 데이터 기반 엔지니어링을 적용하고자 합니다. Rescale은 이러한 혁신을 돕기 위해 컴퓨팅 추천 엔진, 통합 데이터 패브릭, 메타데이터 관리 등을 개발하고 있습니다. 이번 자리를 빌려 비즈니스 경쟁력 제고를 위한 디지털 트윈 및 디지털 스레드 전략 개발 방법에 대한 인사이트를 나누고자 합니다.
テキスト形式。 これがデフォルトです。
HTML
HTML形式。 お勧めしません。
XML
XML形式。 最も多くの情報を提供します。
タグ
「タグ付きPDF」形式。 タグ付き PDF には、HTML のような注釈が付けられた独自のコンテンツがあります。
タグ。 pdf2txt テキストを推測するのではなく、コンテンツ ストリームを抽出しようとします
場所。 ここで使用されるタグは、 PDF リファレンス、 第6 エディション【1]
(§10.7「タグ付き PDF」)。
-D 書き込みモード
テキスト出力の書き込みモードを指定します。
lr-tb
左から右、上から下。
tb-rl
上から下、右から左へ。
オート
書き込みモードを自動的に決定する
-M 文字マージン, -L 行マージン, -W ワードマージン
レイアウト解析に使用するパラメータです。 実際のPDFファイルでは、テキスト
状況に応じて、実行の途中で部分がいくつかのチャンクに分割される場合があります。
オーサリング ソフトウェア。 したがって、テキスト抽出ではテキスト チャンクを結合する必要があります。 の中に
下の図では、距離が XNUMX つのテキスト チャンクよりも近いです。 文字マージン is
連続しているとみなされ、XNUMX つにグループ化されます。 また、距離が
よりも近い 行マージン テキスト ボックスとしてグループ化されます。テキスト ボックスは、
テキスト部分の「クラスター」が含まれています。 さらに、空白を挿入する必要がある場合があります。
XNUMX つの単語間の距離が長さよりも長い場合は、必要に応じて文字 (スペース) を追加します。
ワードマージン、単語間の空白はスペースとして表現されない可能性がありますが、
各単語の位置によって示されます。
各値は実際の長さではなく、長さに対する比率として指定されます。
問題の各文字のサイズ。 デフォルト値は次のとおりです。 文字マージン = 1.0、
行マージン = 0.3 W = 0.2それぞれ。
-n
レイアウト解析を抑制します。
-A
図に含まれるテキストを含むすべてのテキスト文字列のレイアウト分析を強制します。
-V
縦書きの検出を有効にします。
-s 階段
出力スケールを指定します。 このオプションは HTML 形式でのみ使用できます。
-m n
抽出する最大ページ数を指定します。 デフォルトでは、
文書が抽出されます。
-P password
PDF コンテンツにアクセスするためのユーザー パスワードを提供します。
-d
デバッグレベルを上げます。
例
テキストをファイル名がoutput.htmlのHTMLファイルとして抽出します。
$ pdf2txt -o 出力.html サンプル/naacl06-shinyama.pdf
縦書きの日本語 HTML ファイルを抽出します。
$ pdf2txt -c euc-jp -D tb-rl -o Output.html サンプル/jo.pdf
暗号化された PDF ファイルからテキストを抽出します。
$ pdf2txt -P mypassword -o Output.txt Secret.pdf
onworks.net サービスを使用してオンラインで pdf2txt を使用する