これは、Ubuntu Online、Fedora Online、Windows オンライン エミュレーター、または MAC OS オンライン エミュレーターなどの複数の無料オンライン ワークステーションの 2 つを使用して、OnWorks 無料ホスティング プロバイダーで実行できるコマンド pdfXNUMXhtmlEX です。
プログラム:
NAME
pdf2htmlEX - テキストと形式を失わずに PDF を HTML に変換します。
USAGE
pdf2htmlEX [オプション] [ 】
DESCRIPTION
pdf2htmlEX は、PDF ファイルを HTML ファイルに変換するユーティリティです。
pdf2htmlEX は、PDF を正確にレンダリングし、適切なスタイルを維持するために最善を尽くします。
テキストを保持し、Web 用に最適化します。
フォントは PDF から抽出され、HTML に埋め込まれ、変換された HTML ファイル内のテキストになります。
通常は選択してコピーできます。
他のオブジェクトは画像としてレンダリングされ、埋め込まれます。
OPTIONS
ページ
-NS、 - 先頭ページ (ディフォルト: 1)
処理する最初のページを指定します
-l、 - 最後のページ (ディフォルト: last ページ)
処理する最後のページを指定します
寸法
- ズーム 、 --フィット幅 、 --フィットの高さ
--zoom はズーム率を直接指定します。 --fit-width/height は最大値を指定します
ページの幅/高さの値はピクセル単位です。
複数の値が指定された場合は、最小の値が使用されます。
何も指定されていない場合、ページは 72DPI でレンダリングされます。
--使用-クロップボックス <0 | 1> (ディフォルト: 1)
出力には MediaBox の代わりに CropBox を使用します。
--hdpi 、 --vdpi (ディフォルト: 144)
画像の水平および垂直 DPI を指定する
出力
-埋め込み
--embed-css <0 | 1> (ディフォルト: 1)
--埋め込みフォント <0 | 1> (ディフォルト: 1)
--埋め込み画像 <0 | 1> (ディフォルト: 1)
--embed-javascript <0 | 1> (ディフォルト: 1)
--埋め込みアウトライン <0 | 1> (ディフォルト: 1)
出力 HTML ファイルに埋め込む必要がある要素を指定します。
オフにすると、HTML ファイルとともに分離されたファイルが生成されます。
対応する要素。
--embed は引数として文字列を受け入れます。 文字列の各文字は次のいずれかである必要があります。
`cCfFiIjJoO`。 --embed-*** スイッチの XNUMX つに対応します。 小文字
0 は文字、1 は大文字です。たとえば、「--embed cFIJo」は次のことを意味します。
CSS ファイルとアウトライン以外のすべてを埋め込みます。
--分割ページ <0 | 1> (ディフォルト: 0)
オンにすると、各ページのコンテンツが別のファイルに保存されます。
このスイッチは、ページを個別に動的にロードしたい場合に便利です。
サポートするサーバーが必要になる場合があります。
--page-filename も参照してください。
--dest-dir (ディフォルト: .)
保存先フォルダーを指定します。
--css-ファイル名 (ディフォルト: )
埋め込まれていない場合は、生成される CSS ファイルのファイル名を指定します。
空の場合、ファイル名は自動的に決定されます。
--ページファイル名 (ディフォルト: )
--split-pages が 1 の場合にページのファイル名テンプレートを指定します
ページ番号がどこにあるかを示すために、%d プレースホルダーを「filename」に含めることができます。
置かれるべきである。 プレースホルダーは、通常の数値の限定されたサブセットをサポートします。
指定された幅とゼロパディングを含むプレースホルダー。
`filename` にページ番号のプレースホルダーが含まれていない場合、ページ番号
ファイル拡張子の直前に挿入されます。 ファイル名に
拡張子を付けると、ファイル名の末尾にページ番号が付きます。
--page-filename が指定されていない場合、 出力に使用されます
ファイル名、拡張子を .page に置き換え、ページ番号を直接追加します
延長前。
例
pdf2htmlEX --分割ページ 1 foo.pdf
ページ ファイル foo1.page、foo2.page などを生成します。
pdf2htmlEX --分割ページ 1 foo.pdf --ページファイル名 バーバズ
ページ ファイル bar1.baz、bar2.baz などが生成されます。
pdf2htmlEX --分割ページ 1 foo.pdf --ページファイル名 ページ%dbar.baz
ページ ファイル page1bar.baz、page2bar.baz などを生成します。
pdf2htmlEX --分割ページ 1 foo.pdf --ページファイル名 bar%03d.baz
ページ ファイル bar001.baz、bar002.baz などが生成されます。
--アウトラインファイル名 (ディフォルト: )
埋め込まれていない場合、生成されるアウトライン ファイルのファイル名を指定します。
空の場合、ファイル名は自動的に決定されます。
--プロセス非テキスト <0 | 1> (ディフォルト: 1)
非テキストオブジェクトを(画像として)処理するかどうか
--プロセスの概要 <0 | 1> (ディフォルト: 1)
生成されるHTMLにアウトラインを表示するかどうか
--プロセスアノテーション <0 | 1> (ディフォルト: 0)
生成されたHTMLにアノテーションを表示するかどうか
--プロセスフォーム <0 | 1> (ディフォルト: 0)
生成される HTML にテキストフィールドとラジオボタンを含めるかどうか
- 印刷 <0 | 1> (ディフォルト: 1)
印刷サポートを有効にします。 このオプションを無効にすると、CSS のサイズが削減される可能性があります。
- 後退する <0 | 1> (ディフォルト: 0)
精度とブラウザの互換性を高めるためにフォールバック モードで出力しますが、
サイズが大きくなります。
--tmp ファイルサイズ制限 (ディフォルト: -1)
これにより、一時ファイルの合計サイズ (KB 単位) が制限され、これにより、
出力ファイルの合計サイズ。 これは推定値であり、XNUMX ページ後に停止します。
一時ファイルの合計サイズがこの数値を超えると、
-1 は制限がないことを意味し、デフォルトです。
フォント
--embed-external-font <0 | 1> (ディフォルト: 1)
PDF に埋め込まれていないフォントについて、ローカルで一致するフォントを使用するかどうかを指定します。
HTMLに埋め込まれます。
このスイッチがオフの場合、Web ブラウザが試行できるようにフォント名のみがエクスポートされます。
適切なフォント自体を見つけるため、間違ったフォントに関する問題が発生する可能性があります
メトリック
--フォント形式 (ディフォルト: すごい)
PDFファイルから抽出するフォントの形式を指定します。
--decompose-合字 <0 | 1> (ディフォルト: 0)
合字を分解します。 たとえば、「fi」 -> 「f''i」です。
--自動ヒント <0 | 1> (ディフォルト: 0)
1 に設定すると、FontForge を使用してフォントのヒントが生成されます。
この前に --external-hint-tool を付けることができます。
-- 外部ヒントツール (ディフォルト: )
指定した場合、フォントのヒンティングを強化するためにツールが呼び出されます。
--auto-hint の前に置かれます。
このツールは「」と呼ばれます'、サフィックスは
--font-format に指定したものと同じです。
--stretch-narrow-glyph <0 | 1> (ディフォルト: 0)
1 に設定すると、PDF で説明されているよりも狭いグリフが引き伸ばされます。 さもないと
グリフの右側にスペースが埋められます
--squeeze-wide-グリフ <0 | 1> (ディフォルト: 1)
1 に設定すると、PDF で説明されているよりも幅の広いグリフが圧縮されます。 そうでなければそうなります
切り捨てられる。
--override-fstype <0 | 1> (ディフォルト: 0)
TTF/OTF フォントの fstype ビットをクリアします。
Internet Explorer が「アクセス許可はインストール可能でなければなりません」というメッセージを表示する場合は、これをオンにします。
そしてあなたはそうする許可を持っています。
--プロセスタイプ3 <0 | 1> (ディフォルト: 0)
オンにすると、pdf2htmlEX は、テキストを次のように変換できるように Type 3 フォントの変換を試みます。
HTML でネイティブにレンダリングされます。 それ以外の場合は、Type 3 フォントを使用したすべてのテキストがレンダリングされます。
イメージとして。
この機能は非常に実験的なものです。
テキスト
--heps 、 --veps (ディフォルト: 1)
許容可能な最大の水平/垂直オフセット (ピクセル単位) を指定します。
pdf2htmlEX は、生成された HTML ファイルの最適化を試み、このファイル内のテキストを移動します。
距離。
--スペースのしきい値 (ディフォルト: 0.125)
pdf2htmlEX は、XNUMX つの間の距離が等しい場合、空白文字 ' ' を挿入します。
同じ行内の連続する文字の幅は、ratio * font_size よりも広くなります。
--フォントサイズ乗数 (ディフォルト: 4.0)
多くの Web ブラウザでは最小フォント サイズが制限されており、多くの Web ブラウザでは指定されたフォントを四捨五入します。
サイズが大きくなり、不正確なレンダリングが発生します。
1 より大きい比率を指定するとこの問題は解決しますが、フリーズする可能性があります。
一部のブラウザ。
ただし、Firefox の一部のバージョンでは、フォント サイズが変更されると問題が発生します。
が大きすぎる場合は、ここでより小さい値を指定する必要があります。
-- オフセットとしてのスペース <0 | 1> (ディフォルト: 0)
1 に設定すると、スペース文字がオフセットとして扱われるため、より適切な処理が可能になります。
最適化。
PDF ファイルのエンコーディングが不適切な場合、このオプションをオンにすると、ファイルが失われる可能性があります。
文字。
--tounicode <-1|0|1> (ディフォルト: 0)
PDF 内のフォントごとに「意味」を示す ToUnicode マップが提供される場合があります。
キャラクターの。 ただし、多くの場合、タイプ 0/1 の方が優れた「ToUnicode」情報があります。
フォント、および提供された ToUnicode マップが間違っている場合があります。 この値が次のように設定されている場合、
1、PDF で提供される場合、ToUnicode マップは常に適用され、文字は適用されない場合があります。
衝突がある場合に HTML で正しくレンダリングされます。
-1 に設定すると、HTML で正しくレンダリングされるようにカスタマイズされたマップが使用されます。
(見た目は同じ) ただし、選択&コピー&では正しい文字が得られない場合があります。
ペースト。
0 に設定すると、pdf2htmlEX は上記の XNUMX つの方法のバランスをとるために最善を尽くします。
--テキストの最適化 <0 | 1> (ディフォルト: 0)
1 に設定すると、pdf2htmlEX は、使用される HTML 要素の数を減らそうとします。
文章。 何か問題が発生した場合はオフにしてください。
-- 正しいテキストの可視性 <0 | 1> (ディフォルト: 0)
1 に設定すると、pdf2htmlEX は他のグラフィックスで覆われたテキストを検出しようとします。
それらを適切に配置します。つまり、覆われたテキストがテキストレイヤーで透明になります。
背景レイヤーに描画されます。
経歴 画像
--bg-フォーマット (ディフォルト: png)
背景画像の形式を指定します。 `pdf2htmlEX -v` を実行して、サポートされているすべてを確認します
フォーマット。
--svg-node-count-limit (ディフォルト: -1)
SVG 背景画像のノード数がこの制限を超えた場合は、このページを次のページにフォールバックします。
ビットマップの背景。 負の値は制限がないことを意味します。 このオプションは次の場合にのみ役立ちます。
「--bg-format svg」を指定します。 SVG 内のノード数は計算されただけであることに注意してください。
約。
--svg-embed-ビットマップ <0 | 1> (ディフォルト: 1)
SVG 背景画像にビットマップを埋め込むかどうか。 1: SVG バックグラウンドにビットマップを埋め込みます。
0: 可能であればビットマップを外部ファイルにダンプします。
このオプションは、「--bg-format svg」が指定され、「--embed-image」が指定されている場合にのみ役立ちます。
オフです。
現在、PDF 内の RGB またはグレー JPEG ビットマップはダンプできますが、他の形式のビットマップはダンプできます。
フォーマットまたはカラースペースはまだ埋め込まれています。 ビットマップが期待どおりにダンプされない場合は、
Ghostscript または Acrobat で PDF を前処理してみて、ビットマップが含まれていることを確認してください
RGB/グレー JPEG 形式に変換されます。 詳細については、プロジェクト wiki を参照してください。
PDF 保護
-o、 --所有者パスワード
所有者のパスワードを指定する
-u、 - ユーザーパスワード
ユーザーのパスワードを指定する
--DRMなし <0 | 1> (ディフォルト: 0)
ドキュメントの DRM 設定を上書きする
許可がある場合のみオンにしてください。
その他。
--clean-tmp <0 | 1> (ディフォルト: 1)
オフにすると、中間ファイルは最終的にクリーンアップされません。
--データディレクトリ (ディフォルト: /usr/share/pdf2htmlEX)
マニフェストとその他のファイルを保持するフォルダーを指定します (マニフェストについては以下を参照してください)
ファイル)`
--tmp-dir (ディフォルト: / tmpに or $ TMPDIR if セット)
一時ファイルに使用する一時フォルダーを指定します
--css-draw <0 | 1> (ディフォルト: 0)
実験的でサポートされていない CSS 描画
- デバッグ <0 | 1> (ディフォルト: 0)
デバッグ情報を出力します。
- 証拠 <0 | 1 | 2> (ディフォルト: 0)
校正バージョンを出力します。 正の値を指定すると、両方の面にテキストが描画されます。
比較用のテキストレイヤーと背景画像。 2 を指定した場合、テキストは
背景は異なる色になっています。 png/jpg 背景形式が使用されている場合、より高い
読みやすさを考慮すると、hdpi/vdpi (例: 288) が推奨されます。
Meta
-v、 - バージョン
著作権とバージョン情報を印刷する
- 助けて 使用情報を印刷する
マニフェスト データディレクトリ
Split-pages が 0 の場合、マニフェスト ファイルは最終的な HTML ページがどうあるべきかを記述します。
生成された。
デフォルトでは、pdf2htmlEX はデフォルトのデータディレクトリ内のマニフェストを使用します (`pdf2htmlEX -v` を実行します)。
チェックしてください)、構文の簡単なデモを示します。
デフォルトのものを変更することも、新しいものを作成して正しいものを指定することもできます。
コマンドラインの data-dir 。
マニフェストによって参照されるすべてのファイルは、data-dir に配置されている必要があります。
実施例
pdf2htmlEX /パス/へ/file.pdf
file.pdf を file.html に変換する
pdf2htmlEX --clean-tmp 0 - デバッグ 1 /パス/へ/file.pdf
file.pdf を変換し、すべての中間ファイルを残します。
pdf2htmlEX --dest-dir でる -埋め込み fi /パス/へ/file.pdf
file.pdf を out/file.html に変換し、フォント/画像ファイルは分離したままにします。
COPYRIGHT
Copyright 2012,2013 Lu Wang[メール保護]>
pdf2htmlEX は追加条項付きで GPLv3 に基づいてライセンスされています。詳細についてはライセンスを参照してください。
onworks.net サービスを使用して pdf2htmlEX をオンラインで使用する