これは、Ubuntu Online、Fedora Online、Windows オンライン エミュレーター、または MAC OS オンライン エミュレーターなどの複数の無料オンライン ワークステーションの 2 つを使用して、OnWorks 無料ホスティング プロバイダーで実行できるコマンド pdfXNUMXdjvu です。
プログラム:
NAME
pdf2djvu - PDF ファイルから DjVu ファイルを作成します
SYNOPSIS
pdf2djvu [{-o | - 出力} 出力 DJVU ファイル] [オプション...] PDFファイル...
pdf2djvu {-i | --間接的} インデックス djvu ファイル [オプション...] PDFファイル...
pdf2djvu {- バージョン | - 助けて | -h}
DESCRIPTION
このプログラムは、XNUMX つまたは複数の PDF ファイルから DjVu ファイルを作成します。
OPTIONS
pdf2djvu 次のオプションを受け入れます。
ドキュメント タイプ、 file 名
-o, --output =出力 DJVU ファイル
バンドルされた複数ページのドキュメントを生成します。 ファイルを書き込む 出力 DJVU ファイル を取得する必要がある者
標準出力の。
-i, --間接=インデックス djvu ファイル
間接的な複数ページのドキュメントを生成します。 使用 インデックス djvu ファイル インデックスファイル名として;
コンポーネント ファイルを同じディレクトリに置きます。 ディレクトリは存在し、
書き込み可能。
--ページID-テンプレート=template
ページ識別子の命名スキームを指定します。 「テンプレート言語」を参照してください。
テンプレート言語の説明のセクション。
デフォルトのテンプレートは「p{page:04*}.djvu」です。
移植性の理由から、ページ識別子は次のとおりです。
· 小文字の ASCII 文字、数字、_、+、-、ドットのみで構成されている必要があります。
· +、-、またはドットで始めることはできません。
· XNUMX つの連続したドットを含めることはできません。
· .djvu または .djv 拡張子で終わる必要があります。
--ページIDプレフィックス=接頭辞
「--page-id-template=」と同等接頭辞{page:04*}.djvu」。
--ページタイトルテンプレート=template
ページタイトルのテンプレートを指定します。 詳細については、「テンプレート言語」セクションを参照してください。
テンプレート言語の説明。
デフォルトのテンプレートは「{label}」です。
--ページタイトルなし
ページタイトルを設定しないでください。 「--page-title-template=」と同等。
解決、 ページ サイズ
-d, --dpi =分解能
希望の解像度を指定します。 分解能 インチあたりのドット数。 デフォルトは 300 dpi です。
許可される範囲は次のとおりです: 72 ≤ 分解能 ≦6000。
--メディアボックス
MediaBox を使用してページ サイズを決定します。 CropBox がデフォルトで使用されます。
--page-size =幅x高さ
優先するページ サイズを指定します。 幅 ピクセル× 高さ ピクセル。 実際のページ
アスペクト比と DjVu の制限を尊重するために、サイズが変更される場合があります。
解決。 (このオプションは -d/--dpi.)
--推測dpi
埋め込まれた画像を検査して、ネイティブ解像度を推測してみてください。 慎重に使用してください。
画像 品質
--bg-スライス=n+...+n, --bg-スライス=n,...,n
IW44 バックグラウンドレイヤーのエンコード品質を指定します。 このオプションは次のようなものです
-スライス のオプション c44。 相談する c44(1) 詳細はマニュアルページ。 デフォルトは
72 + 11 + 10 +10。
--bg-サブサンプル=n
バックグラウンドのサブサンプリング率を指定します。 デフォルトは 3 です。有効な値は次のとおりです。
1 ~ 12 の整数。
--fg-colors=デフォルト
すべての前景レイヤーの色を保持するようにしてください。 これがデフォルトです。
--fg-colors=ウェブ
前景レイヤーの色を Web パレット (216 色) に減色します。 このオプションはそうではありません
お勧めします。
--fg-colors=n
GraphicsMagick を使用して、前景レイヤーの個別の色の数を減らします。 n.
有効な値は 1 ~ 4080 の整数です。このオプションは推奨されません。
--fg-colors=黒
前景レイヤーからの色情報をすべて破棄します。
-モノクロ
ページをモノクロのビットマップとしてレンダリングします。 このオプションを使用すると、 --bg-... --fg-... オプション
尊重されない。
--損失レベル=n
非可逆圧縮の積極性を指定します。 デフォルトは 0 (ロスレス) です。
有効な値は、0 ~ 200 の整数です。 このオプションは、
-損失レベル のオプション CJB2; に相談してください CJB2(1) 詳細はマニュアルページ。 このオプション
の場合にのみ使用できます。 -モノクロ オプションも有効になります。
--不可逆的
の同義語 --損失レベル=100.
--アンチエイリアス
フォントとベクターのアンチエイリアスを有効にします。 このオプションは推奨されません。
抽出プロセス
--no-メタデータ
メタデータを抽出しないでください。
デフォルト:
· 文書情報辞書の次のエントリが抽出されます。タイトル、
作成者、件名、作成者、プロデューサー、CreationDate、ModDate。 タイムスタンプは
に従ってフォーマットされた RFC 3999[1]、日付と時刻のコンポーネントが「」で区切られています。
単一のスペース。
· XMP メタデータが抽出 (または作成) され、それに応じて更新されます。
注意
複数の入力ドキュメントが指定されている場合、最初の入力ドキュメントのメタデータのみが取得されます。
考慮する。
--verbatim-metadata
元のメタデータをそのまま保持します。
--アウトラインなし
文書のアウトラインを抽出しないでください。
--hyperlinks=border-avis
ハイパーリンクの境界線を常に表示します。
デフォルトでは、ハイパーリンクの境界線は、マウスがハイパーリンク上にある場合にのみ表示されます。
--ハイパーリンク=#RRGGBB
ハイパーリンクに指定された境界線の色を強制します。
--ハイパーリンクなし, --ハイパーリンク=なし
ハイパーリンクを抽出しないでください。
--テキストなし
テキストを抽出しないでください。
-言葉
テキストを抽出します。 すべての単語の位置を記録します。 これがデフォルトです。
-行
テキストを抽出します。 すべての単語ではなく、すべての行の位置を記録します。
--クロップテキスト
ページ境界の外側にあるテキストは抽出しません。
--no-nfkc
応募しない NFKC[2] の文字を除くテキストの正規化。
アルファベット順の プレゼンテーション フォーム コロナ新型ウィルス(COVID-XNUMX)やメンタルヘルスの崩壊を避ける為の[3] (U+FB00 ~ U+FB4F)、正規化されています
無条件に。
デフォルトでは、すべての文字に NFKC 正規化が適用されます。
--フィルターテキスト=コマンドライン
テキストをフィルタリングします。 コマンドライン。 提供されたフィルターは保存する必要があります
空白、制御文字、および XNUMX 進数。
このオプションは、 --no-nfkc.
-p, --ページ=ページ範囲
変換するページを指定します。 ページ範囲 サブ範囲のカンマ区切りのリストです。 各
サブ範囲は単一ページ (例: 17) または連続したページ範囲です。
(例: 37-42)。 重複したページ番号は許可されません。 ページには 1 から番号が付けられます。
デフォルトでは、すべてのページが変換されます。
パフォーマンス
-j, --jobs =n
n 変換を実行するスレッド。 デフォルトでは XNUMX つのスレッドを使用します。
-j0, --ジョブ=0
変換を実行するために使用するスレッドの数を自動的に決定します。
冗長性、 助けます
-v, -詳細
ファイルの変換中に詳細な情報メッセージを表示します。
-q, - 静かな
ファイルの変換中に情報メッセージを表示しないでください。
- バージョン
バージョン情報を出力して終了します。
-h, - 助けて
ヘルプを表示して終了します。
ENVIRONMENT
次の環境変数は影響を与えます pdf2djvu Unix システムの場合:
OMP_*
並列処理に関する実行時の動作の詳細は、いくつかの方法で制御できます。
環境変数。 を参照してください。 Openmp API 仕様詳細は[4]。
TMPDIR
pdf2djvu 一時ファイルを多用します。 それらはディレクトリに保存されます
この変数で指定されます。 デフォルトは /tmp です。
TEMPLATE 言語
テンプレート 構文
テンプレート言語は大まかにモデル化されています。 Python string 書式設定 構文[5]。
テンプレートは、中括弧 {} で囲まれたフィールドを含むテキストです。 田畑
テンプレートが評価されるときに、適切にフォーマットされた値に置き換えられます。 さらに、
{{ は単一の { に置き換えられ、}} は単一の } に置き換えられます。
フィールド 構文
各フィールドは変数名で構成され、オプションでその後にシフトが続きます。
その後に形式の指定が続きます。
シフトは符号付き (つまり、+ または - 文字で始まる) 整数です。
形式指定はコロンとそれに続く幅指定で構成されます。
幅の指定は、最小フィールド幅を定義する XNUMX 進整数です。 そうでない場合
指定すると、フィールド幅は内容によって決まります。 幅の前に
ゼロ (0) 文字を指定すると、ゼロ埋め込みが有効になります。
幅指定の後には、オプションでアスタリスク (*) 文字が続きます。
最小フィールド幅を、可能な限り長いコンテンツの幅まで増やします。
変数に保存します.
利用できます variables
dページ
DjVu ドキュメント内のページ番号。
ページ, スパージ
PDF ドキュメント内のページ番号。
ラベル
PDF ドキュメント内のページ ラベル (論理ページ番号)。
この変数はページ タイトルにのみ使用できます。
実装 詳細
層 分離 アルゴリズム
を除いて -モノクロ オプションがオンの場合、pdf2djvu は次の単純なレイヤー分離を使用します。
アルゴリズム:
1. ページごとに、次の操作を実行します。
1. 通常の方法で、ページをピックスマップにラスタライズします。
2. 次のページ要素を省略して、ページを別のピックスマップにラスタライズします。
・ 文章、
· 1 ピクセルあたり XNUMX ビットのラスター画像、
· ベクトル要素 (大きな領域の塗りつぶしを除く)。
3. 両方のピックスマップをピクセルごとに比較します。
1. 色が一致する場合、ピクセルを背景レイヤーの一部として分類します。
2. それ以外の場合は、ピクセルを前景レイヤーの一部として分類します。
バグ レポート
pdf2djvu のバグを見つけた場合は、次のアドレスに報告してください。 問題 追跡者[6]。
onworks.net サービスを使用してオンラインで pdf2djvu を使用する