Это команда pdfgrep, которую можно запустить в бесплатном хостинг-провайдере OnWorks, используя одну из наших многочисленных бесплатных онлайн-рабочих станций, таких как Ubuntu Online, Fedora Online, онлайн-эмулятор Windows или онлайн-эмулятор MAC OS.
ПРОГРАММА:
ИМЯ
pdfgrep - поиск в pdf-файлах регулярного выражения
СИНТАКСИС
pdfgrep [ВАРИАНТ...] ШАБЛОН [ФАЙЛОВ...]
ОПИСАНИЕ
Найдите ШАБЛОН в каждом ФАЙЛОВ. ШАБЛОН является расширенным регулярным выражением.
pdfgrep работает так же, как grep, с одним отличием: он работает со страницами, а не со строками.
ДОПОЛНИТЕЛЬНЫЕ ОПЦИИ
-i, --игнорировать регистр
Игнорируйте различия в регистрах как в ШАБЛОН и входные файлы.
-F, --фиксированные строки
Интерпретировать ШАБЛОН как список фиксированных строк, разделенных символами новой строки, любая из которых должна
быть сопоставленным.
-P, --perl-regexp
Интерпретировать ШАБЛОН как регулярное выражение, совместимое с Perl (PCRE). Видеть пресинтаксис(3)
для быстрого обзора.
-H, --с именем файла
Выведите имя файла для каждого совпадения. Это настройка по умолчанию, когда есть больше
чем один файл для поиска.
-h, --без имени файла
Отключить префикс имени файла на выходе. Это настройка по умолчанию, когда есть
только один файл для поиска.
-n, --номер страницы
Префикс каждого совпадения с номером страницы, на которой оно было найдено.
-c, --считать
Подавить нормальный вывод. Вместо этого выведите количество совпадений для каждого входного файла. Примечание
что, в отличие от grep, несколько совпадений на одной странице будут учитываться индивидуально.
-p, --количество страниц
Подобно -c, но печатает количество совпадений на странице.
-C, --контекст NUM
Распечатать не более ИНУМ символы контекста вокруг каждого совпадения. Точное число будет
варьируются, потому что pdfgrep пытается соблюдать границы слов. Если NUM является "линия", целый
строка будет напечатана. Если этот параметр не установлен, pdfgrep пытается напечатать строки, которые
не более ширины клеммы.
--цвет КОГДА
Окружайте имена файлов, номера страниц и соответствующий текст управляющими последовательностями для отображения
их в цвете на терминале. (Настройка по умолчанию автоматический). КОГДА может быть:
всегда
Всегда используйте цвета, даже если stdout не является терминалом.
никогда
Не используйте цвета.
автоматический
Используйте цвета только тогда, когда stdout является терминалом.
-o, --only-соответствие
Печатайте только совпадающую часть строки без какого-либо окружающего контекста.
-r, - рекурсивный
Рекурсивный поиск по всем файлам (ограничен --включают и --исключать) под каждым
каталог, следуя символическим ссылкам, только если они находятся в командной строке.
-R, --разыменование-рекурсивный
Такой же как -r, но следует за всеми символическими ссылками.
--exclude =GLOB
Пропускать файлы, базовое имя которых совпадает GLOB. Посмотреть земной шар(7) для подстановочных знаков, которые вы можете использовать. Ты
можно использовать эту опцию несколько раз, чтобы исключить другие шаблоны. Он имеет приоритет перед
--включают. Обратите внимание, что in- и excludes применяются только к файлам, найденным через - рекурсивный и
не в список аргументов.
--include =GLOB
Искать только файлы, базовое имя которых совпадает GLOB. Посмотреть --исключать для подробностей. По умолчанию
is * .pdf.
--password =PASSWORD
Используйте ПАРОЛЬ для расшифровки PDF-файлов. Можно указывать несколько раз; все пароли
будет проверяться на всех PDF-файлах. Внимание что этот пароль будет отображаться в вашей команде
история и выход ps(1). Поэтому, пожалуйста, не используйте это, если безопасность PASSWORD
это важно.
-m, --max-количество NUM
Прекратить чтение файла после NUM Матчи. Когда также используется опция -c или --count,
pdfgrep не выводит счетчик больше, чем NUM.
-Z, --нулевой
Выведите нулевой байт (называемый NUL в ASCII и '\ 0' в C) вместо двоеточия, которое
обычно отделяет имя файла от остальной части строки. Эта опция делает вывод
однозначно при наличии двоеточий, пробелов или новых строк в имени файла. Может быть
используется вместе с такими командами, как xargs -0 or Perl -0.
--match-prefix-separator Сентябрь
Изменяет двоеточие, используемое для разделения имени файла, номера строки и текста в выводе, на
Сентябрь, которая может быть произвольной строкой. Это полезно, когда имена файлов содержат двоеточия,
но только для интерактивного использования. Для сценариев --нулевой должен быть использован.
--отлаживать
Включить вывод отладки. Внимание: Из-за ограничений poppler до версии 0.30.0 некоторые
вывод отладки также печатается без --отлаживать при использовании такой версии поплера.
--warn-пусто
Распечатать предупреждение STDERR если PDF-файл не содержит текста, доступного для поиска. Это случай для
PDF-файлы, состоящие только из изображений, например отсканированные документы.
--унак
Удалите акценты и лигатуры как из шаблона поиска, так и из документов PDF. Этот
полезен, если вы хотите найти слово, содержащее "ae", но в PDF-файле используется
вместо этого одиночный символ «æ». Видеть унак(3) и безударный(1) для получения информации.
Эти вариант is экспериментальный и Важно доступен if pdfgrep is скомпилированный унак
.
-q, --тихий
Подавить весь нормальный вывод на стандартный вывод. Ошибки будут напечатаны, и коды выхода будут
быть возвращенным (см. ниже).
--Помогите
Распечатайте краткую сводку опций.
-V, --версия Показать информацию о версии.
ВЫХОД статус
Обычно статус выхода равен 0, если найдено хотя бы одно совпадение, 1, если совпадение не найдено и
2, если произошла ошибка. Но если --тихий or -q опция используется и совпадение найдено,
pdfgrep вернет 0 независимо от ошибок.
ОКРУЖАЮЩАЯ СРЕДА ПЕРЕМЕННЫЕ
Поведение pdfgrep зависит от следующей переменной среды.
GREP_COLORS
Задает цвета и другие атрибуты, используемые для выделения различных частей
выход. Синтаксис и значения похожи на GREP_COLORS of GREP. Посмотреть GREP(1) подробнее
Детали. На данный момент только возможности mt, ms, mc, fn, ln и se используются
pdfgrep, Где mt, ms и mc имеют тот же эффект.
ПРИМЕРЫ
Печать первый 10 линий согласование описания и Распечатать их страница номер
pdfgrep -n --max-count 10 шаблон foo.pdf
Поиск ВСЕ . Pdf файлов чья имена начинать Foo рекурсивно in текущий каталог
pdfgrep -r --include шаблон "foo * .pdf"
Поиск ВСЕ . Pdf файлов которая меньше чем 12M рекурсивно in текущий каталог
найти . -name "* .pdf" -size -12M -print0 | xargs -0 шаблон pdfgrep
Обратите внимание, что в отличие от предыдущих примеров, эта задача не может быть решена с помощью
pdfgrep, но инструменты Unix найдите(1) и xargs(1) нужно было использовать. Это потому что
Сам pdfgrep не включает параметры для исключения файлов по их размеру. Но как видите,
это не обязательно!
Используйте pdfgrep в Интернете с помощью сервисов onworks.net