Это индексатор команд, который можно запустить в бесплатном хостинг-провайдере OnWorks, используя одну из наших многочисленных бесплатных онлайн-рабочих станций, таких как Ubuntu Online, Fedora Online, онлайн-эмулятор Windows или онлайн-эмулятор MAC OS.
ПРОГРАММА:
ИМЯ
indexer - генератор полнотекстового индекса Sphinxsearch
СИНТАКСИС
индексатор [--конфигурация КОНФИГФИЛЬ] [--rotate] [--noprogress | --quiet] [--все | ИНДЕКС | ...]
индексатор - остановки ВЫХОДНОЙ ФАЙЛ СЧИТАТЬ [--конфигурация КОНФИГФИЛЬ] [--непрогресс | --тихий]
[--все | ИНДЕКС | ...]
индексатор - объединить MAIN_INDEX ДЕЛЬТА_ИНДЕКС [--конфигурация КОНФИГФИЛЬ] [--rotate] [--noprogress |
--тихий]
ОПИСАНИЕ
Sphinx - это набор программ, направленных на обеспечение высококачественного полнотекстового поиска.
индексатор является первым из двух основных инструментов в составе Sphinx. Вызывается из
командная строка напрямую или как часть более крупного скрипта, индексатор несет полную ответственность за
сбор данных, которые будут доступны для поиска.
Синтаксис вызова индексатора следующий:
$ indexer [ОПЦИИ] [имя_индекса1 [имя_индекса2 [...]]]
По сути, вы должны перечислить различные возможные индексы (которые позже вы сделаете
доступен для поиска) в sphinx.conf, поэтому при вызове индексатор, как минимум, вам нужно быть
сообщая ему, какой индекс (или индексы) вы хотите проиндексировать.
Если sphinx.conf содержит подробности о 2 индексах, мойбигиндекс и мисмаллиндексты мог бы сделать
следующие:
$ индексатор mybigindex
$ индексатор mysmallindex mybigindex
В файле конфигурации sphinx.conf вы указываете один или несколько индексов для своего
данные. Вы можете позвонить индексатор переиндексировать один из них, ad-hoc, или вы можете сказать ему обработать
все индексы - вы не ограничены вызовом только одного или всех сразу, вы всегда можете выбрать
некоторая комбинация доступных индексов.
ДОПОЛНИТЕЛЬНЫЕ УСЛУГИ, НЕ ВКЛЮЧЕННЫЕ В ПАКЕТ
Большинство вариантов индексатор приведены в файле конфигурации, однако там
некоторые параметры, которые вам может потребоваться указать в командной строке, так как они могут повлиять на
как выполняется операция индексации. Вот эти варианты:
--все
Сообщает индексатор для обновления каждого индекса, указанного в sphinx.conf, вместо перечисления
индивидуальные индексы. Это было бы полезно в небольших конфигурациях, или в режиме cron, или в
работы по обслуживанию, при которых весь набор индексов будет перестраиваться каждый день или неделю, или
какой период лучше всего.
Пример использования:
$ indexer --config /home/myuser/sphinx.conf --all
- остановки Outfile.txt NUM
Проверяет источник индекса, как если бы он индексировал данные, и создает список
термины, которые индексируются. Другими словами, он создает список всех доступных для поиска
термины, которые становятся частью индекса. Примечание; он не обновляет индекс в
вопрос, он просто обрабатывает данные «как если бы» они индексировались, включая запуск
запросы, определенные с помощью sql_query_pre or sql_query_post. outputfile.txt будет содержать
список слов, по одному в строке, отсортированный по частоте с наиболее частым первым, и NUM
указывает максимальное количество слов, которые будут перечислены; если достаточно большой, чтобы
охватить каждое слово в указателе, будет возвращено только это количество слов. Такой
Список словарей может быть использован для функций клиентского приложения вокруг фразы «Вы имели в виду ...»
функциональность, обычно в сочетании с --buildfreqs, Ниже.
Пример:
$ indexer myindex --buildstops word_freq.txt 1000
Это приведет к созданию документа в текущем каталоге word_freq.txt с 1,000
самые распространенные слова в 'myindex', отсортированные по наиболее употребляемому первому. Обратите внимание, что файл будет
относятся к последнему проиндексированному индексу, если он указан с несколькими индексами или --все (т.е.
последний из перечисленных в файле конфигурации)
--buildfreqs
Используется в паре с - остановки (и игнорируется, если - остановки не указано). В качестве
- остановки предоставляет список слов, используемых в указателе, --buildfreqs добавляет
количество, присутствующее в индексе, которое было бы полезно для установления того,
слова следует рассматривать как стоп-слова, если они слишком распространены. Это также поможет с
разработка функций "Возможно, вы имели в виду ...", где вы можете указать, насколько часто встречается данное слово
по сравнению с другим, похожим.
Пример:
$ indexer myindex --buildstops word_freq.txt 1000 --buildfreqs
Это приведет к созданию word_freq.txt, как указано выше, однако после каждого слова будет
количество раз, когда это встречается в рассматриваемом индексе.
--config КОНФИГРИЛЬНЫЙ, -c КОНФИГФИЛЬ
Используйте данный файл как конфигурацию. Обычно он ищет sphinx.conf в папке
каталог установки (например, / usr / local / sphinx / etc / sphinx.conf, если он установлен в
/ usr / local / sphinx), за которым следует текущий каталог, в котором вы находитесь при вызове индексатора
из оболочки. Это чаще всего используется в общих средах, где двоичные файлы
установлен где-то вроде / usr / local / sphinx /, но вы хотите предоставить пользователям
возможность создавать свои собственные настройки Sphinx, или, если вы хотите запустить несколько
экземпляры на одном сервере. В подобных случаях вы можете позволить им создавать свои
собственные файлы sphinx.conf и передать их индексатор с этой опцией.
Например:
$ indexer --config /home/myuser/sphinx.conf myindex
--dump-строки ФАЙЛОВ
Сбрасывает строки, полученные из источников SQL, в указанный файл в совместимом с MySQL
синтаксис. Результирующие дампы - это точное представление данных, полученных индексатором.
и помочь в повторении проблем со временем индексации.
- объединить DST-ИНДЕКС SRC-ИНДЕКС
Физически объединить два индекса. Например, если у вас есть схема основной + дельта,
где основной индекс меняется редко, но дельта-индекс часто перестраивается, и
- объединить будет использоваться для объединения двух. Операция движется справа налево -
содержание SRC-ИНДЕКС пройти обследование и физически совместить с содержимым
DST-ИНДЕКС и результат остается в DST-ИНДЕКС. В псевдокоде это может быть выражено
как: DST-ИНДЕКС += SRC-ИНДЕКС
Пример:
$ indexer --объединить основную дельту --rotate
В приведенном выше примере, где главное - это мастер, редко изменяемый индекс и дельта
является менее часто изменяемым, вы можете использовать приведенное выше для вызова индексатор в
объединить содержимое дельты в основной индекс и повернуть индексы.
--merge-dst-диапазон ATTR MIN MAX
Запустите диапазон фильтров, указанный при слиянии. В частности, поскольку слияние применяется к
индекс назначения (как часть - объединить, и игнорируется, если - объединить не указано),
индексатор также будет фильтровать документы, попадающие в целевой индекс, и только
документы пройдут через указанный фильтр и попадут в окончательный индекс. Этот
может использоваться, например, в индексе, где есть атрибут «удален», где 0
означает «не удалено». Такой индекс можно объединить с:
$ indexer --merge main delta --merge-dst-range удалено 0 0
Любые документы, отмеченные как удаленные (значение 1), будут удалены из вновь объединенного
индекс назначения. Его можно добавить несколько раз в командную строку, чтобы добавить
последовательные фильтры для слияния, все из которых должны быть выполнены, чтобы документ
стать частью окончательного индекса.
--merge-killlists, --merge-klists
Используется в паре с - объединить. Обычно при слиянии индексатор использует список уничтожения исходного индекса
(то есть тот, который объединен) в качестве фильтра для удаления соответствующих документов из
индекс назначения. При этом список убийств самого пункта назначения не
тронули вообще. Когда используешь --merge-killlists, (или его более короткая форма --merge-klists)
индексатор не будет фильтровать документы dst-index с помощью killlist src-index, но объединит
их списки уничтожения вместе, поэтому индекс окончательного результата будет иметь список уничтожений
содержащие объединенные списки уничтожения источников.
--Нет прогресса
Не отображать детали прогресса по мере их появления; вместо этого сведения об окончательном статусе (например,
поскольку документы проиндексированы, скорость индексации и т. д. сообщается только по завершении
индексация. В случаях, когда сценарий не запускается на консоли (или tty), это
будет включен по умолчанию.
Пример использования:
$ indexer --rotate --all --noprogress
--print-запросы
Распечатывает SQL-запросы, которые индексатор отправляет в базу данных, вместе с SQL-соединением
и события отключения. Это полезно для диагностики и устранения проблем с SQL.
источники.
--тихий
Сообщает индексатор ничего не выводить, если нет ошибки. Опять же, чаще всего используется для
cron-type или другие задания сценария, вывод которых не имеет отношения к делу или не нужен, за исключением
в случае какой-то ошибки.
Пример использования:
$ indexer --rotate --all --quiet
--вращать
Используется для поворотных указателей. Если у вас нет ситуации, когда вы можете заняться поиском
работать в автономном режиме, не беспокоя пользователей, вам почти наверняка потребуется
поиск выполняется при индексировании новых документов. --вращать создает второй индекс,
параллельно первому (там же, просто включая .new в имена файлов).
После завершения индексатор оповещает Searchd отправив ПОДПИСАТЬСЯ сигнал и Searchd
попытается переименовать индексы (переименовав существующие, чтобы включить .old и
переименование .new, чтобы заменить их), а затем начать обслуживание с более новых файлов.
В зависимости от настройки бесшовный_поворот, может произойти небольшая задержка в возможности
для поиска в новых индексах.
Пример использования:
$ индексатор --rotate --all
--sighup-каждый
полезен, когда вы перестраиваете много больших индексов и хотите, чтобы каждый из них был преобразован в
Searchd как можно быстрее. С участием --sighup-каждый, индексатор пришлет ПОДПИСАТЬСЯ сигнал к
Searchd после успешного завершения работы над каждым индексом. (Поведение по умолчанию
послать сингл ПОДПИСАТЬСЯ после того, как все индексы были построены.)
--подробный
Гарантирует, что каждая строка, вызвавшая проблемы с индексированием (повторяющаяся, ноль или отсутствующая
идентификатор документа; или проблемы ввода-вывода поля файла; и т. д.) будет сообщено. По умолчанию эта опция
выключен, и вместо этого можно сообщить сводку проблем.
Используйте индексатор онлайн с помощью сервисов onworks.net