httrack
Это команда httrack, которую можно запустить в бесплатном хостинг-провайдере OnWorks, используя одну из наших многочисленных бесплатных онлайн-рабочих станций, таких как Ubuntu Online, Fedora Online, онлайн-эмулятор Windows или онлайн-эмулятор MAC OS.
ПРОГРАММА:
ИМЯ
httrack - автономный браузер: копирование веб-сайтов в локальный каталог
СИНТАКСИС
httrack [ URL ] ... [ -фильтр ] ... [ + фильтр ] ... [ -О, --дорожка ] [ -ш, --зеркало ] [ -В,
- зеркало-волшебник ] [ -грамм, --get-файлы ] [ -я, --Продолжить ] [ -Ю, --mirrorlinks ] [ -П,
--прокси ] [ -% f, --httpproxy-ftp [= N] ] [ -% b, --связывать ] [ -рН, --глубина [= N] ] [ -% eN,
--ext-depth [= N] ] [ -мН, --max-files [= N] ] [ -МН, --max-size [= N] ] [ -RU, --max-time [= N] ]
[ -АН, --max-rate [= N] ] [ -% cN, - подключений в секунду [= N] ] [ -ГН, --max-pause [= N] ] [
-сН, - сокеты [= N] ] [ -ТН, --timeout [= N] ] [ -РН, --retries [= N] ] [ -ДжН, --min-rate [= N] ]
[ -ХН, --host-control [= N] ] [ -%П, --extended-parsing [= N] ] [ -н, --около ] [ -т, --тестовое задание ]
[ -% L, --список ] [ -% S, --urllist ] [ -НН, --structure [= N] ] [ -% D,
--cached-delayed-type-check ] [ -% M, --mime-html ] [ -ЛН, --long-names [= N] ] [ -КН,
--keep-links [= N] ] [ -Икс, --replace-external ] [ -%Икс, --disable-пароли ] [ -% q,
--include-строка-запроса ] [ -о, --генерировать-ошибки ] [ -ИКС, --purge-old [= N] ] [ -%п,
- сохранить ] [ -% Т, --utf8-конверсия ] [ -бн, --cookies [= N] ] [ -у, --check-type [= N] ] [
-дж, --parse-java [= N] ] [ -сН, --robots [= N] ] [ -%час, --http-10 ] [ -% k, - сохранить в живых ] [
-% B, - терпимый ] [ -% s, --updatehack ] [ -% u, --urlhack ] [ -% A, --предполагать ] [ -@в,
--protocol [= N] ] [ -% w, --отключить-модуль ] [ -Ф, --пользователь-агент ] [ -%Р, --referer ] [ -% E,
--из ] [ -% F, - нижний колонтитул ] [ -% l, - язык ] [ -% a, --принимать ] [ -%ИКС, --заголовки ] [ -С,
--cache [= N] ] [ -к, --store-all-in-cache ] [ -% n, --не-поймать ] [ -% v, --отображать ] [
-К, --не-лог ] [ -д, --тихий ] [ -з, --extra-журнал ] [ -З, --debug-журнал ] [ -в, --подробный
] [ -ф, - файл-журнал ] [ -ф2, - single-log ] [ -Я, --показатель ] [ -%я, --build-top-index ] [
-%Я, --search-index ] [ -pН, --priority [= N] ] [ -С, - остаться на том же месте ] [ -Д,
- может идти вниз ] [ -У, - может подняться ] [ -Б, - может идти вверх и вниз ] [ -a
- остаться на том же адресе ] [ -д, --остаться на том же домене ] [ -л, --остаться на том же-тлд ] [ -е,
- везде ] [ -%ЧАС, --debug-заголовки ] [ -% !, --disable-security-limits ] [ -В,
--userdef-cmd ] [ -% W, --Перезвоните ] [ -К, --keep-links [= N] ] [
ОПИСАНИЕ
httrack позволяет загружать сайт в Интернете из Интернета на локальный
каталог, рекурсивно создавая все каталоги, получая HTML, изображения и другие файлы
с сервера на ваш компьютер. HTTrack упорядочивает относительную ссылку исходного сайта -
структура. Просто откройте страницу зеркального веб-сайта в своем браузере, и вы сможете
просматривать сайт от ссылки к ссылке, как если бы вы просматривали его в Интернете. HTTrack также может
обновить существующий зеркальный сайт и возобновить прерванные загрузки.
ПРИМЕРЫ
httrack www.someweb.com/bob/
зеркало сайта www.someweb.com/bob/ и только этот сайт
httrack www.someweb.com/bob/ www.anothertest.com/mike/ + *. com / *. jpg -mime: application / *
зеркалируйте два сайта вместе (с общими ссылками) и принимайте любые файлы .jpg на
Сайты .com
httrack www.someweb.com/bob/bobby.html +* -R6
означает получение всех файлов, начиная с bobby.html, с 6 глубиной ссылок и возможностью
везде в сети
httrack www.someweb.com/bob/bobby.html - паук -P прокси.myhost.com:8080
запускает паука на www.someweb.com/bob/bobby.html через прокси
httrack --Обновить
обновляет зеркало в текущей папке
httrack
переведет вас в интерактивный режим
httrack --Продолжить
продолжает зеркало в текущей папке
ДОПОЛНИТЕЛЬНЫЕ ОПЦИИ
Общие опции:
-O путь для зеркала / файлов журналов + кеш (-O путь зеркала [, путь кеширования и файлы журналов]) (--path
)
Экшн опции:
-w * зеркало веб-сайтов (--mirror)
-W зеркало веб-сайтов, полуавтоматическое (задает вопросы) (--mirror-wizard)
-g просто получить файлы (сохраненные в текущем каталоге) (--get-files)
-i продолжить прерванное зеркало, используя кеш (--continue)
-Y зеркалировать ВСЕ ссылки, расположенные на страницах первого уровня (зеркальные ссылки) (--mirrorlinks)
доверенное лицо опции:
-P использование прокси (-P прокси: порт или -P пользователь: пароль @ прокси: порт) (--proxy )
-% f * использовать прокси для ftp (f0 не использовать) (--httpproxy-ftp [= N])
-% b использовать это локальное имя хоста для выполнения / отправки запросов (-% b имя хоста) (--bind )
ограничения опции:
-rN установить глубину зеркала на N (* r9999) (--depth [= N])
-% eN устанавливает глубину внешних ссылок на N (*% e0) (--ext-depth [= N])
-mN максимальная длина файла для файла, отличного от HTML (--max-files [= N])
-mN, N2 максимальная длина файла для файлов, отличных от HTML (N) и HTML (N2)
-MN максимальный общий размер, который может быть загружен / отсканирован (--max-size [= N])
-EN максимальное время зеркалирования в секундах (60 = 1 минута, 3600 = 1 час) (--max-time [= N])
-AN максимальная скорость передачи в байтах / секундах (1000 = 1 КБ / с макс) (--max-rate [= N])
-% cN максимальное количество подключений в секунду (*% c10) (--connection-per-second [= N])
-GN приостанавливать передачу, если достигнуто N байт, и ждать, пока файл блокировки не будет удален
(--max-pause [= N])
Поток управления:
-cN количество нескольких подключений (* c8) (--sockets [= N])
-TN timeout, количество секунд после отключения неотвечающей ссылки (--timeout [= N])
-RN количество попыток в случае тайм-аута или нефатальных ошибок (* R1) (--retries [= N])
-JN контроль пробок, минимальная скорость передачи (байты / секунды) допустимая для ссылки
(--мин-скорость [= N])
-HN хост отменяется, если: 0 = никогда, 1 = тайм-аут, 2 = медленный, 3 = тайм-аут или медленный
(--host-control [= N])
Ссылки опции:
-% P * расширенный синтаксический анализ, попытка синтаксического анализа всех ссылок, даже в неизвестных тегах или Javascript
(% P0 не использовать) (--extended-parsing [= N])
-n получить файлы, отличные от HTML, рядом с файлом HTML (например, изображение, расположенное снаружи) (--near)
-t проверять все URL (даже запрещенные) (--test)
-% L добавить все URL-адреса, расположенные в этом текстовом файле (по одному URL-адресу в строке) (--list )
-% S добавить все правила проверки, расположенные в этом текстовом файле (по одному правилу проверки в строке)
(--urllist )
Построить опции:
-NN тип структуры (0 * исходная структура, 1+: см. Ниже) (--structure [= N])
-или пользовательская структура (-N "% h% p /% n% q.% t")
-% N отложенная проверка типа, не проводите проверку ссылок, а дождитесь начала загрузки файлов
вместо этого (экспериментально) (% N0 не использовать,% N1 использовать для неизвестных расширений, *% N2 всегда
использование)
-% D кэшированная проверка отложенного типа, не ждите удаленного типа во время обновлений, для ускорения
их (% D0 ждать, *% D1 не ждать) (--cached-delayed-type-check)
-% M генерирует полный архив RFC MIME-инкапсулированный (.mht) (--mime-html)
-LN длинные имена (L1 * длинные имена / L0 8-3 преобразование / L2 совместимость с ISO9660)
(--long-names [= N])
-KN сохранять оригинальные ссылки (например, http://www.adr/link) (K0 * относительное звено, K абсолютное
ссылки, исходные ссылки K4, ссылки абсолютного URI K3, прозрачные ссылки прокси K5)
(--keep-links [= N])
-x заменить внешние html-ссылки страницами ошибок (--replace-external)
-% x не включать пароль для внешних веб-сайтов, защищенных паролем (включая% x0)
(--disable-пароли)
-% q * включить строку запроса для локальных файлов (бесполезно, только для информации) (% q0
не включать) (--include-строка-запроса)
-o * генерировать выходной html файл в случае ошибки (404 ..) (o0 не генерировать)
(--генерировать-ошибки)
-X * очистить старые файлы после обновления (X0 сохранить удаление) (--purge-old [= N])
-% p сохранить файлы HTML как есть (идентично -K4 -% F "") (--preserve)
-% T преобразование ссылок в UTF-8 (--utf8-conversion)
Spiders опции:
-bN принимать файлы cookie в файле cookies.txt (0 = не принимать, * 1 = принимать) (--cookies [= N])
-u проверить тип документа, если неизвестен (cgi, asp ..) (u0 не проверять, * u1 проверять, но /, u2
проверять всегда) (--check-type [= N])
-j * анализировать классы Java (j0 не анализировать, битовая маска: | 1 анализировать по умолчанию, | 2 не анализировать
.class | 4 не разбирайте .js | 8 не будьте агрессивны) (--parse-java [= N])
-sN следовать robots.txt и метатегам роботов (0 = никогда, 1 = иногда, * 2 = всегда, 3 = всегда
(даже строгие правила)) (--robots [= N])
-% h принудительно запрашивает HTTP / 1.0 (уменьшает возможности обновления, только для старых серверов или прокси)
(--http-10)
-% k по возможности использовать keep-alive, значительно сокращая задержку для небольших файлов и тестирования
запросы (% k0 не использовать) (--keep-alive)
- Допустимые запросы% B (на некоторых серверах принимаются поддельные ответы, но не стандартные!)
(- терпимо)
-% s хаки для обновления: различные хаки для ограничения повторных передач при обновлении (идентичный размер,
поддельный ответ ..) (--updatehack)
-% u url hacks: различные хаки для ограничения повторяющихся URL (strip //, www.foo.com == foo.com ..)
(--urlhack)
-% A предполагает, что тип (cgi, asp ..) всегда связан с типом mime (-% A
php3, cgi = text / html; dat, bin = application / x-zip) (--assume )
-может также использоваться для принудительного использования определенного типа файла: --assume foo.cgi = text / html
- Интернет-протокол @ iN (0 = оба ipv6 + ipv4, 4 = только ipv4, 6 = только ipv6) (--protocol [= N])
-% w отключить определенный внешний модуль mime (-% w htsswf -% w htsjava) (--disable-module
)
Браузер №:
-F поле user-agent, отправляемое в заголовках HTTP (-F "имя пользователя-агента") (--user-agent )
- Поле referer по умолчанию% R отправляется в заголовках HTTP (--referer )
-% E с адреса электронной почты, отправленного в заголовках HTTP (--from )
- Строка нижнего колонтитула% F в Html-коде (-% F "Зеркально отражено [с хоста% s [файл% s [at% s]]]"
(--footer )
-% l предпочитаемый язык (-% l "fr, en, jp, *" (--language )
-% a допустимые форматы (-% a "text / html, image / png; q = 0.9, * / *; q = 0.1" (--accept )
-% X дополнительная строка заголовка HTTP (-% X "X-Magic: 42" (--headers )
Журнал, индекс, кэш
-C создать / использовать кеш для обновлений и повторных попыток (C0 без кеша, кеш C1 является приоритетным, * C2
тестовое обновление до) (--cache [= N])
-k хранить все файлы в кеше (бесполезно, если файлы на диске) (--store-all-in-cache)
-% n не загружать повторно локально удаленные файлы (--do-not-recatch)
-% v отображать на экране имена загруженных файлов (в реальном времени) - * Краткая версия% v1 -% v2
полная анимация (--display)
-Q без журнала - тихий режим (--do-not-log)
-q без вопросов - тихий режим (--quiet)
-z log - дополнительная информация (--extra-log)
-Z журнал - отладка (--debug-log)
-v войти на экран (--verbose)
-f * войти в файлы (--file-log)
-f2 один единственный файл журнала (--single-log)
-I * сделать индекс (I0 не делать) (--index)
-% i сделать верхний индекс для папки проекта (*% i0 не делать) (--build-top-index)
-% Я делаю доступный для поиска индекс для этого зеркала (*% I0 не делает) (--search-index)
ExpertXNUMX опции:
-pN режим приоритета: (* p3) (--priority [= N])
-p0 просто сканировать, ничего не сохранять (для проверки ссылок)
-p1 сохранять только html файлы
-p2 сохранять только файлы, отличные от HTML
- * p3 сохранить все файлы
-p7 получить файлы html раньше, затем обработать другие файлы
-S оставаться в том же каталоге (--stay-on-same-dir)
-D * может входить только в подкаталоги (--can-go-down)
-U может переходить только в верхние каталоги (--can-go-up)
-B может перемещаться вверх и вниз по структуре каталогов (--can-go-up-and-down)
-a * оставаться на том же адресе (--stay-on-same-address)
-d оставаться в том же основном домене (--stay-on-same-domain)
-l оставаться в том же TLD (например: .com) (--stay-on-same-tld)
-e идти повсюду в сети (--go-везде)
-% H отладочные HTTP-заголовки в файле журнала (--debug-headers)
Guru опции: (из НЕ используют if возможный)
- # X * использовать оптимизированный движок (ограниченные проверки границ памяти) (--fast-engine)
- # 0 filter test (- # 0 * .gif www.bar.com/foo.gif) (--debug-testfilters )
- # 1 упрощенный тест (- # 1 ./foo/bar/../foobar)
- Тест типа # 2 (- # 2 /foo/bar.php)
- # Список кешей C (- # C * .com / spider * .gif (--debug-cache )
- # Восстановление кэша R (поврежденный кеш) (--repair-cache)
- # d синтаксический анализатор отладки (--debug-parsing)
- # E извлечь метаданные кеша new.zip в meta.zip
- # f всегда очищать файлы журналов (--advanced-flushlogs)
- # FN максимальное количество фильтров (--advanced-maxfilters [= N])
- # h информация о версии (--version)
- # K сканирование stdin (отладка) (--debug-scanstdin)
- # L максимальное количество ссылок (- # L1000000) (--advanced-maxlinks)
- # p отображать некрасивую информацию о прогрессе (--advanced-progressinfo)
- # P URL перехвата (--catch-url)
- # R старые подпрограммы FTP (отладка) (--repair-cache)
- # T сгенерировать операции передачи. регистрировать каждую минуту (--debug-xfrstats)
- # u время ожидания (--advanced-wait)
- # Z генерирует статику скорости передачи каждую минуту (--debug-ratestats)
опасно опции: (из НЕ используют если не точно, знают почему делает)
-%! обходить встроенные ограничения безопасности, чтобы избежать злоупотребления пропускной способностью (пропускной способностью,
одновременные соединения) (--disable-security-limits)
-ВАЖНЫЙ
ПРИМЕЧАНИЕ: ОПАСНЫЙ ВАРИАНТ, ПОДХОДИТ ТОЛЬКО ДЛЯ СПЕЦИАЛИСТОВ.
-ИСПОЛЬЗУЙТЕ ЕГО С БЕЗОПАСНОСТЬЮ
Командная строка конкретный опции:
-V выполнять системную команду после каждого файла ($ 0 - имя файла: -V "rm \ $ 0")
(--userdef-cmd )
-% W использовать внешнюю библиотечную функцию в качестве оболочки (-% W myfoo.so [, myparameters])
(--Перезвони )
Детали: Опция N
-N0 Структура сайта (по умолчанию)
-N1 HTML в сети /, изображения / другие файлы в сети / изображения /
-N2 HTML в сети / HTML, изображения / прочее в сети / изображения
-N3 HTML в сети /, изображения / прочее в сети /
-N4 HTML в web /, изображения / прочее в web / xxx, где xxx - расширение файла (все gif
будет размещен, например, в web / gif)
-N5 Изображения / другое в Интернете / xxx и HTML в Интернете / HTML
-N99 Все файлы в сети / со случайными именами (гаджет!)
-N100 Структура сайта, без www.domain.xxx/
-N101 Идентично N1, за исключением того, что "web" заменяется названием сайта.
-N102 Идентично N2, за исключением того, что "web" заменяется названием сайта.
-N103 Идентично N3, за исключением того, что "web" заменяется названием сайта.
-N104 Идентично N4, за исключением того, что "web" заменяется названием сайта.
-N105 Идентично N5, за исключением того, что "web" заменяется названием сайта.
-N199 Идентично N99, за исключением того, что "web" заменяется названием сайта.
-N1001 Идентичен N1, за исключением того, что нет "веб-каталога"
-N1002 Идентичен N2, за исключением того, что нет "веб-каталога"
-N1003 Идентичен N3, за исключением того, что здесь нет "веб-каталога" (опция установлена для опции g)
-N1004 Идентичен N4, за исключением того, что нет "веб-каталога"
-N1005 Идентичен N5, за исключением того, что нет "веб-каталога"
-N1099 Идентичен N99, за исключением того, что нет "веб-каталога"
Детали: Определяемые пользователем вариант N
% n Имя файла без типа файла (например, изображение)
% N Имя файла, включая тип файла (например, image.gif)
% t Тип файла (например: gif)
% p Путь [без окончания /] (например: / someimages)
% h Имя хоста (например: www.someweb.com)
% M URL-адрес MD5 (128 бит, 32 байта ascii)
Строка запроса% Q MD5 (128 бит, 32 байта ascii)
% k полная строка запроса
% r имя протокола (например, http)
% q маленькая строка запроса MD5 (16 бит, 4 байта ascii)
% s? Версия с кратким названием (например,% sN)
% [param] переменная параметра в строке запроса
% [param: before: after: empty: notfound] расширенное извлечение переменных
Детали: Определяемые пользователем вариант N и продвинутый переменная добыча
% [параметр: до: после: пусто: не найдено]
-param: имя параметра
-до
: строка для добавления, если параметр был найден
-after: строка для добавления, если параметр был найден
-не найден
: замена строки, если параметр не может быть найден
-empty: замена строки, если параметр был пустым
-все поля, кроме первого (имя параметра), могут быть пустыми
Детали: Опция K
-K0 foo.cgi? Q = 45 -> foo4B54.html? Q = 45 (относительный URI, по умолчанию)
-K -> http://www.foobar.com/folder/foo.cgi? q = 45 (абсолютный URL) (--keep-links [= N])
-K3 -> /folder/foo.cgi?q=45 (абсолютный URI)
-K4 -> foo.cgi? Q = 45 (исходный URL)
-K5 -> http://www.foobar.com/folder/foo4B54.html? q = 45 (прозрачный URL прокси)
Ярлыки:
--зеркало
* сделать зеркало сайта (ов) (по умолчанию)
--получать
получить указанные файлы, не искать другие URL-адреса (-qg)
--список
добавить все URL, расположенные в этом текстовом файле (-% L)
--mirrorlinks
зеркалировать все ссылки на страницах 1-го уровня (-Y)
--testlinks
тестировать ссылки на страницах (-r1p0C0I0t)
- паук
сайты-пауки, для проверки ссылок: отчеты об ошибках и предупреждениях (-p0C0I0t)
--testsite
идентично --spider
--скелет
сделать зеркало, но получает только html файлы (-p1)
--Обновить
обновить зеркало, без подтверждения (-iC2)
--Продолжить
продолжить зеркало, без подтверждения (-iC1)
--catchurl
создать временный прокси для захвата URL-адреса или URL-адреса публикации формы
--чистый
стереть кеш и файлы журнала
--http10
принудительно выполнить запросы http / 1.0 (-% h)
Детали: Опция % W: Внешний обратные вызовы Прототипы
посмотреть htsdefines.h
Используйте httrack онлайн с помощью сервисов onworks.net