Це програма для Linux під назвою webStraktor, останню версію якої можна завантажити як webStraktor-20140420-R01.zip. Його можна запустити в режимі онлайн у постачальника безкоштовного хостингу OnWorks для робочих станцій.
Завантажте та запустіть онлайн цю програму під назвою webStraktor з OnWorks безкоштовно.
Дотримуйтесь цих інструкцій, щоб запустити цю програму:
- 1. Завантажив цю програму на свій ПК.
- 2. Введіть у наш файловий менеджер https://www.onworks.net/myfiles.php?username=XXXXX із потрібним ім'ям користувача.
- 3. Завантажте цю програму в такий файловий менеджер.
- 4. Запустіть онлайн-емулятор OnWorks Linux або Windows або онлайн-емулятор MACOS з цього веб-сайту.
- 5. З ОС OnWorks Linux, яку ви щойно запустили, перейдіть до нашого файлового менеджера https://www.onworks.net/myfiles.php?username=XXXXX з потрібним іменем користувача.
- 6. Завантажте програму, встановіть її та запустіть.
ЕКРАНИ
Ad
webStraktor
ОПИС
webStraktor — це програмований клієнт для вилучення даних всесвітньої павутини. Його мета полягає в тому, щоб очистити вміст на основі HTML за допомогою протоколу HTTP і витягнути відповідну інформацію. webStraktor має мову сценаріїв для полегшення збору, вилучення та зберігання інформації, доступної в Інтернеті, включаючи зображення. Мова сценаріїв використовує елементи синтаксису регулярного виразу та xPath. Мова сценаріїв webStraktor має невеликий набір інструкцій, а її синтаксис легко освоїти.
Стандартний формат виводу webStraktor базується на XML у кодових сторінках ASCII, UTF-8 або ISO-8859-1 (Latin1).
webStraktor покладається на Apache HttpClient для отримання вмісту через протокол HTTP. Він дотримується протоколу виключення роботів, і його можна налаштувати на роботу анонімно, підключаючись до переважних типів веб-проксі-серверів.
webStraktor розширює функціональні можливості веб-сканерів, павуків або ботів, інтегруючи можливості скрейпінгу та сканування.
Функції
- програмований веб-сканер (веб-павук або веб-бот)
- легко освоїти мову сценаріїв
- графічне середовище розробки на базі java swing
- Виведення XML UTF8 або ISO-8859-1
- інтегрується з легкодоступними програмами планування
- вичерпна конфігурація
- підтримка веб-проксі-сервера
- підтримка протоколу виключення роботів
- настроюваний підпис агента користувача
- покроковий посібник і приклади сценаріїв
- На основі HttpClient Apache
Аудиторія
Забудовники, архітектори
Користувацький інтерфейс
Java Swing
Мова програмування
Java
Середовище бази даних
На основі XML
Це додаток, який також можна отримати з https://sourceforge.net/projects/webstraktor/. Його розміщено в OnWorks, щоб його можна було запустити в Інтернеті найпростішим способом з однієї з наших безкоштовних операційних систем.