To aplikacja dla systemu Linux o nazwie RobotsTxt, której najnowszą wersję można pobrać jako robotstxtsourcecode.tar.gz. Można ją uruchomić online na bezpłatnym hostingu OnWorks dla stacji roboczych.
Pobierz i uruchom bezpłatnie aplikację RobotsTxt z OnWorks.
Postępuj zgodnie z tymi instrukcjami, aby uruchomić tę aplikację:
- 1. Pobrałem tę aplikację na swój komputer.
- 2. Wpisz w naszym menedżerze plików https://www.onworks.net/myfiles.php?username=XXXXX z wybraną nazwą użytkownika.
- 3. Prześlij tę aplikację w takim menedżerze plików.
- 4. Uruchom emulator online OnWorks Linux lub Windows online lub emulator online MACOS z tej witryny.
- 5. W systemie operacyjnym OnWorks Linux, który właśnie uruchomiłeś, przejdź do naszego menedżera plików https://www.onworks.net/myfiles.php?username=XXXXX z wybraną nazwą użytkownika.
- 6. Pobierz aplikację, zainstaluj ją i uruchom.
ZDJĘCIA EKRANU:
Tekst robota
OPIS:
To wysokowydajna, przetestowana w warunkach produkcyjnych biblioteka do parsowania i oceny reguł pliku robots.txt w odniesieniu do agentów użytkownika robota. Implementuje ona podstawową semantykę protokołu Robots Exclusion Protocol: sekcje agenta użytkownika, dyrektywy Allow/Disallow, obsługę symboli wieloznacznych oraz reguły pierwszeństwa. Kod jest zoptymalizowany pod kątem szybkości i niskiego zużycia pamięci, dzięki czemu duże procesy indeksowania mogą szybko analizować miliony adresów URL. Koncentruje się również na poprawności – skrajne przypadki, takie jak nakładające się wzorce i rozstrzyganie najdłuższego dopasowania, są obsługiwane spójnie. Użytkownicy integrują ją, aby zdecydować, czy konkretny adres URL może zostać pobrany przez konkretną nazwę bota, oraz aby uwzględnić opóźnienia indeksowania lub wskazówki map witryn, tam gdzie ma to zastosowanie. Biblioteka obsługuje zarówno roboty indeksujące działające na skalę wyszukiwania, jak i mniejsze narzędzia, które potrzebują niezawodnego mechanizmu decyzyjnego do uprzejmego indeksowania.
Funkcjonalności
- Szybki parser i dopasowywanie reguł Zezwalaj/Nie zezwalaj
- Prawidłowe przetwarzanie symboli wieloznacznych i pierwszeństwo najdłuższego dopasowania
- Sekcje reguł specyficzne dla agenta użytkownika z rozsądnymi rozwiązaniami awaryjnymi
- Ocena o niskim narzucie dla robotów indeksujących o dużej przepustowości
- Obsługa popularnych rozszerzeń, takich jak wskazówki dotyczące mapy witryny
- Przejrzyste API do sprawdzania uprawnień pobierania adresów URL dla każdej nazwy bota
Język programowania
C + +
Kategorie
Tę aplikację można również pobrać ze strony https://sourceforge.net/projects/robotstxt.mirror/. Została ona umieszczona w OnWorks, aby można ją było najłatwiej uruchomić online z poziomu jednego z naszych darmowych systemów operacyjnych.