Đây là ứng dụng Linux có tên Heritrix, phiên bản mới nhất có thể tải xuống dưới dạng 3.10.2sourcecode.tar.gz. Có thể chạy trực tuyến trên nhà cung cấp dịch vụ lưu trữ miễn phí OnWorks cho máy trạm.
Tải xuống và chạy trực tuyến ứng dụng này có tên Heritrix with OnWorks miễn phí.
Làm theo các hướng dẫn sau để chạy ứng dụng này:
- 1. Đã tải ứng dụng này xuống PC của bạn.
- 2. Nhập vào trình quản lý tệp của chúng tôi https://www.onworks.net/myfiles.php?username=XXXXX với tên người dùng mà bạn muốn.
- 3. Tải lên ứng dụng này trong trình quản lý tệp như vậy.
- 4. Khởi động trình giả lập trực tuyến OnWorks Linux hoặc trình giả lập trực tuyến Windows hoặc trình mô phỏng trực tuyến MACOS từ trang web này.
- 5. Từ Hệ điều hành OnWorks Linux mà bạn vừa khởi động, hãy truy cập trình quản lý tệp của chúng tôi https://www.onworks.net/myfiles.php?username=XXXXX với tên người dùng mà bạn muốn.
- 6. Tải xuống ứng dụng, cài đặt và chạy nó.
MÀN HÌNH
Ad
di truyền
MÔ TẢ
Heritrix là dự án trình thu thập dữ liệu web chất lượng lưu trữ, mã nguồn mở, có thể mở rộng, quy mô web của Lưu trữ Internet. Heritrix (đôi khi được đánh vần là heretrix, hoặc viết sai hoặc viết sai thành heratrix/heritix/heretix/heratix) là một từ cổ để chỉ người thừa kế (người phụ nữ thừa kế). Vì trình thu thập thông tin của chúng tôi tìm cách thu thập và bảo tồn các hiện vật kỹ thuật số của nền văn hóa của chúng tôi vì lợi ích của các nhà nghiên cứu và các thế hệ tương lai, nên cái tên này có vẻ phù hợp. Heritrix được thiết kế để tôn trọng các chỉ thị loại trừ robots.txt† và thẻ META nofollow. Vui lòng xem xét tải trọng mà quá trình thu thập dữ liệu của bạn sẽ đặt trên các trang gốc và đặt chính sách lịch sự cho phù hợp. Ngoài ra, hãy luôn xác định hoạt động thu thập dữ liệu của bạn bằng thông tin liên hệ trong Tác nhân người dùng để các trang web có thể bị ảnh hưởng bất lợi bởi hoạt động thu thập dữ liệu của bạn có thể liên hệ với bạn hoặc điều chỉnh hành vi máy chủ của họ cho phù hợp.
Tính năng
- Heritrix là phần mềm miễn phí; bạn có thể phân phối lại và/hoặc sửa đổi nó theo các điều khoản của Giấy phép Apache, Phiên bản 2.0
- Heritrix được thiết kế để tôn trọng các chỉ thị loại trừ robots.txt† và thẻ META nofollow
- Luôn xác định việc thu thập dữ liệu của bạn bằng thông tin liên hệ trong Tác nhân người dùng
- Mã nguồn mở, có thể mở rộng, quy mô web
- Dự án trình thu thập dữ liệu web chất lượng lưu trữ
- Heritrix chủ yếu được sử dụng trên Linux
Ngôn ngữ lập trình
Java
Danh Mục
Đây là một ứng dụng cũng có thể được tìm nạp từ https://sourceforge.net/projects/heritrix.mirror/. Nó đã được lưu trữ trong OnWorks để có thể chạy trực tuyến theo cách dễ dàng nhất từ một trong các Hệ điều hành miễn phí của chúng tôi.