これは、Heritrix:Internet Archive Web Crawlerという名前のLinuxアプリであり、最新リリースはheritrix-1.8.0.jarとしてダウンロードできます。 ワークステーション用の無料ホスティングプロバイダーOnWorksでオンラインで実行できます。
Heritrixという名前のこのアプリをオンラインでダウンロードして実行します:OnWorksを使用したインターネットアーカイブWebクローラーを無料でダウンロードします。
このアプリを実行するには、次の手順に従ってください。
-1。このアプリケーションをPCにダウンロードしました。
--2。ファイルマネージャーhttps://www.onworks.net/myfiles.php?username=XXXXXに必要なユーザー名を入力します。
-3。このアプリケーションをそのようなファイルマネージャにアップロードします。
-4。このWebサイトからOnWorksLinuxオンラインまたはWindowsオンラインエミュレーターまたはMACOSオンラインエミュレーターを起動します。
-5。起動したばかりのOnWorksLinux OSから、必要なユーザー名でファイルマネージャーhttps://www.onworks.net/myfiles.php?username=XXXXXにアクセスします。
-6。アプリケーションをダウンロードし、インストールして実行します。
Heritrix:インターネットアーカイブWebクローラー
Ad
DESCRIPTION
アーカイブクローラープロジェクトは、Heritrixを構築しています。これは、インターネットにアクセス可能なコンテンツの多様性と幅を完全に取得、アーカイブ、分析できる、柔軟で拡張性があり、堅牢でスケーラブルなWebクローラーです。オプション
- ウェブサイトのコンテンツを深く徹底的に収集します
- 任意のJavaプラットフォームで動作します(Linuxを推奨)
- コンテンツをARCまたはISOWARCの集計/トランスクリプト形式で保存します
- オペレーターによるクロールの制御と監視のためのWebインターフェース
Audience
高度なエンドユーザー、開発者、教育、政府、情報技術、非営利団体
ユーザーインターフェース
ウェブベースの
プログラミング言語
Java
データベース環境
バークレー/スリーピーキャット/ Gdbm(DBM)
これは、https://sourceforge.net/projects/archive-crawler/からも取得できるアプリケーションです。 無料のオペレーティングシステムのXNUMXつから最も簡単な方法でオンラインで実行するために、OnWorksでホストされています。