これはCrawl4AIというLinuxアプリで、最新リリースはReleasev0.7.4sourcecode.tar.gzとしてダウンロードできます。ワークステーション向けの無料ホスティングプロバイダーであるOnWorksでオンラインで実行できます。
Crawl4AI with OnWorks というアプリを無料でダウンロードしてオンラインで実行します。
このアプリを実行するには、次の手順に従ってください。
-1。このアプリケーションをPCにダウンロードしました。
--2。ファイルマネージャーhttps://www.onworks.net/myfiles.php?username=XXXXXに必要なユーザー名を入力します。
-3。このアプリケーションをそのようなファイルマネージャにアップロードします。
-4。このWebサイトからOnWorksLinuxオンラインまたはWindowsオンラインエミュレーターまたはMACOSオンラインエミュレーターを起動します。
-5。起動したばかりのOnWorksLinux OSから、必要なユーザー名でファイルマネージャーhttps://www.onworks.net/myfiles.php?username=XXXXXにアクセスします。
-6。アプリケーションをダウンロードし、インストールして実行します。
スクリーンショットは
Ad
クロール4AI
DESCRIPTION
Crawl4AIは、LLMデータ取り込みとRAGパイプライン向けにカスタマイズされた、高性能でAI対応のウェブクローラーです。十分な情報が収集された時点で停止する適応型クロールヒューリスティック、構造化されたマークダウン出力、高速並列実行をサポートしています。オプションのDockerデプロイメントとフレームワーク統合により、大規模運用にも対応します。
オプション
- コンテキストが十分であれば停止する適応型 AI 対応クロール
- LLMパイプラインに取り込むためのクリーンなMarkdownを出力する
- CSS/XPathまたはLLM支援方式を使用して構造化データを抽出します
- プロキシ、ステルスモード、セッション、フック、認証をサポート
- Python API を使用した高性能な並列非同期クロール
- pip または Docker 経由でデプロイ可能で、積極的にメンテナンスされています
プログラミング言語
Python
カテゴリー
このアプリケーションは、https://sourceforge.net/projects/crawl4ai.mirror/ からも入手できます。OnWorks でホストされているため、無料のオペレーティングシステムから最も簡単にオンラインで実行できます。