这是名为 CC-Net 的 Linux 应用程序,其最新版本可以下载为 cc_net1.0.0sourcecode.tar.gz。它可以在免费的工作站托管服务提供商 OnWorks 上在线运行。
免费下载并在线运行名为 CC-Net with OnWorks 的应用程序。
请按照以下说明运行此应用程序:
- 1. 在您的 PC 中下载此应用程序。
- 2. 在我们的文件管理器 https://www.onworks.net/myfiles.php?username=XXXXX 中输入您想要的用户名。
- 3. 在这样的文件管理器中上传这个应用程序。
- 4. 从此网站启动OnWorks Linux online 或Windows online emulator 或MACOS online emulator。
- 5. 从您刚刚启动的 OnWorks Linux 操作系统,使用您想要的用户名转到我们的文件管理器 https://www.onworks.net/myfiles.php?username=XXXXX。
- 6. 下载应用程序,安装并运行。
SCREENSHOTS
Ad
CC网络
商品描述
cc_net 提供下载、分段、清理和过滤 Common Crawl 的工具,用于构建大规模文本语料库,包括单语数据集和相关论文中介绍的多语种 CC-100 数据集。它包含用于获取快照、提取文本、去重、识别语言以及基于启发式算法和语言模型应用质量过滤的管道。输出用于预训练语言模型以及创建可通过新抓取数据复制或更新的标准化语料库。该存储库记录了 HTTP 故障、快照差异和统计 JSON 等实际问题,反映了社区在多种语言中的使用情况。尽管功能强大,但该存储库已被存档且为只读状态,因此用户应按原样运行或进行分叉以进行维护。即使在存档状态下,问题和发布页面仍然是实现细节和数据集沿袭的有用参考。
功能
- 端到端 Common Crawl 下载和提取
- 语言识别和单语分割
- 质量过滤和重复数据删除管道
- 支持构建 CC-100 等多语言数据集
- 可重复的统计数据和语料库元数据输出
- 逐个快照处理的脚本和配置
程式语言
Python
分类
此应用程序也可从 https://sourceforge.net/projects/cc-net.mirror/ 获取。它已托管在 OnWorks 中,以便通过我们的免费操作系统之一以最便捷的方式在线运行。