这是名为 WebCorpus 的 Linux 应用程序,其最新版本可以作为 webcorpus-1.0.1.jar 下载。 它可以在工作站的免费托管服务提供商 OnWorks 中在线运行。
使用 OnWorks 免费下载并在线运行这个名为 WebCorpus 的应用程序。
请按照以下说明运行此应用程序:
- 1. 在您的 PC 中下载此应用程序。
- 2. 在我们的文件管理器 https://www.onworks.net/myfiles.php?username=XXXXX 中输入您想要的用户名。
- 3. 在这样的文件管理器中上传这个应用程序。
- 4. 从此网站启动OnWorks Linux online 或Windows online emulator 或MACOS online emulator。
- 5. 从您刚刚启动的 OnWorks Linux 操作系统,使用您想要的用户名转到我们的文件管理器 https://www.onworks.net/myfiles.php?username=XXXXX。
- 6. 下载应用程序,安装并运行。
SCREENSHOTS
Ad
网络语料库
商品描述
WebCorpus 是一个基于 Hadoop 的框架,使您能够计算从网络爬行中提取的大型网络语料库的统计信息。特性
- 使用 Apache Hadoop 对大小为多 GB 或 TB 的文本语料库进行语言处理
- 提取和计算句子、单词 n-gram(有或没有 POS 标签)和共现
- 读取流行的网络抓取格式(ARC 和 WARC)
- 按语言、重复 URL、重复内容和编码错误过滤输入数据
- 可以通过基于自定义 UIMA 注释的进一步语言计数进行扩展
程式语言
爪哇岛
这是一个也可以从 https://sourceforge.net/projects/webcorpus/ 获取的应用程序。 它已托管在 OnWorks 中,以便从我们的免费操作系统之一以最简单的方式在线运行。