GoGPT Best VPN GoSearch

온웍스 파비콘

CC-Net download for Linux

Free download CC-Net Linux app to run online in Ubuntu online, Fedora online or Debian online

This is the Linux app named CC-Net whose latest release can be downloaded as cc_net1.0.0sourcecode.tar.gz. It can be run online in the free hosting provider OnWorks for workstations.

Download and run online this app named CC-Net with OnWorks for free.

이 앱을 실행하려면 다음 지침을 따르세요.

- 1. 이 애플리케이션을 PC에 다운로드했습니다.

- 2. 파일 관리자 https://www.onworks.net/myfiles.php?username=XXXXX에 원하는 사용자 이름을 입력합니다.

- 3. 이러한 파일 관리자에서 이 응용 프로그램을 업로드합니다.

- 4. 이 웹사이트에서 OnWorks Linux 온라인 또는 Windows 온라인 에뮬레이터 또는 MACOS 온라인 에뮬레이터를 시작합니다.

- 5. 방금 시작한 OnWorks Linux OS에서 원하는 사용자 이름으로 파일 관리자 https://www.onworks.net/myfiles.php?username=XXXXX로 이동합니다.

- 6. 응용 프로그램을 다운로드하여 설치하고 실행합니다.

스크린 샷

Ad


CC-넷


기술

cc_net provides tools to download, segment, clean, and filter Common Crawl to build large-scale text corpora, including monolingual datasets and the multilingual CC-100 collection introduced in the associated paper. It includes pipelines to fetch snapshots, extract text, de-duplicate, identify language, and apply quality filtering based on heuristics and language models. The outputs are intended for pretraining language models and for creating standardized corpora that can be reproduced or updated with new crawls. The repository documents practical concerns like HTTP failures, snapshot differences, and stats JSONs, reflecting community use across many languages. While powerful, the repo has been archived and is read-only, so users should expect to run it as-is or fork for maintenance. Even in archived state, issues and releases pages remain useful references for implementation details and dataset lineage.



기능

  • End-to-end Common Crawl download and extraction
  • Language identification and monolingual segmentation
  • Quality filtering and de-duplication pipelines
  • Support for building multilingual datasets like CC-100
  • Reproducible statistics and corpus metadata outputs
  • Scripts and configs for snapshot-by-snapshot processing


프로그래밍 언어

Python


카테고리

자연 언어 처리 (NLP)

This is an application that can also be fetched from https://sourceforge.net/projects/cc-net.mirror/. It has been hosted in OnWorks in order to be run online in an easiest way from one of our free Operative Systems.


무료 서버 및 워크스테이션

Windows 및 Linux 앱 다운로드

Linux 명령

Ad




×
광고
❤️여기에서 쇼핑, 예약, 구매하세요. 비용이 들지 않아 서비스를 무료로 유지하는 데 도움이 됩니다.