CC-Net이라는 리눅스 앱으로, 최신 버전은 cc_net1.0.0sourcecode.tar.gz 파일로 다운로드할 수 있습니다. 워크스테이션용 무료 호스팅 제공업체인 OnWorks에서 온라인으로 실행할 수 있습니다.
CC-Net with OnWorks라는 앱을 무료로 다운로드하여 온라인에서 실행해보세요.
이 앱을 실행하려면 다음 지침을 따르세요.
- 1. 이 애플리케이션을 PC에 다운로드했습니다.
- 2. 파일 관리자 https://www.onworks.net/myfiles.php?username=XXXXX에 원하는 사용자 이름을 입력합니다.
- 3. 이러한 파일 관리자에서 이 응용 프로그램을 업로드합니다.
- 4. 이 웹사이트에서 OnWorks Linux 온라인 또는 Windows 온라인 에뮬레이터 또는 MACOS 온라인 에뮬레이터를 시작합니다.
- 5. 방금 시작한 OnWorks Linux OS에서 원하는 사용자 이름으로 파일 관리자 https://www.onworks.net/myfiles.php?username=XXXXX로 이동합니다.
- 6. 응용 프로그램을 다운로드하여 설치하고 실행합니다.
스크린샷:
CC-넷
설명 :
cc_net은 Common Crawl을 다운로드, 분할, 정리 및 필터링하여 단일 언어 데이터셋과 관련 논문에서 소개된 다국어 CC-100 컬렉션을 포함한 대규모 텍스트 코퍼스를 구축하는 도구를 제공합니다. 스냅샷 가져오기, 텍스트 추출, 중복 제거, 언어 식별, 휴리스틱 및 언어 모델 기반 고품질 필터링 적용을 위한 파이프라인이 포함되어 있습니다. 출력은 언어 모델을 사전 학습하고 새로운 크롤링으로 재현 또는 업데이트할 수 있는 표준화된 코퍼스를 생성하는 데 사용됩니다. 저장소는 HTTP 오류, 스냅샷 차이, 통계 JSON과 같은 실질적인 문제들을 문서화하여 여러 언어에 걸친 커뮤니티의 활용을 반영합니다. 강력한 기능을 제공하지만, 저장소는 보관되어 읽기 전용이므로 사용자는 있는 그대로 실행하거나 유지 관리를 위해 포크해야 합니다. 보관된 상태에서도 이슈 및 릴리스 페이지는 구현 세부 정보 및 데이터셋 계보에 대한 유용한 참고 자료로 남아 있습니다.
기능
- 엔드투엔드 Common Crawl 다운로드 및 추출
- 언어 식별 및 단일 언어 세분화
- 품질 필터링 및 중복 제거 파이프라인
- CC-100과 같은 다국어 데이터 세트 구축 지원
- 재현 가능한 통계 및 코퍼스 메타데이터 출력
- 스냅샷별 처리를 위한 스크립트 및 구성
프로그래밍 언어
Python
카테고리
이 애플리케이션은 https://sourceforge.net/projects/cc-net.mirror/에서도 다운로드할 수 있습니다. OnWorks에 호스팅되어 무료 운영 체제 중 하나에서 가장 쉽게 온라인에서 실행할 수 있도록 설계되었습니다.