CC-Net download para sa Linux

Ito ang Linux app na pinangalanang CC-Net na ang pinakabagong release ay maaaring ma-download bilang cc_net1.0.0sourcecode.tar.gz. Maaari itong patakbuhin online sa libreng hosting provider na OnWorks para sa mga workstation.

 
 

I-download at patakbuhin online ang app na ito na pinangalanang CC-Net na may OnWorks nang libre.

Sundin ang mga tagubiling ito upang patakbuhin ang app na ito:

- 1. Na-download ang application na ito sa iyong PC.

- 2. Ipasok sa aming file manager https://www.onworks.net/myfiles.php?username=XXXXX kasama ang username na gusto mo.

- 3. I-upload ang application na ito sa naturang filemanager.

- 4. Simulan ang OnWorks Linux online o Windows online emulator o MACOS online emulator mula sa website na ito.

- 5. Mula sa OnWorks Linux OS na kasisimula mo pa lang, pumunta sa aming file manager https://www.onworks.net/myfiles.php?username=XXXX gamit ang username na gusto mo.

- 6. I-download ang application, i-install ito at patakbuhin ito.

MGA SCREENSHOT:


CC-Net


DESCRIPTION:

Nagbibigay ang cc_net ng mga tool upang i-download, i-segment, linisin, at i-filter ang Common Crawl upang bumuo ng malakihang text corpora, kabilang ang mga monolingual na dataset at ang multilingguwal na koleksyon ng CC-100 na ipinakilala sa nauugnay na papel. Kabilang dito ang mga pipeline para kumuha ng mga snapshot, mag-extract ng text, mag-de-duplicate, matukoy ang wika, at maglapat ng kalidad ng pag-filter batay sa heuristics at mga modelo ng wika. Ang mga output ay inilaan para sa pretraining na mga modelo ng wika at para sa paglikha ng standardized corpora na maaaring kopyahin o i-update gamit ang mga bagong pag-crawl. Ang repository ay nagdodokumento ng mga praktikal na alalahanin tulad ng HTTP failures, snapshot differences, at stats JSONs, na sumasalamin sa paggamit ng komunidad sa maraming wika. Bagama't makapangyarihan, ang repo ay na-archive at read-only, kaya dapat asahan ng mga user na patakbuhin ito kung ano-ano o tinidor para sa pagpapanatili. Kahit na nasa naka-archive na estado, ang mga isyu at release na pahina ay nananatiling kapaki-pakinabang na mga sanggunian para sa mga detalye ng pagpapatupad at linya ng dataset.



Mga tampok

  • End-to-end Common Crawl download at extraction
  • Pagkakakilanlan ng wika at monolingual na segmentasyon
  • De-kalidad na filtering at de-duplication pipelines
  • Suporta para sa pagbuo ng mga multilingual na dataset tulad ng CC-100
  • Mga reproducible na istatistika at mga output ng corpus metadata
  • Mga script at config para sa pagproseso ng snapshot-by-snapshot


Wika ng Programming

Sawa


Kategorya

Natural Language Processing (NLP)

Ito ay isang application na maaari ding makuha mula sa https://sourceforge.net/projects/cc-net.mirror/. Na-host ito sa OnWorks upang mapatakbo online sa pinakamadaling paraan mula sa isa sa aming mga libreng Operative System.



Pinakabagong Linux at Windows online na mga programa


Mga kategorya upang i-download ang Software at Mga Programa para sa Windows at Linux