นี่คือแอป Linux ชื่อ CC-Net ซึ่งสามารถดาวน์โหลดเวอร์ชันล่าสุดได้ที่ cc_net1.0.0sourcecode.tar.gz สามารถใช้งานออนไลน์ได้บน OnWorks ซึ่งเป็นผู้ให้บริการโฮสติ้งฟรีสำหรับเวิร์กสเตชัน
ดาวน์โหลดและรันแอปชื่อ CC-Net พร้อม OnWorks ออนไลน์ได้ฟรี
ทำตามคำแนะนำเหล่านี้เพื่อเรียกใช้แอปนี้:
- 1. ดาวน์โหลดแอปพลิเคชั่นนี้ในพีซีของคุณ
- 2. เข้าไปที่ file manager https://www.onworks.net/myfiles.php?username=XXXXX ด้วยชื่อผู้ใช้ที่คุณต้องการ
- 3. อัปโหลดแอปพลิเคชันนี้ในตัวจัดการไฟล์ดังกล่าว
- 4. เริ่มโปรแกรมจำลองออนไลน์ของ OnWorks Linux หรือ Windows ออนไลน์ หรือโปรแกรมจำลองออนไลน์ MACOS จากเว็บไซต์นี้
- 5. จาก OnWorks Linux OS คุณเพิ่งเริ่มต้น ไปที่ตัวจัดการไฟล์ของเรา https://www.onworks.net/myfiles.php?username=XXXXX พร้อมชื่อผู้ใช้ที่คุณต้องการ
- 6. ดาวน์โหลดแอปพลิเคชั่น ติดตั้ง และเรียกใช้
ภาพหน้าจอ:
ซีซี-เน็ต
รายละเอียด:
cc_net มีเครื่องมือสำหรับดาวน์โหลด แบ่งส่วน ทำความสะอาด และกรอง Common Crawl เพื่อสร้างคลังข้อมูลข้อความขนาดใหญ่ ซึ่งรวมถึงชุดข้อมูลภาษาเดียวและชุดข้อมูล CC-100 หลายภาษาที่กล่าวถึงในเอกสารที่เกี่ยวข้อง เครื่องมือนี้ประกอบด้วยไปป์ไลน์สำหรับดึงข้อมูลสแนปช็อต แยกข้อความ ลบข้อมูลซ้ำ ระบุภาษา และใช้การกรองคุณภาพตามฮิวริสติกและแบบจำลองภาษา ผลลัพธ์เหล่านี้มีไว้สำหรับการเตรียมแบบจำลองภาษาเบื้องต้น และสำหรับการสร้างคลังข้อมูลมาตรฐานที่สามารถทำซ้ำหรืออัปเดตด้วยการรวบรวมข้อมูลใหม่ได้ คลังข้อมูลนี้บันทึกข้อกังวลในทางปฏิบัติ เช่น ความล้มเหลวของ HTTP ความแตกต่างของสแนปช็อต และสถิติ JSON ซึ่งสะท้อนถึงการใช้งานของชุมชนในหลายภาษา แม้ว่าคลังข้อมูลนี้จะมีประสิทธิภาพ แต่ได้รับการเก็บถาวรและเป็นแบบอ่านอย่างเดียว ดังนั้นผู้ใช้จึงควรคาดหวังที่จะเรียกใช้ตามที่เป็นอยู่หรือฟอร์กเพื่อการบำรุงรักษา แม้ในสถานะที่เก็บถาวร หน้าปัญหาและการเผยแพร่ยังคงเป็นข้อมูลอ้างอิงที่มีประโยชน์สำหรับรายละเอียดการใช้งานและลำดับชั้นของชุดข้อมูล
คุณสมบัติ
- การดาวน์โหลดและการดึงข้อมูล Common Crawl แบบครบวงจร
- การระบุภาษาและการแบ่งกลุ่มภาษาเดียว
- การกรองคุณภาพและการกำจัดข้อมูลซ้ำซ้อน
- รองรับการสร้างชุดข้อมูลหลายภาษาเช่น CC-100
- สถิติที่ทำซ้ำได้และผลลัพธ์เมตาดาต้าของคอร์ปัส
- สคริปต์และการกำหนดค่าสำหรับการประมวลผลแบบสแนปช็อตต่อสแนปช็อต
ภาษาโปรแกรม
หลาม
หมวดหมู่
นี่คือแอปพลิเคชันที่สามารถดึงข้อมูลจาก https://sourceforge.net/projects/cc-net.mirror/ ได้ แอปพลิเคชันนี้โฮสต์อยู่ใน OnWorks เพื่อให้ใช้งานออนไลน์ได้ง่ายที่สุดจากระบบปฏิบัติการฟรีของเรา