นี่คือแอป Linux ชื่อ WebCorpus ซึ่งสามารถดาวน์โหลดรุ่นล่าสุดเป็น webcorpus-1.0.1.jar สามารถเรียกใช้ออนไลน์ใน OnWorks ผู้ให้บริการโฮสต์ฟรีสำหรับเวิร์กสเตชัน
ดาวน์โหลดและเรียกใช้แอปนี้ออนไลน์ชื่อ WebCorpus พร้อม OnWorks ฟรี
ทำตามคำแนะนำเหล่านี้เพื่อเรียกใช้แอปนี้:
- 1. ดาวน์โหลดแอปพลิเคชั่นนี้ในพีซีของคุณ
- 2. เข้าไปที่ file manager https://www.onworks.net/myfiles.php?username=XXXXX ด้วยชื่อผู้ใช้ที่คุณต้องการ
- 3. อัปโหลดแอปพลิเคชันนี้ในตัวจัดการไฟล์ดังกล่าว
- 4. เริ่มโปรแกรมจำลองออนไลน์ของ OnWorks Linux หรือ Windows ออนไลน์ หรือโปรแกรมจำลองออนไลน์ MACOS จากเว็บไซต์นี้
- 5. จาก OnWorks Linux OS คุณเพิ่งเริ่มต้น ไปที่ตัวจัดการไฟล์ของเรา https://www.onworks.net/myfiles.php?username=XXXXX พร้อมชื่อผู้ใช้ที่คุณต้องการ
- 6. ดาวน์โหลดแอปพลิเคชั่น ติดตั้ง และเรียกใช้
ภาพหน้าจอ
Ad
Webคลังข้อมูล
DESCRIPTION
WebCorpus เป็นเฟรมเวิร์กที่ใช้ Hadoop ที่ช่วยให้คุณสามารถคำนวณสถิติเกี่ยวกับองค์กรเว็บขนาดใหญ่ที่ดึงมาจากการรวบรวมข้อมูลเว็บคุณสมบัติ
- การประมวลผลทางภาษาของเนื้อความข้อความที่มีขนาดหลาย GB หรือ TB โดยใช้ Apache Hadoop
- แยกและนับประโยค คำ n-grams (มีหรือไม่มี POS-tags) และ cooccurrences
- อ่านรูปแบบการรวบรวมข้อมูลเว็บยอดนิยม (ARC และ WARC)
- กรองข้อมูลที่ป้อนตามภาษา URL ที่ซ้ำกัน เนื้อหาที่ซ้ำกัน และข้อผิดพลาดในการเข้ารหัส
- สามารถขยายได้โดยการนับภาษาเพิ่มเติมตามคำอธิบายประกอบ UIMA ที่กำหนดเอง
ภาษาโปรแกรม
ชวา
นี่คือแอปพลิเคชันที่สามารถดึงข้อมูลจาก https://sourceforge.net/projects/webcorpus/ มีการโฮสต์ใน OnWorks เพื่อให้ทำงานออนไลน์ในวิธีที่ง่ายที่สุดจากหนึ่งในระบบปฏิบัติการฟรีของเรา