זוהי אפליקציית לינוקס בשם CC-Net, שאת הגרסה האחרונה שלה ניתן להוריד כ-cc_net1.0.0sourcecode.tar.gz. ניתן להריץ אותה באופן מקוון בספק האירוח החינמי OnWorks לתחנות עבודה.
הורד והפעל אונליין את האפליקציה הזו בשם CC-Net עם OnWorks בחינם.
בצע את ההוראות הבאות כדי להפעיל את האפליקציה הזו:
- 1. הורד את היישום הזה למחשב שלך.
- 2. הזן במנהל הקבצים שלנו https://www.onworks.net/myfiles.php?username=XXXXX עם שם המשתמש שאתה רוצה.
- 3. העלה את היישום הזה במנהל קבצים כזה.
- 4. הפעל את האמולטור המקוון של OnWorks Linux או Windows מקוון או אמולטור מקוון של MACOS מאתר זה.
- 5. ממערכת ההפעלה OnWorks Linux שזה עתה התחלת, עבור אל מנהל הקבצים שלנו https://www.onworks.net/myfiles.php?username=XXXXX עם שם המשתמש הרצוי.
- 6. הורד את האפליקציה, התקן אותה והפעל אותה.
צילומי מסך:
CC-נט
תיאור:
cc_net מספק כלים להורדה, פילוח, ניקוי וסינון של Common Crawl כדי לבנות קורפוסים טקסט בקנה מידה גדול, כולל מערכי נתונים חד-לשוניים ואוסף CC-100 הרב-לשוני שהוצג במאמר הנלווה. הוא כולל צינורות לאחזור תמונות, חילוץ טקסט, ביטול כפילויות, זיהוי שפה ויישום סינון איכות המבוסס על היוריסטיקות ומודלים של שפה. הפלטים מיועדים לאימון מוקדם של מודלים של שפה וליצירת קורפוסים סטנדרטיים שניתן לשכפל או לעדכן עם סריקות חדשות. המאגר מתעד חששות מעשיים כמו כשלים ב-HTTP, הבדלי תמונות ו-JSON של סטטיסטיקות, המשקפים את השימוש הקהילתי בשפות רבות. למרות היותו עוצמתי, המאגר הועבר לארכיון והוא לקריאה בלבד, כך שמשתמשים צריכים לצפות להריץ אותו כפי שהוא או לפרק אותו לצורך תחזוקה. גם במצב ארכיון, דפי בעיות ומהדורות נותרים מקורות שימושיים לפרטי יישום ולשורש מערך הנתונים.
תכונות
- הורדה וחילוץ מקצה לקצה של Common Crawl
- זיהוי שפה ופילוח חד-לשוני
- סינון איכותי וצינורות ביטול כפילויות
- תמיכה בבניית מערכי נתונים רב-לשוניים כמו CC-100
- סטטיסטיקות ניתנות לשחזור ופלט מטא-דאטה של קורפוס
- סקריפטים ותצורות לעיבוד תמונה אחר תמונה
שפת תכנות
פיתון
כל הקטגוריות
זוהי אפליקציה שניתן להוריד גם מאתר https://sourceforge.net/projects/cc-net.mirror/. היא אוחסנה ב-OnWorks על מנת שניתן יהיה להפעיל אותה באופן מקוון בצורה הקלה ביותר מאחת ממערכות ההפעלה החינמיות שלנו.