זוהי הפקודה langidentp שניתן להפעיל בספק האירוח החינמי של OnWorks באמצעות אחת מתחנות העבודה המקוונות המרובות שלנו, כגון Ubuntu Online, Fedora Online, אמולטור מקוון של Windows או אמולטור מקוון של MAC OS
תָכְנִית:
שֵׁם
langident - מזהה את קובצי השפה שנכתבו בהם
תַקצִיר
langident [אופציות] file1 [file2 ...]
תיאור
מזהה את קבצי השפה שנכתבו באמצעות מודול Perl Lingua::Identify.
אפשרויות
-a
הצג את כל התוצאות (לא רק את השפה הסבירה ביותר).
-c
הצג רמת ביטחון עבור השפה הסבירה ביותר (זה יהיה הערך הראשון מיד לאחר מכן
השפה הסבירה ביותר).
-d
איתור באגים (פיתוח בלבד).
-E הַצפָּנָה
בחר קידוד קלט. ברירת המחדל היא UTF-8.
# השתמש ב-ISO-8859-1 (latin1)
קובץ langident -E ISO-8859-1
-e שיטות
בחר את השיטה/ים לשימוש. ישנן שלוש דרכים לעשות זאת:
# פשוט באמצעות שיטה
קובץ langident -e ngrams3
# באמצעות מספר שיטות (הפרד אותן בפסיק)
langident -e קידומות3,סיומות3
# באמצעות מספר שיטות והקצו משקלים שונים לכל אחת מהן
langident -e smallwords=2, prefixes=1,ngrams3=1.3
השיטות הזמינות הן הבאות: מילים קטנות, קידומות 1, קידומות 2, קידומות 3,
קידומות 4, סיומות 1, סיומות 2, סיומות 3, סיומות 4, ngrams1, ngrams2, ngrams3 ו
ngrams4.
-h
הצג הודעת עזרה וצא.
-l
רשום את כל השפות הזמינות וצא.
-m מספר
הגדר את המספר המרבי של תוצאות (שפות) להצגה (מציג את N השפות הסבירות ביותר,
לפי סדר הסתברות יורד).
עוקף את המתג -a.
-o שפות
עבוד רק עם שפות שצוינו.
# זהה בין פורטוגזית לאנגלית בלבד
langident -o pt,en *
-p
הצג גם אחוזים.
-s גודל
גודל מקסימלי לבדיקה.
-v
הצג גרסה וצא.
דוגמאות
השתמש בשיטות ngrams2 ו-ngrams1, הקצה את כפול החשיבות ל-ngrams2 (-e
החלף); הפלט יכלול את שלוש השפות הסבירות ביותר (מתג-m) עם שלה
אחוזים (מתג-p) וגם רמת הביטחון (מתג-c) של התוצאה הראשונה.
$ langident -e ngrams2=2,ngrams1 -c -p -m 3 README
README:en 65.7209505939491 7.8971987481393 ga 4.11905889385895 tr 4.08487011400505
$
ל DO
· הוסף מתג כדי להתעלם מתגי HTML (ואולי גם פורמטים אחרים)
השתמש ב-langidentp באינטרנט באמצעות שירותי onworks.net