هذا هو الأمر langidentp الذي يمكن تشغيله في موفر الاستضافة المجاني OnWorks باستخدام إحدى محطات العمل المجانية المتعددة عبر الإنترنت مثل Ubuntu Online أو Fedora Online أو محاكي Windows عبر الإنترنت أو محاكي MAC OS عبر الإنترنت
برنامج:
اسم
langident - يحدد ملفات اللغة المكتوبة بها
موجز
طويل [خيارات] ملف 1 [ملف 2 ...]
الوصف
يحدد ملفات اللغة المكتوبة باستخدام وحدة Perl Lingua::Identify.
OPTIONS
-a
عرض كافة النتائج (وليس فقط اللغة الأكثر احتمالاً).
-c
أظهر مستوى الثقة للغة الأكثر احتمالاً (ستكون القيمة الأولى بعد ذلك مباشرة
اللغة الأكثر احتمالا).
-d
التصحيح (التطوير فقط).
-E التشفير
حدد ترميز الإدخال. الافتراضي هو UTF-8.
# استخدم ISO-8859-1 (latin1)
ملف طويل -E ISO-8859-1
-e طرق
حدد الطريقة (الطرق) التي تريد استخدامها. هناك ثلاث طرق للقيام بذلك:
# ببساطة باستخدام الطريقة
langident -e ngrams3 الملف
# باستخدام عدة طرق (افصل بينها بفاصلة)
langident -e prefixes3,suffixes3
# استخدام عدة طرق وتخصيص أوزان مختلفة لكل منها
الكلمات الصغيرة الطويلة = 2، البادئات = 1، ngrams3 = 1.3
الطرق المتاحة هي التالية: كلمات صغيرة, البادئات1, البادئات2, البادئات3,
البادئات4, اللواحق1, اللواحق2, اللواحق3, اللواحق4, ngrams1, ngrams2, ngrams3 و
ngrams4.
-h
عرض رسالة المساعدة والخروج.
-l
قائمة بجميع اللغات المتاحة والخروج.
-m عدد
قم بتعيين الحد الأقصى لعدد النتائج (اللغات) لعرضها (يظهر N اللغات الأكثر احتمالاً،
حسب الترتيب التنازلي للاحتمالات).
يتجاوز رمز التبديل -a.
-o LANGUAGES
العمل فقط مع اللغات المحددة.
# التعرف بين البرتغالية والإنجليزية فقط
طويل -o pt,en *
-p
اعرض أيضًا النسب المئوية.
-s SIZE
الحد الأقصى لحجم الفحص.
-v
عرض الإصدار والخروج.
أمثلة
استخدم الطريقتين ngrams2 وngrams1، مع تعيين أهمية مضاعفة لـ ngrams2 (-e
يُحوّل)؛ سيتضمن الإخراج اللغات الثلاث الأكثر احتمالا (مفتاح -m) مع
النسب المئوية (مفتاح -p) وكذلك مستوى الثقة (مفتاح -c) للنتيجة الأولى.
$ langident -e ngrams2=2,ngrams1 -c -p -m 3 التمهيدي
التمهيد: en 65.7209505939491 7.8971987481393 ga 4.11905889385895 tr 4.08487011400505
$
إلى DO
· إضافة مفتاح لتجاهل علامات HTML (وربما التنسيقات الأخرى أيضًا)
استخدم langidentp عبر الإنترنت باستخدام خدمات onworks.net