นี่คือคำสั่ง langidentp ที่สามารถเรียกใช้ในผู้ให้บริการโฮสต์ฟรีของ OnWorks โดยใช้หนึ่งในเวิร์กสเตชันออนไลน์ฟรีของเรา เช่น Ubuntu Online, Fedora Online, โปรแกรมจำลองออนไลน์ของ Windows หรือโปรแกรมจำลองออนไลน์ของ MAC OS
โครงการ:
ชื่อ
langident - ระบุไฟล์ภาษาที่เขียนใน
เรื่องย่อ
แลงเจนต์ [ตัวเลือก] file1 [file2 ...]
DESCRIPTION
ระบุไฟล์ภาษาที่เขียนโดยใช้โมดูล Perl Lingua::Identify
OPTIONS
-a
แสดงผลลัพธ์ทั้งหมด (ไม่ใช่แค่ภาษาที่น่าจะเป็นไปได้มากที่สุด)
-c
แสดงระดับความมั่นใจสำหรับภาษาที่น่าจะเป็นไปได้มากที่สุด (มันจะเป็นค่าแรกทันทีหลังจาก
ภาษาที่น่าจะเป็นไปได้มากที่สุด)
-d
ดีบัก (เฉพาะการพัฒนาเท่านั้น)
-E การเข้ารหัส
เลือกการเข้ารหัสอินพุต ค่าเริ่มต้นเป็น UTF-8
# ใช้ ISO-8859-1 (ละติน1)
แลงจิเดนท์ -E ISO-8859-1 ไฟล์
-e วิธี
เลือกวิธีการที่จะใช้ มีสามวิธีในการทำเช่นนี้:
#เพียงใช้วิธี
แลงจิเดนท์ -e ngrams3 ไฟล์
# โดยใช้หลายวิธี (คั่นด้วยเครื่องหมายจุลภาค)
langident -e คำนำหน้า3,คำต่อท้าย3
# ใช้หลายวิธีและกำหนดน้ำหนักที่แตกต่างกันให้กับแต่ละวิธี
langident -e คำเล็ก = 2 คำนำหน้า = 1 ngrams3 = 1.3
วิธีการที่มีอยู่มีดังต่อไปนี้: คำเล็ก, คำนำหน้า1, คำนำหน้า2, คำนำหน้า3,
คำนำหน้า4, คำต่อท้าย1, คำต่อท้าย2, คำต่อท้าย3, คำต่อท้าย4, แกรม1, แกรม2, แกรม3 และ
แกรม4.
-h
แสดงข้อความช่วยเหลือและออก
-l
แสดงรายการภาษาที่มีอยู่ทั้งหมดและออก
-m จำนวน
กำหนดจำนวนผลลัพธ์สูงสุด (ภาษา) ที่จะแสดง (แสดง N ภาษาที่น่าจะเป็นมากที่สุด
โดยเรียงลำดับความน่าจะเป็นจากมากไปน้อย)
แทนที่สวิตช์ -a
-o ภาษา
ใช้งานได้กับภาษาที่ระบุเท่านั้น
# ระบุระหว่างภาษาโปรตุเกสและภาษาอังกฤษเท่านั้น
แลงจิเดนท์ -o pt,en *
-p
แสดงเปอร์เซ็นต์ด้วย
-s ขนาด
ขนาดสูงสุดที่จะตรวจสอบ
-v
แสดงเวอร์ชันและออก
ตัวอย่าง
ใช้เมธอด ngrams2 และ ngrams1 โดยกำหนดความสำคัญเป็นสองเท่าให้กับ ngrams2 (-e
สวิตซ์); เอาต์พุตจะรวมสามภาษาที่น่าจะเป็นไปได้มากที่สุด (-m สวิตช์) ด้วย
เปอร์เซ็นต์ (สวิตช์ -p) และระดับความมั่นใจ (สวิตช์ -c) ของผลลัพธ์แรก
$ อ่อนแอ -e ngrams2=2,ngrams1 -c -p -m 3 README
อ่าน: en 65.7209505939491 7.8971987481393 ga 4.11905889385895 tr 4.08487011400505
$
TO DO
· เพิ่มสวิตช์เพื่อละเว้นแท็ก HTML (และอาจเป็นรูปแบบอื่นด้วย)
ใช้ langidentp ออนไลน์โดยใช้บริการ onworks.net