Jest to polecenie langidentp, które można uruchomić u dostawcy bezpłatnego hostingu OnWorks przy użyciu jednej z naszych wielu bezpłatnych stacji roboczych online, takich jak Ubuntu Online, Fedora Online, emulator online systemu Windows lub emulator online systemu MAC OS
PROGRAM:
IMIĘ
langident - identyfikuje język, w jakim zapisano pliki
STRESZCZENIE
langident [OPCJE] plik1 [plik2 ...]
OPIS
Identyfikuje pliki językowe, w których zapisano przy użyciu modułu Perla Lingua::Identify.
OPCJE
-a
Pokaż wszystkie wyniki (nie tylko najbardziej prawdopodobny język).
-c
Pokaż poziom pewności dla najbardziej prawdopodobnego języka (będzie to pierwsza wartość zaraz po
najbardziej prawdopodobny język).
-d
Debugowanie (tylko programowanie).
-E KODOWANIE
Wybierz kodowanie wejściowe. Domyślnie jest to UTF-8.
# użyj ISO-8859-1 (latin1)
langident -E plik ISO-8859-1
-e METODY
Wybierz metody, których chcesz użyć. Można to zrobić na trzy sposoby:
# po prostu używając metody
plik langident -engrams3
# używając kilku metod (oddziel je przecinkiem)
langident -e przedrostki3, przyrostki3
# stosując kilka metod i przypisując każdej z nich inną wagę
langident -e smallwords=2,prefixes=1,ngrams3=1.3
Dostępne metody są następujące: małe słowa, przedrostki 1, przedrostki 2, przedrostki 3,
przedrostki 4, przyrostki 1, przyrostki 2, przyrostki 3, przyrostki 4, ngramy1, ngramy2, ngramy3 i
ngramy4.
-h
Wyświetl komunikat pomocy i wyjdź.
-l
Wyświetl listę wszystkich dostępnych języków i wyjdź.
-m LICZBA
Ustaw maksymalną liczbę wyników (języków) do wyświetlenia (pokazuje N najbardziej prawdopodobnych języków,
w malejącej kolejności prawdopodobieństwa).
Zastępuje przełącznik -a.
-o JĘZYKI
Działa tylko z określonymi językami.
# Rozróżnij tylko portugalski i angielski
langident -o pt,en *
-p
Pokaż też procenty.
-s ROZMIAR
Maksymalny rozmiar do sprawdzenia.
-v
Pokaż wersję i wyjdź.
PRZYKŁADY
Użyj metod ngrams2 i ngrams1, przypisując podwójną wagę ngrams2 (-e
przełącznik); dane wyjściowe będą zawierać trzy najbardziej prawdopodobne języki (przełącznik -m) wraz z ich
wartości procentowe (przełącznik -p), a także poziom ufności (przełącznik -c) pierwszego wyniku.
$ langident -e ngrams2=2,ngrams1 -c -p -m 3 README
README: en 65.7209505939491 7.8971987481393 ga 4.11905889385895 tr 4.08487011400505
$
DO DO
· Dodaj przełącznik, aby ignorować tagi HTML (a może także inne formaty)
Użyj langidentp online, korzystając z usług onworks.net