Это команда langidentp, которую можно запустить в бесплатном хостинг-провайдере OnWorks, используя одну из наших многочисленных бесплатных онлайн-рабочих станций, таких как Ubuntu Online, Fedora Online, онлайн-эмулятор Windows или онлайн-эмулятор MAC OS.
ПРОГРАММА:
ИМЯ
langident - определяет, на каких языковых файлах написаны
СИНТАКСИС
langident [ОПЦИИ] файл1 [файл2 ...]
ОПИСАНИЕ
Определяет, на каких языковых файлах написаны файлы с использованием Perl-модуля Lingua :: Identify.
ДОПОЛНИТЕЛЬНЫЕ УСЛУГИ, НЕ ВКЛЮЧЕННЫЕ В ПАКЕТ
-a
Показать все результаты (а не только наиболее вероятный язык).
-c
Показать уровень достоверности для наиболее вероятного языка (это будет первое значение сразу после
наиболее вероятный язык).
-d
Отладка (только разработка).
-E КОДИРОВАНИЕ
Выберите кодировку ввода. По умолчанию используется UTF-8.
# используйте ISO-8859-1 (latin1)
langident -E ISO-8859-1 файл
-e МЕТОДЫ
Выберите метод (ы) для использования. Это можно сделать тремя способами:
# просто используя метод
langident -e ngrams3 файл
# используя несколько методов (разделите их запятыми)
langident -e префиксы3, суффиксы3
# используя несколько методов и присвоив каждому из них разный вес
langident -e smallwords = 2, prefixes = 1, ngrams3 = 1.3
Доступны следующие методы: словечки, префиксы1, префиксы2, префиксы3,
префиксы4, суффиксы1, суффиксы2, суффиксы3, суффиксы4, ngram1, ngram2, ngram3 и
ngram4.
-h
Вывести справочное сообщение и выйти.
-l
Перечислите все доступные языки и выйдите.
-m НОМЕР
Установите максимальное количество результатов (языков) для отображения (показывает N наиболее вероятных языков,
по убыванию вероятности).
Переопределяет параметр -a.
-o ЯЗЫКИ
Работайте только с указанными языками.
# только между португальским и английским языками
langident -o pt, en *
-p
Также покажите проценты.
-s РАЗМЕР
Максимальный размер для изучения.
-v
Показать версию и выйти.
ПРИМЕРЫ
Используйте методы ngrams2 и ngrams1, присваивая двойное значение ngrams2 (-e
выключатель); вывод будет включать три наиболее вероятных языка (ключ -m) с его
проценты (переключатель -p), а также уровень достоверности (переключатель -c) первого результата.
$ langident -e ngrams2 = 2, ngrams1 -c -p -m 3 README
README: en 65.7209505939491 7.8971987481393 ga 4.11905889385895 tr 4.08487011400505
$
К DO
· Добавьте переключатель для игнорирования HTML-тегов (и, возможно, других форматов тоже)
Используйте langidentp в Интернете с помощью сервисов onworks.net