Это команда timbl, которую можно запустить в бесплатном хостинг-провайдере OnWorks, используя одну из наших многочисленных бесплатных онлайн-рабочих станций, таких как Ubuntu Online, Fedora Online, онлайн-эмулятор Windows или онлайн-эмулятор MAC OS.
ПРОГРАММА:
ИМЯ
timbl - Тилбургский ученик, основанный на памяти
СИНОПСИС
тимбл [параметры]
timbl -f файл данных -t тестовый файл
ОПИСАНИЕ
TiMBL - это программный пакет с открытым исходным кодом, реализующий несколько методов обучения на основе памяти.
алгоритмы, среди которых IB1-IG, реализация классификации k-ближайших соседей
с функцией взвешивания, подходящей для символьных пространств функций, и IGTree, дерево решений
приближение IB1-IG. Общим для всех реализованных алгоритмов является то, что они хранят некоторые
явное представление обучающей выборки в памяти. Во время тестирования выявляются новые случаи.
классифицированы экстраполяцией из наиболее похожих хранимых случаев.
ДОПОЛНИТЕЛЬНЫЕ ОПЦИИ
-a или -a
определяет алгоритм классификации.
Возможные значения:
0 or IB
алгоритм IB1 (k-NN) (по умолчанию)
1 or ИГТРИ
аппроксимация IB1 на основе дерева решений
2 or ТРИБЛ
гибрид IB1 и IGTREE
3 or IB2
версия инкрементального редактирования IB1
4 or ТРИБЛ2
непараметрическая версия TRIBL
-b n
количество строк, используемых для начальной загрузки (только IB2)
-B n
количество бинов, используемых для дискретизации числовых значений признаков
--Лучзнак равно
limit + v вывод базы данных на n классов с наивысшим голосом
--клонызнак равно
количество f потоков для параллельного тестирования
-c n
частота отсечения для предварительного сохранения матриц MVDM
+D
хранить дистрибутивы на всех узлах (необходимо для использования + v db с IGTree, но тратит впустую)
память в противном случае)
- Диверсифицируйте
изменить вес (см. документацию)
-d волна
взвесить соседей в зависимости от их расстояния:
Z: одинаковый вес для всех (по умолчанию)
ID: обратное расстояние
IL: обратный линейный
ED: a: Экспоненциальный спад с коэффициентом a (без пробелов!)
ED: a: b: Экспоненциальный спад с коэффициентами a и b (без пробелов!)
-e n
оцените время, пока не будут протестированы n шаблонов
-f файл
читать из файла данных 'file' ИЛИ использовать имена файлов из 'file' для перекрестной проверки
-F формат
предполагать указанный формат ввода (компактный, C4.5, ARFF, столбцы, двоичный, разреженный)
-G нормализация
нормализовать распределения (только опция + v db)
Поддерживаемые нормализации:
Вероятность or 0
нормализовать от 0 до 1
добавитьфактор: или 1:
добавьте f ко всем возможным целям, затем нормализуйте от 0 до 1 (по умолчанию f = 1.0).
logProbability or 2
Добавьте 1 к целевому весу, возьмите 10Log и затем нормализуйте от 0 до 1.
+H or -H
писать хешированные деревья (по умолчанию + H)
-i файл
читать InstanceBase из 'файла' (пропускает этапы 1 и 2)
-I файл
выгрузить InstanceBase в 'файл'
-k n
поиск n ближайших соседей (по умолчанию n = 1)
-L n
установить пороговое значение частоты для возврата от MVDM к перекрытию на уровне n
-l n
фиксированная длина значения функции (только в компактном формате)
-m string
используйте метрики функций, как указано в строке:
Формат: GlobalMetric: MetricRange: MetricRange.
например: mO: N3: I2,5-7
C: косинусное расстояние. (Только глобальные. Подразумеваются числовые функции)
D: скалярное произведение. (Только глобальные. Подразумеваются числовые функции)
DC: коэффициент кубика
O: взвешенное перекрытие (по умолчанию)
E: Евклидово расстояние
L: расстояние Левенштейна
M: модифицированная разница значений
J: расхождение Джеффри
S: расхождение Дженсена-Шеннона
N: числовые значения
I: игнорировать именованные значения
--матриксин= файл
читать матрицы ValueDifference из файла 'file'
--matrixout= файл
сохранить матрицы ValueDifference в 'файле'
-n файл
создать файл имен в стиле C4.5 'file'
-M n
размер массива MaxBests
-N n
количество функций (по умолчанию 2500)
-o s
использовать s как имя выходного файла
--возникновениязнак равно
Входной файл содержит количество вхождений (в последней позиции), значение может быть равным единице.
о: поезд , тест or и
-O путь
сохранить вывод, используя "путь"
-p n
показывать прогресс каждые n строк (по умолчанию p = 100,000)
-P путь
читать данные, используя "путь"
-q n
установить порог TRIBL на уровне n
-R n
решить связи случайным образом с семенем n
-s
использовать веса экземпляров из входного файла
-s0
игнорировать веса экземпляров из входного файла
-T n
используйте функцию n в качестве метки класса. (по умолчанию: последняя функция)
-t файл
тест с использованием файла
-t Leave_one_out
Тест с режимом одноразового тестирования (только IB1). вы можете добавить --sloppy к
ускорить одноразовое тестирование (но см. документацию)
-t cross_validate
выполнить перекрестный проверочный тест (только IB1)
-t @файл
тест с использованием файлов и опций, описанных в 'файле' Поддерживаемые опции: de F kmopq
R tuvwx% -
--Деревозаказ = значение n
упорядочивание Дерева:
ДЕЛАТЬ: нет
GRO: использование коэффициента усиления
IGO: использование InformationGain
1 / V: с использованием 1 / # значений
G / V: с использованием коэффициента усиления / количества ценности
I / V: с использованием InfoGain / # of Valuess
X2O: используя X-квадрат
X / V: с использованием X-квадрата / количества значений
SVO: использование общей дисперсии
S / V: с использованием общей дисперсии / количества значений
GxE: использование GainRatio * SplitInfo
IxE: использование InformationGain * SplitInfo
1 / S: с использованием 1 / SplitInfo
-u файл
читать вероятности класса значений из 'файла'
-U файл
сохранить вероятности класса значений в 'файле'
-V
Показать ВЕРСИЮ
+v уровень или -v уровень
установить или отключить уровень детализации, где уровень:
s: работать бесшумно
o: показать все установленные параметры
b: показать количество узлов / ветвей и фактор ветвления
f: показать рассчитанные веса объектов (по умолчанию)
p: показать матрицы разницы значений
e: показать точные совпадения
как: показать расширенную статистику (потребление памяти)
cm: показать матрицу путаницы (подразумевает + vas)
cs: показать статистику по классам (подразумевает + vas)
cf: добавить уверенности в выходной файл (требуется -G)
di: добавить расстояние к выходному файлу
db: добавить дистрибутив наилучшего соответствия в выходной файл
md: добавить глубину соответствия в выходной файл.
k: добавить сводку для всех k соседей в выходной файл (устанавливает -x)
n: добавить ближайших соседей в выходной файл (устанавливает -x)
Вы можете комбинировать уровни, используя '+', например, + v p + db или -v o + di
-w n
взвешивание
0 или nw: без взвешивания
1 или гр: взвешивание с использованием коэффициента усиления (по умолчанию)
2 или ig: взвешивание с использованием информации
3 или x2: взвесьте с использованием статистики хи-квадрат
4 или sv: взвешивание с использованием общей статистики дисперсии
5 или стандартное отклонение: взвешивание с использованием стандартного отклонения. (все функции должны быть числовыми)
-w файл
читать веса из "файла"
-w файл: n
читать вес n из 'файла'
-W файл
рассчитать и сохранить все веса в файле
+% or -%
сохранять или не сохранять результат теста (%) в файл
+x or -x
использовать или не использовать ярлык точного соответствия
(Только IB1 и IB2, по умолчанию -x)
-X файл
дамп InstanceBase как XML в 'файле'
Используйте timbl онлайн с помощью сервисов onworks.net