Це команда tigr-build-icm, яку можна запустити в постачальнику безкоштовного хостингу OnWorks за допомогою однієї з наших численних безкоштовних робочих станцій, таких як Ubuntu Online, Fedora Online, онлайн-емулятор Windows або онлайн-емулятор MAC OS
ПРОГРАМА:
ІМ'Я
tigr-glimmer — Це і виводить інтерпольовану модель Маркова (IMM)
СИНТАКСИС
tigr-build-icm
ОПИС
Програма build-icm.c створює та виводить інтерпольовану модель Маркова (IMM), як описано
у роботі А. Л. Делчер, Д. Хармон, С. Касіф, О. Уайт та С. Л. Зальцберг. Покращено
Ідентифікація мікробного гена за допомогою Glimmer. Дослідження нуклеїнових кислот, 1999, у пресі.
Будь ласка, зверніться до цієї статті, якщо ви використовуєте систему в рамках будь-якого опублікованого дослідження.
Вхідні дані надходять з файлу, названого в командному рядку. Формат має бути по одному рядку
лінія. Кожен рядок має рядок ідентифікатора, за яким слідує пробіл, за яким слідує сама послідовність.
Сценарій run-glimmer3 генерує вхідний файл у правильному форматі за допомогою 'extract'
програми.
IMM будується наступним чином: для даного контексту, скажімо acgtta, ми хочемо оцінити
розподіл ймовірності наступного символу. Зробимо це як лінійне
комбінація спостережуваних розподілів ймовірностей для цього контексту та всіх його
суфікси, тобто cgtta, gtta, tta, ta, a та пустий. Під спостережуваними розподілами я маю на увазі
підрахунок кількості входжень цих рядків у навчальний набір. Лінійний
комбінація визначається набором ймовірностей, лямбда, по одній для кожного контекстного рядка.
Для контексту acgtta коефіцієнти лінійної комбінації є:
лямбда (acgtta) (1 - лямбда (acgtta)) x лямбда (cgtta) (1 - лямбда (acgtta)) x (1 - лямбда
(cgtta)) x лямбда (gtta) (1 - лямбда (acgtta)) x (1 - лямбда (cgtta)) x (1 - лямбда
(gtta)) x лямбда (tta) (1 - лямбда (acgtta)) x (1 - лямбда (cgtta)) x (1 - лямбда (gtta))
x (1 - лямбда (tta)) x (1 - лямбда (ta)) x (1 - лямбда (a))
Ми обчислюємо значення лямбда для кожного контексту наступним чином: - Якщо кількість спостережень
у навчальному наборі є >= константа SAMPLE_SIZE_BOUND, лямбда для цього контексту є
1.0 - В іншому випадку виконайте тест хі-квадрат на спостережень для цього контексту порівняно з
розповсюдження, передбачене для контексту суфікса з коротким одним символом. Якщо хі-квадрат
значення < 0.5, встановіть лямбду для цього контексту на 0.0 В іншому випадку встановіть лямбду для
цей контекст до: (значіння хі-квадрат) x (# спостережень) / SAMPLE_WEIGHT
Щоб запустити програму:
build-icm поїзд.модель
Це використовуватиме навчальні дані в train.seq для створення файлу train.model, що містить
ваш IMM.
Використовуйте tigr-build-icm онлайн за допомогою служб onworks.net