Це команда cdhit-2d, яку можна запустити у безкоштовного хостинг-провайдера OnWorks за допомогою однієї з наших безкоштовних онлайн-робочих станцій, таких як Ubuntu Online, Fedora Online, онлайн-емулятор Windows або онлайн-емулятор MAC OS
ПРОГРАМА:
ІМ'Я
cdhit-2d - швидко групувати послідовності у форматі db1 або db2
СИНТАКСИС
cdhit-2d [Опції]
ОПИС
====== CD-HIT версія 4.6 (зроблено 23 січня 2016) ======
Опції
-i введіть ім'я файлу для db1 у форматі fasta, обов'язково
-і2 введіть ім'я файлу для db2 у форматі fasta, обов'язково
-o ім'я вихідного файлу, обов'язкове
-c поріг ідентифікації послідовності, за замовчуванням 0.9 це "глобальний" для звернення до компакт-дисків за замовчуванням
ідентичність послідовності» розраховується як: кількість ідентичних амінокислот у вирівнюванні
поділено на повну довжину коротшої послідовності
-G використовувати глобальну ідентичність послідовності, за замовчуванням 1, якщо встановлено значення 0, а потім використовувати локальну послідовність
ідентичність, що розраховується як: кількість ідентичних амінокислот у вирівнюванні, поділена на
довжина вирівнювання ПРИМІТКА!!! не використовуйте -G 0, якщо ви не використовуєте вирівнювання
елементи керування покриттям див. параметри -aL, -АЛ, -aS, -АС
-b band_width вирівнювання, за замовчуванням 20
-M ліміт пам’яті (у МБ) для програми, за замовчуванням 800; 0 для необмежених;
-T кількість потоків, за замовчуванням 1; з 0 будуть використовуватися всі процесори
-n word_length, за замовчуванням 5, див. посібник користувача щодо його вибору
-l довжина throw_away_sequences, за замовчуванням 10
-t допуск на надмірність, за замовчуванням 2
-d довжина опису у файлі .clstr, за замовчуванням 20, якщо встановлено значення 0, він займає швидкість
defline і зупиняється на першому місці
-s відсічення різниці довжини, за замовчуванням 0.0, якщо встановлено значення 0.9, коротші послідовності потрібні
бути не менше 90% довжини представника скупчення
-S Відрізання різниці довжини в амінокислотах, за замовчуванням 999999, якщо встановлено значення 60, довжина
Різниця між більш короткими послідовностями і представником кластера може
не більше 60
-S2 зріз різниці довжини для db1, за замовчуванням 1.0 за замовчуванням, seqs в db1 >= seqs in
db2 в тому ж кластері, якщо встановлено значення 0.9, послідовності в db1 можуть становити лише >= 90% послідовностей у db2
-S2 зріз різниці довжини, за замовчуванням 0 за замовчуванням, seqs в db1 >= seqs в db2 в a
той самий кластер, якщо встановлено значення 60, послідовності в db2 можуть на 60aa довші, ніж послідовності в db1
-aL покриття вирівнювання для довшої послідовності, за замовчуванням 0.0, якщо встановлено значення 0.9, the
вирівнювання має охоплювати 90% послідовності
-АЛ керування покриттям вирівнювання для довшої послідовності, за замовчуванням 99999999, якщо встановлено значення 60,
і довжина послідовності 400, тоді вирівнювання має бути >= 340 (400-60)
залишки
-aS покриття вирівнювання для коротшої послідовності, за замовчуванням 0.0, якщо встановлено значення 0.9, the
вирівнювання має охоплювати 90% послідовності
-АС керування покриттям вирівнювання для коротшої послідовності, за замовчуванням 99999999, якщо встановлено значення 60,
і довжина послідовності 400, тоді вирівнювання має бути >= 340 (400-60)
залишки
-A мінімальний контроль покриття вирівнювання для обох послідовностей, за замовчуванням має бути вирівнювання 0
cover >= це значення для обох послідовностей
-uL максимальний невідповідний відсоток для довшої послідовності, за замовчуванням 1.0, якщо встановлено значення 0.1,
невідповідна область (без урахування провідних і хвостових проміжків) не повинна перевищувати 10%
послідовності
-нас максимальний невідповідний відсоток для коротшої послідовності, за замовчуванням 1.0, якщо встановлено значення 0.1,
невідповідна область (без урахування провідних і хвостових проміжків) не повинна перевищувати 10%
послідовності
-U максимальна невідповідна довжина, за замовчуванням 99999999, якщо встановлено 10, невідповідний регіон
(без урахування провідних і хвостових проміжків) не повинно бути більше 10 основ
-B 1 або 0, за замовчуванням 0, за замовчуванням послідовності зберігаються в RAM, якщо встановлено значення 1, послідовність
зберігаються на жорсткому диску, рекомендовано використовувати -B 1 для величезних баз даних
-p 1 або 0, за замовчуванням 0, якщо встановлено значення 1, накладення вирівнювання друку у файлі .clstr
-g 1 або 0, за замовчуванням 0 за стандартним алгоритмом cd-hit, послідовність групується до
перший кластер, який відповідає порогу (швидкий кластер). Якщо встановлено значення 1, програма буде
об’єднайте його в найбільш подібний кластер, який відповідає порогу (точний, але повільний
режим), але 1 або 0 не змінить представників кінцевих кластерів
-бак записати файл кластера резервної копії (1 або 0, за замовчуванням 0)
-h роздрукувати цю довідку
Питання, помилки, зв’яжіться з Вейчжуном Лі за адресою liwz@sdsc.edu
Якщо ви вважаєте CD-hit корисним, будь ласка, процитуйте:
«Кластеризація високогомологічних послідовностей для зменшення розміру великого білка
база даних», Вейчжун Лі, Лукаш Ярошевський та Адам Годзик. Біоінформатика, (2001)
17:282-283 «Cd-hit: швидка програма для кластеризації та порівняння великих наборів
білкові або нуклеотидні послідовності», Вейчжун Лі та Адам Годзік. Біоінформатика, (2006)
22: 1658-1659
Використовуйте cdhit-2d онлайн за допомогою сервісів onworks.net