Це команда spidey, яку можна запустити в безкоштовному хостинг-провайдері OnWorks за допомогою однієї з наших безкоштовних онлайн-робочих станцій, таких як Ubuntu Online, Fedora Online, онлайн-емулятор Windows або онлайн-емулятор MAC OS
ПРОГРАМА:
ІМ'Я
spidey - вирівнює послідовності мРНК з геномом
СИНТАКСИС
спайді [-] [-F N] [-G] [-L N] [-M ім'я файлу] [-N ім'я файлу] [-R ім'я файлу] [-S п/м] [-T N]
[-X] [-a ім'я файлу] [-c N] [-d] [-e X] [-f X] [-g X] -i ім'я файлу [-j] [-k ім'я файлу] [-l N]
-m ім'я файлу [-n N] [-o вул] [-p N] [-r c/d/m/p/v] [-s] [-t ім'я файлу] [-u] [-w]
ОПИС
спайді це інструмент для вирівнювання однієї або кількох послідовностей мРНК із заданою геномною послідовністю.
спайді було написано з двома основними цілями: знайти гарне вирівнювання незалежно від інтрона
розмір; і не заплутайтеся в сусідніх псевдогенах і паралогах. Назустріч першому
мета, спайді використовує BLAST і Dot View (ще один локальний інструмент вирівнювання), щоб знайти його
вирівнювання; оскільки це обидва інструменти локального вирівнювання, спайді не властиво
віддають перевагу коротшим або довшим інтронам і не мають максимального розміру інтронів. Щоб уникнути помилки
включаючи екзони з паралогів і псевдогенів, спайді спочатку визначає вікна на геномі
послідовності, а потім виконує вирівнювання між мРНК і геномом окремо в кожному вікні.
Через те, як сконструйовано вікна, сусідні паралоги або псевдогени повинні бути такими
бути в окремих вікнах і не повинні бути включені в остаточне зрощене вирівнювання.
Початковий вирівнювання та будівництво of геномна windows
спайді приймає як вхідні дані одну геномну послідовність і набір доступів мРНК або FASTA
послідовності. Уся обробка виконується по одній послідовності мРНК. Перший крок для кожного
Послідовність мРНК є високострогою BLAST проти геномної послідовності. Отримані хіти
аналізуються, щоб знайти геномні вікна.
Вирівнювання BLAST сортується за оцінкою, а потім рекурсивно призначається вікнам
функція, яка виконує перше вирівнювання, а потім переходить у список вирівнювання, щоб знайти всі
вирівнювання, які відповідають першому (однаковий ланцюг мРНК, і мРНК, і
геномні координати не перекриваються та лінійно узгоджуються). На наступних проходах,
інші вирівнювання перевіряються та поміщаються у власні неперекриваючі,
послідовні вікна, поки не залишиться вирівнювання. Залежно від того, скільки моделей генів
бажаний, верх n вікна вибираються для переходу до наступного кроку, а інші вибираються
видалено.
Вирівнювання in кожен вікно
Після того, як геномні вікна сконструйовані, початкові вирівнювання BLAST звільняються і
виконується інший пошук BLAST, цього разу з усією мРНК проти геномної
область, визначену вікном, і з нижчою суворістю, ніж початковий пошук. спайді
потім використовує жадібний алгоритм для створення підмножини з високою оцінкою, яка не перекривається
вирівнювання з другого пошуку BLAST. Цей узгоджений набір ретельно аналізується
переконайтеся, що вся послідовність мРНК охоплена вирівнюваннями. При виявленні прогалин
між вирівнюваннями здійснюється пошук відповідної області геномної послідовності
відсутня мРНК, спочатку використовуючи дуже низьку жорсткість BLAST і, якщо BLAST не вдається знайти
удар, використовуючи функції DotView для визначення вирівнювання. При виявленні зазорів на кінцях
вирівнювання, пошук BLAST і DotView фактично дозволено поширюватися за межі
межі вікна. Якщо 3'-кінець мРНК не вирівнюється повністю, це так
вперше перевірено на наявність полі(А) хвоста. Не робиться жодних спроб вирівняти
частина мРНК, яка виглядає полі(А) хвостом; іноді є полі(А) хвіст
які узгоджуються з геномною послідовністю, і їх відзначають, оскільки вони вказують на
можливість псевдогену.
Тепер, коли мРНК повністю вкрита набором вирівнювання, межі
вирівнювання (тепер має бути одне вирівнювання на екзон) налаштовано так, щоб
вирівнювання точно стикаються одне з одним і таким чином, щоб вони прилягали до хорошого донора зрощування
і акцепторні сайти. Найчастіше вирівнювання двох сусідніх екзонів перекривається на стільки, скільки
20 або 30 пар основ у послідовності мРНК. Справжня межа екзону може лежати де завгодно всередині
це перекриття, або (як ми бачили емпірично) навіть кілька пар основ за межами перекриття.
Щоб розташувати межі екзонів, потрібно перекривання плюс кілька пар основ з кожного боку
перевірено на донорські сайти сплайсингу, використовуючи функції, які мають різні матриці сплайсингу
залежно від обраного організму. Кілька найкращих донорських сайтів для сплайсингу (за рахунком) є тоді
оцінено, наскільки вони впливають на вихідні межі вирівнювання. Сайт, який
найменше впливає на межі та оцінюється за наявністю ан
акцепторне місце. Вирівнювання скорочується або розширюється за необхідності, щоб вони
закінчуються на ділянці донора зрощування, щоб вони не перекривалися.
Остаточний результат
Віконця ретельно досліджуються, щоб отримати відсоток ідентичності на екзон, кількість
прогалини на екзон, загальний відсоток ідентичності, відсоток покриття мРНК, наявність
вирівнювання або невирівнювання полі(А) хвоста, кількість донорських ділянок сплайсингу та наявність або
відсутність донорних і акцепторних ділянок сплайсингу для кожного екзона та наявність мРНК
який має 5' або 3' кінець (або обидва), який не вирівнюється з геномною послідовністю. Якщо
загальний відсоток ідентичності та відсоток покриття довжини перевищують визначені користувачем обмеження, a
друкується підсумковий звіт і, за запитом, вирівнювання тексту, що показує ідентичності та
невідповідності також друкуються.
Міжвидові види вирівнювання
спайді здатний виконувати міжвидові вирівнювання. Основна різниця в
міжвидові вирівнювання полягає в тому, що мРНК-геномна ідентичність не буде близькою до 100%, оскільки
знаходиться у внутрішньовидових рядах; також, вирівнювання мають численні та тривалі прогалини. Якщо
спайді використовується у звичайному режимі для міжвидового вирівнювання, створює моделі генів
з багатьма, багатьма короткими екзонами. Коли встановлено міжвидовий прапор, спайді використовує різні
Параметри BLAST, щоб заохочувати довші та більші прогалини та не штрафувати настільки сильно
невідповідності. Таким чином, вирівнювання для екзонів є набагато довшим і ближчим
наближено до дійсної структури гена.
Вилучення CDS вирівнювання
Коли спайді виконується в мережевому режимі або коли файли ASN.1 використовуються для мРНК
записів, він здатний витягувати вирівнювання CDS з вирівнювання мРНК і друкувати
інформація CDS також. Оскільки вирівнювання CDS є лише підмножиною вирівнювання мРНК,
відносно просто скоротити вирівнювання екзонів, якщо це необхідно
створити вирівнювання CDS. Крім того, тепер визначено неперекладені регіони, тому
також розраховується відсоток ідентичності для 5' і 3' нетрансльованих областей.
ВАРІАНТИ
Нижче наведено короткий опис варіантів.
- Роздрукувати повідомлення про використання.
-F N Початок бажаного геномного інтервалу (з; на основі 0).
-G Вхідним файлом є список GI.
-L N Надвеликий розмір інтрона для використання (за замовчуванням = 220000).
-M ім'я файлу
Файл з донорською сплайс-матрицею.
-N ім'я файлу
Файл з акцепторною сплайс-матрицею.
-R ім'я файлу
Файл (включаючи шлях) для повторення вибухової бази даних для фільтрації.
-S п/м Обмежте плюс (p) або мінус (m) ланцюг геномної послідовності.
-T N Зупинка бажаного геномного інтервалу (до; на основі 0).
-X Використовуйте надзвичайно великі розміри інтронів (збільшує ліміт для початкових і кінцевих інтронів
від 100kb до 240kb і для всіх інших від 35kb до 120kb); може призвести до
значно довший час обчислень.
-a ім'я файлу
Вихідний файл для вирівнювання при направленні в окремий файл з -p 3 (за замовчуванням =
spidey.aln).
-c N Відсічення ідентичності, у відсотках, для цілей контролю якості.
-d Також спробуйте вирівняти кодуючі послідовності, що відповідають заданим записам мРНК (може
потрібен доступ до мережі).
-e X Електронне значення першого проходу (за замовчуванням = 1.0e-10). Вищі значення збільшують швидкість за рахунок вартості
чутливості.
-f X Електронне значення другого проходу (за замовчуванням = 0.001).
-g X Електронне значення третього проходу (за замовчуванням = 10).
-i ім'я файлу
Вхідний файл, що містить геномну послідовність у форматі ASN.1 або FASTA. Якщо ти
комп’ютер працює в мережі, яка має доступ до GenBank, ви можете замінити
бажаний номер доступу для імені файлу.
-j Друкувати вирівнювання ASN.1?
-k ім'я файлу
Файл для виведення ASN.1 з -k (за замовчуванням = spidey.asn).
-l N Граничне покриття довжини, у відсотках.
-m ім'я файлу
Вхідний файл, що містить послідовність (послідовності) мРНК у форматі ASN.1 або FASTA, або список
їх приєднання (з -G). Якщо ваш комп’ютер працює в мережі, це може
отримати доступ до GenBank, ви можете замінити ім’я файлу одним номером доступу.
-n N Кількість моделей генів для повернення на вхідну мРНК (за замовчуванням = 1).
-o вул Головний вихідний файл (за замовчуванням = stdout; вміст контролюється -p).
-p N Вирівнювання друку?
0 підсумок і вирівнювання разом (за замовчуванням)
1 просто резюме
2 тільки вирівнювання
3 резюме та вирівнювання в різних файлах
-r c/d/m/p/v
Організм геномної послідовності, що використовується для визначення матриць сплайсингу.
c C. elegans
d Дрозофіла
m Dictyostelium discoideum
p завод
v хребетне (за замовчуванням)
-s Налаштуйтеся на міжвидові вирівнювання.
-t ім'я файлу
Файл із таблицею функцій у 4 стовпцях, розділених табуляцією:
seqid (наприклад, NM_04377.1)
ім'я (тільки повторювана_область наразі підтримується)
старт (на основі 0)
СТОП (на основі 0)
-u Зробіть множинне вирівнювання всіх вхідних мРНК (які повинні перекриватися на геномній
послідовність).
-w Вважайте символи нижнього регістру у вхідних послідовностях FASTA маскованими.
Використовуйте spidey онлайн за допомогою сервісів onworks.net