זוהי הפקודה fastx_barcode_splitter.pl שניתן להפעיל בספק האירוח החינמי של OnWorks באמצעות אחת מתחנות העבודה המקוונות המרובות שלנו בחינם כגון Ubuntu Online, Fedora Online, אמולטור מקוון של Windows או אמולטור מקוון של MAC OS
תָכְנִית:
שֵׁם
fastx_barcode_splitter.pl - מפצל ברקוד FASTX
תיאור
מפצל ברקוד, מאת אסף גורדון ([מוגן בדוא"ל]), 11 בספטמבר 2008
תוכנית זו קוראת קובץ FASTA/FASTQ ומפצלת אותו למספר קבצים קטנים יותר, בהתבסס על
התאמת ברקוד. נתוני FASTA/FASTQ נקראים מ-STDIN (פורמט מזוהה אוטומטית). פלט
קבצים ייכתבו לדיסק. סיכום יודפס ל-STDOUT.
שימוש: r.pl --bcfile קובץ -קידומת PREFIX [--סיומת SUFFIX] [--bol|--eol]
[--לא מתאים ל-N] [--מדויק] [--חלקי N] [--עזרה] [--שקט] [--debug]
טיעונים:
--bcfile FILE - שם קובץ ברקודים. (ראה הסבר למטה.) -קידומת PREFIX - קובץ
קידומת. יתווסף לקבצי הפלט. יכול לשמש
כדי לציין ספריות פלט.
--סִיוֹמֶת SUFFIX - סיומת קובץ (אופציונלי). ניתן להשתמש כדי לציין קובץ
הרחבות.
--bol - נסה להתאים ברקודים בתחילת הרצפים.
(מה שביולוגים יקראו לקצה 5', ומתכנתים יקראו לאינדקס 0.)
--eol - נסה להתאים ברקודים בסוף הרצפים.
(מה שביולוגים יקראו לקצה 3', ומתכנתים יקראו לסוף של
מחרוזת.) הערה: אחד מ --bol, --eol יש לציין, אך לא את שניהם.
--אי התאמה N - מקסימום מספר אי התאמה מותר. ברירת המחדל היא 1. --מְדוּיָק - אותו
בתור '--אי-התאמה 0'. אם שניהם --מְדוּיָק ו --אי התאמה
מצוינים, '--exact' מקבל עדיפות.
--חלקי N - אפשר חפיפה חלקית של ברקודים. (ראה הסבר למטה.)
(ברירת המחדל אינה התאמה חלקית)
--שֶׁקֶט - אל תדפיס ספירות וסיכום בסוף הריצה.
(ברירת המחדל היא להדפיס.)
--לנפות - הדפס הרבה מידע ניפוי באגים חסר תועלת ל-STDERR. - עזרה -
מסך העזרה המועיל הזה.
דוגמה (בהנחה ש's_2_100.txt' הוא קובץ FASTQ, 'mybarcodes.txt' הוא קובץ הברקודים):
$ cat s_2_100.txt | /build/fastx-toolkit-V6DvdY/fastx-toolkit-0.0.14/debian/fastx-
toolkit/usr/bin/fastx_barcode_splitter.pl --bcfile mybarcodes.txt --bol
--אי התאמה 2 \
-קידומת /tmp/bla_ --סִיוֹמֶת ".טקסט"
פורמט קובץ ברקוד ------------------- קובצי ברקוד הם קבצי טקסט פשוטים. כל שורה
צריך להכיל מזהה (שם תיאורי לברקוד), ואת הברקוד עצמו
(A/C/G/T), מופרד על ידי תו TAB. דוגמא:
#שורה זו היא הערה (מתחיל בסימן 'מספר') BC1 GATCT BC2 ATCGT BC3 GTGAT
BC4 TGTCT
עבור כל ברקוד, ייווצר קובץ FASTQ חדש (עם מזהה הברקוד כחלק
של שם הקובץ). רצפים התואמים לברקוד יאוחסנו בקובץ המתאים.
הפעלת הדוגמה שלעיל (בהנחה ש-"mybarcodes.txt" מכיל את הברקודים שלעיל), תעשה זאת
צור את הקבצים הבאים:
/tmp/bla_BC1.txt /tmp/bla_BC2.txt /tmp/bla_BC3.txt /tmp/bla_BC4.txt
/tmp/bla_unmatched.txt
הקובץ 'לא תואם' יכיל את כל הרצפים שלא התאימו לאף ברקוד.
התאמת ברקוד ----------------
** ללא התאמה חלקית:
ספור אי התאמה בין רצפי FASTA/Q לבין הברקודים. הברקוד אשר
תואם עם ספירת אי ההתאמה הנמוכה ביותר (בתנאי שהספירה קטנה או שווה ל
'--mismatches N') 'מקבל' את הרצפים.
דוגמה (באמצעות הברקודים לעיל): רצף קלט:
GATTTACTATGTAAAGATAGAAGGAATAAGGTGAAG
תואם עם '--בול --אי התאמה 1 ':
GATTTACTATGTAAAGATAGAAGGAATAAGGTGAAG GATCT (1 אי התאמה, BC1) ATCGT (4 אי התאמה,
BC2) GTGAT (3 אי התאמה, BC3) TGTCT (3 אי התאמה, BC4)
רצף זה יסווג כ-'BC1' (יש לו את ספירת אי ההתאמה הנמוכה ביותר). אם
צוינו '--exact' או '--mismatches 0', רצף זה יסווג כ
'לא תואם' (מכיוון שלמרות של-BC1 הייתה ספירת אי-ההתאמה הנמוכה ביותר, היא מעל המקסימום
אי התאמה מותרת).
התאמה עם '--eol' (סוף שורה) עושה את אותו הדבר, אבל מהצד השני של ה
סדר פעולות.
** עם התאמה חלקית (דומה מאוד לאינדל):
זהה לעיל, עם התוספת הבאה: ברקודים נבדקים גם לחפיפה חלקית
(מספר הבסיסים המותרים שאינם חופפים הוא '--חלקי N').
דוגמה: רצף הקלט הוא ATTTACTATGTAAAGATAGAAGGAATAAGGTGAAG (זהה לעיל, אך שימו לב
ה'G' החסר בהתחלה.)
תואם (לְלֹא חלקית חוֹפֵף) נגד BC1 תשואות 4 אי התאמה:
ATTTACTATGTAAAGATAGAAGGAATAAGGTGAAG GATCT (4 אי התאמה)
חלקי חפיפה היה גם לנסות מה היא הבא התאמה:
-ATTTACTATGTAAAGATAGAAGGAATAAGGTGAAG
GATCT (אי התאמה אחת)
הערה: ניקוד סופר בסיס חסר כאי התאמה, כך שספירת אי ההתאמה הסופית היא 2 (1
אי התאמה 'אמיתית', אי התאמה 'בסיס חסר' אחד). אם פועל עם '--mismatches 1' (כלומר
המאפשר עד 2 אי התאמה) - רצף זה יסווג כ-BC1.
השתמש ב-fastx_barcode_splitter.pl באינטרנט באמצעות שירותי onworks.net