GoGPT Best VPN GoSearch

Icône de favori OnWorks

seqprep - En ligne dans le Cloud

Exécutez seqprep dans le fournisseur d'hébergement gratuit OnWorks sur Ubuntu Online, Fedora Online, l'émulateur en ligne Windows ou l'émulateur en ligne MAC OS

Il s'agit de la commande seqprep qui peut être exécutée dans le fournisseur d'hébergement gratuit OnWorks à l'aide de l'un de nos multiples postes de travail en ligne gratuits tels que Ubuntu Online, Fedora Online, l'émulateur en ligne Windows ou l'émulateur en ligne MAC OS.

PROGRAMME:

Nom


seqprep - fusionner les lectures Illumina appariées

SeqPrep est un programme pour fusionner des lectures Illumina appariées qui se chevauchent en un seul
lire plus longtemps. Il peut également être simplement utilisé pour sa fonction de coupe d'adaptateur sans rien faire
chevauchement des extrémités appariées.

UTILISATION


seqprep conditions args [choix]

Requis Arguments:


-F
-r
-1
-2

Général Arguments (Optionnel):


-3
-4
-h Affiche ce message d'aide et quitte (fonctionne également sans arguments)
-6 La séquence d'entrée est au format phred+64 plutôt que phred+33, la sortie sera toujours phred+33
-q
-L

Arguments pour Adaptateur/Amorce Garniture (Optionnel):


-UNE
(devrait valider en grappant un fichier) ; par défaut (adaptateur génomique non multiplexé1) = AGATCGGAAGAGCGGTTCAG>
-B
(devrait valider en grappant un fichier) ; par défaut (adaptateur génomique non multiplexé2) = AGATCGGAAGAGCGTCGTGT>
-O
-M
-N
-b
-Q
-t
-e
-Z
-w
-W
-p
-P
-X

Optionnel Arguments pour Fusion:


-y
-g- NON MISE EN OEUVRE
-s
-E
-X
-o
-m
-n

REMARQUE 1: La sortie est toujours compressée en gzip.

REMARQUE 2: Si les chaînes de qualité dans la sortie contiennent des caractères inférieurs à asciii 33 sur un
table ascii (elles ressemblent à des lignes d'un fichier binaire), essayez à nouveau de l'exécuter avec ou sans
l'option -6.

SETUP


Lorsqu'une séquence adaptateur est présente, cela signifie que les deux lectures doivent se chevaucher (dans la plupart
cas) afin qu'ils soient fusionnés de force. Lorsque les lectures n'ont pas de séquence d'adaptateur, elles doivent être
traités avec soin lors de la fusion, une approche beaucoup plus spécifique est donc adoptée. Les
les paramètres par défaut ont été choisis en tenant compte de la spécificité, afin qu'ils puissent être exécutés sur
bibliothèques où très peu de lectures devraient se chevaucher. Il est toujours plus sûr d'économiser
la procédure de chevauchement pour les bibliothèques où vous avez une connaissance préalable qu'un
une partie importante des lectures aura un certain chevauchement.

Avant d'exécuter SeqPrep, assurez-vous de vérifier que les valeurs par défaut du programme sont bien les
adaptateurs que vous recherchez. Essayez de copier l'adaptateur de transfert par défaut à partir de ce fichier et
grep-le contre vos lectures en comptant les mots, essayez également la même chose avec l'adaptateur inversé
avec grep. Vous devriez voir quelques hits. Vous pouvez également essayer d'utiliser (et de valider avec grep) -A
GATCGGAAGAGCACACG -B AGATCGGAAGAGCGTCGT comme paramètres. Pour trouver une liste d'adaptateur Illumina
séquences que vous devez écrire au support technique d'Illumina [email protected] (ils ne
comme les gens à partager la liste des séquences en dehors de leur établissement).

Choisissez environ 20 pb d'une séquence d'adaptateur où :

1. Vous voyez le plus de succès avec grep.

2. Lorsque vous exécutez une commande comme zcat Voie2_0d_2.fastq.gz | front -n 1000000 |grep "INSÉRER
ADAPTER ICI" | front vous voyez la séquence de l'adaptateur s'afficher au début de quelques
lit. De plus, les arguments -A et -B doivent être tels qu'ils apparaissent dans vos données, SeqPrep
recherche directement ces séquences sans faire de complémentation inverse

3. Vérifiez la marche avant et la marche arrière et assurez-vous que vous avez à peu près le même nombre de
hits via une commande pour compter les hits comme : zcat Voie2_0d_2.fastq.gz | front -n 1000000
|grep "INSÉRER ADAPTER ICI" | wc -l Par précaution supplémentaire, le programme vérifie
pour un bon chevauchement de lecture une fois les adaptateurs coupés. Si l'adaptateur est coupé et que le
les lectures n'ont pas un chevauchement d'adaptateur raisonnable (vous pouvez modifier ce paramètre avec -X)
alors les lectures ne sont pas imprimées ou fusionnées.

Voir Test/README.md pour des informations sur le test d'autres paramètres. Test/SimTest a
des données de test particulièrement intéressantes que vous pouvez utiliser pour vérifier la sensibilité et
spécificité du rognage de l'adaptateur à l'aide de différents paramètres. Les résultats du test sont
affiché dans results.html qui utilise l'API google charts pour que les points soient
interactif et vous pouvez facilement déterminer quels paramètres ont fait quels points.

ALIGNEMENTS DE FAIBLE COMPLEXITÉ

Ma stratégie actuelle pour gérer les alignements ambigus vers des régions de faible complexité est la suivante :
suit:

J'ai des exigences minimales pour qu'un chevauchement soit accepté. Après le premier est
trouvé (c'est-à-dire celui avec le chevauchement maximal entre les deux séquences), si faible complexité
le filtrage est activé, je continue de chercher si un deuxième hit viable est trouvé, j'abandonne et dis
que ce n'est pas une bonne idée de fusionner les deux lectures. Je vérifie les alignements ambigus dans
lire le chevauchement, mais pas dans le découpage de l'adaptateur où la chose la plus prudente à faire est
dénudez l'adaptateur aligné le plus agressivement (le plus proche du début de la lecture).

Pour accepter un alignement, j'autorise une certaine fraction des décalages (actuellement le plancher de 0.06 de
la longueur d'alignement pour l'adaptateur et 0.02 de la longueur d'alignement pour deux lectures). Cette
signifie que dans la plupart des cas, pour le chevauchement de deux lectures, je n'autorise aucune discordance entre
lectures adjacentes, mais s'il y a un chevauchement potentiel de 50 pb avec 1 décalage sur q20 pour
exemple, je le permets. Tout ce qui est inférieur à 50 doit être parfait, sauf avec une qualité médiocre
socles.

Puisque nous ignorons les bases de mauvaise qualité, nous pourrions avoir le cas où un seul vrai match
suivi d'une longue chaîne de bases de mauvaise qualité jusqu'à la fin de la lecture entraînerait un
appelé chevauchement. Cela semblait être une mauvaise idée. Pour contourner cela, j'ai besoin qu'au moins
une certaine fraction de la longueur qui se chevauche soit des correspondances. En ce moment, j'ai ce paramètre défini à
0.7 pour le découpage de l'adaptateur et 0.75 pour la fusion en lecture, donc pour un cas où seuls les 10 derniers
les bases se chevauchent, au moins 7 d'entre elles doivent être des correspondances.

Puisque faire autant de multiplications à virgule flottante semble être une mauvaise idée, j'ai juste un
table qui pré-calcule tous ces nombres de correspondances min et max de non-concordance pour chaque
longueur de chevauchement jusqu'à la longueur de lecture maximale autorisée.

Enfin, j'ai un paramètre que vous pouvez définir qui spécifie une longueur de lecture minimale résultante
après le rognage et/ou la fusion de l'adaptateur afin que les lectures rognées ultra-courtes ne soient pas sorties.

Voici les résultats des tests manuels des trois principaux cas de fusion. Maintenant pour générer
une sortie similaire fournit automatiquement l'argument -E readable_alignment.txt.gz au
programme (la sortie est compressée par gzip dans le nom de fichier spécifié).

Séquence aller Non adaptateur Présents:


QUER : NCCTGCTACTACCACCCGTTCCGTGCCTGGAGCCTGCATGTTGGGCAGATACGTGCTGCCACAGCCTGTCTCTGCTGGTGCCTGGGCCTC
|| ||||||||||||| || | |||||||||||||||||||||||||||||||||
OBJET : TGTGTGTTGGGCAGATGCGGGGGGCCACAGCCTGTCTCTGCTGGTGCCTGGGCCTCTCCTGTTCCTTGCCCACGTCTCCGTCTCCTGTTG
RESU : NCCTGCTACTACCACCCGTTCCGTGCCTGGAGCCTGCATGTTGGGCAGATACGTGCTGCCACAGCCTGTCTCTGCTGGTGCCTGGGCCTCTCCTGTTCCTTGCCCACGTCTCCGTCTCCTGTGTG
Fusion de qualité :
QUER: !223387787@@@CCC22C@@@@@@@@@@@@@@@@@@@@@@@@@@@@?@@89887:::::.2125@@:@@:::::@@@@@<<::8@@@@@
SUJET : !!!!!!!!!!!!!!!!!!!!!!!!!!!!@@@8DEGE@EDDBB2 D8@DBE>BFIDH@IIEEIIBEIEIIGBIIGIFII
RESU: !223387787@@@CCC22C@@@@@@@@@@@@@@@@@@@@@@@@@@@@?@@89887::::::.QPQLSSSSSSSSSSSSQSSSSSSSSSSSSSSSD8@DBE> BFIDH@IIEEIIBEIEIIGBIIGIFII

Séquence aller adaptateur Présent, Facile peezy Mode (même longueurs):


OBJET : NGATATGATTCCCAATCTAAGCAAACTGTCATGGAAAC
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
QUER : GGATATGATTCCCAATCTAAGCAAACTGTCATGGAAAC
RÉSU : GGATATGATTCCCAATCTAAGCAAACTGTCATGGAAAC
Fusion de qualité :
SUJET : !.-/.53444@@@@@@@@@@@@@@@@@@@@@@@@@@@@
QUER : IHGIIIDIIHGEHIGHIFHIFIIIIHIIIIIIIIIHII
RÉSU : ISSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSS

Séquence fusionner adaptateur mais longueurs différer:


OBJET : AATTGATGGGTGCCCACCCACGGGCCAGACAAAATCATCTGGCAAGCTGGATGCAGCCTACAAGCTGTAAGATTGGA
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| |||||||||||||||||||
QUER : AATTGATGGGTGCCCACCCACGGGCCAGACAAAATCATCTGGCAAGCTGGATGCAGCCTACAAGCTGTA
RESU : AATTGATGGGTGCCCACCCACGGGCCAGACAAAATCATCTGGCAAGCTGGATGCAGCCTACAAGCTGTAAGATTGGA
Fusion de qualité :
SUBJ: =DEC??DDBD?4B=BEE@@@GB>GEE:DE8=2::6GDGBGEGDD<=;A?=AGGGG=5.=<BD?B?DDB>B4725:E>
QUER : GDDBBFBGGFBHFIEDGGBDGGG
RESU : SSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSB4725 : E>

Si intéressé il y a un site où je poste mes tests de différents paramètres pour SeqPrep
sur des données simulées. Il existe également quelques statistiques de comparaison de différents programmes à couper
adaptateurs. Le site est accessible ici : http://hgwdev.cse.ucsc.edu/~jstjohn/seqprep/
où les pages sont nommées result(date).html. Les derniers (à partir du moment où j'ai obtenu
autour pour éditer ceci) peut être trouvé ici:

http://hgwdev.cse.ucsc.edu/~jstjohn/seqprep/results2011-09-15.html

Notez que bien que mon programme soit plus sensible et spécifique que fastq-clipper, je
optimisé mes paramètres par défaut sur la base de ce test. Les résultats sur des données réelles peuvent être différents,
bien que je pense que ma méthode tire parti d'un modèle d'adaptateur plus réaliste que les autres
le logiciel le fait. Par exemple, même si mon programme nécessite 10 pb d'adaptateur pour être présent
à la fin d'une lecture pour le couper (par défaut) il y a un découpage de l'adaptateur de sauvegarde
fonction qui coupe en fonction d'un chevauchement de lecture fort et sans ambiguïté. A cause de cela mon
programme peut couper l'adaptateur même s'il n'est présent que dans les dernières bases de la lecture.

Notez également que fastq-mcf semble faire un peu mieux en sensibilité (0.992 vs 0.985) à
un coût de spécificité très important (0.497 vs 0.994).

Utiliser seqprep en ligne à l'aide des services onworks.net


Serveurs et postes de travail gratuits

Télécharger des applications Windows et Linux

Commandes Linux

Ad




×
Publicité
❤ ️Achetez, réservez ou achetez ici — gratuitement, contribue à maintenir la gratuité des services.