Il s'agit de la commande Ray qui peut être exécutée dans le fournisseur d'hébergement gratuit OnWorks en utilisant l'un de nos multiples postes de travail en ligne gratuits tels que Ubuntu Online, Fedora Online, l'émulateur en ligne Windows ou l'émulateur en ligne MAC OS
PROGRAMME:
Nom
Ray - assembler des génomes en parallèle à l'aide de l'interface de transmission de messages
SYNOPSIS
mpiexec -n NUMBER_OF_RANKS rayon -k LONGUEUR KMER -p l1_1.fastq l1_2.fastq -p l2_1.fastq
l2_2.fastq -o tester
mpiexec -n NUMBER_OF_RANKS Ray Ray.conf # avec des commandes dans un fichier
DESCRIPTION:
L'assembleur de génome Ray est construit sur RayPlatform, un plugin générique basé sur
moteur de calcul distribué et parallèle qui utilise l'interface de transmission de messages pour
passer des messages.
Ray cible plusieurs applications :
- assemblage du génome de novo (avec Ray vanilla) - assemblage du méta-génome de novo (avec
Ray Meta) - assemblage de transcriptome de novo (fonctionne, mais pas beaucoup testé) -
quantification des abondances de contig - quantification des consortiums de microbiome
membres (avec Ray Communities) - quantification de l'expression de la transcription - taxonomie
profilage d'échantillons (avec Ray Communities) - profilage d'ontologies génétiques d'échantillons
(avec les ontologies Ray)
-Aide
Affiche cette page d'aide.
-version
Affiche la version Ray et les options de compilation.
Utilisation d'un fichier de configuration
Ray peut être lancé avec mpiexec -n 16 Ray Ray.conf Le fichier de configuration peut
inclure des commentaires (commençant par #).
longueur K-mer
-k kmerLongueur
Sélectionne la longueur des k-mers. La valeur par défaut est 21. Elle doit être impaire car
les sommets de complément inverse sont stockés ensemble. La longueur maximale est définie à
compilation par MAXKMERLENGTH Les k-mers plus grands utilisent plus de mémoire.
Contributions
-p leftSequenceFile rightSequenceFile [averageOuterDistance standardDeviation]
Fournit deux fichiers contenant des lectures appariées. moyenneDistance Extérieure et
standardDeviation sont automatiquement calculés s'ils ne sont pas fournis.
-i interleavedSequenceFile [averageOuterDistance standardDeviation]
Fournit un fichier contenant des lectures appariées entrelacées. moyenneDistance Extérieure
et standardDeviation sont automatiquement calculés s'ils ne sont pas fournis.
-s fichier séquence
Fournit un fichier contenant des lectures asymétriques.
Sortie
-o répertoire de sortie
Spécifie le répertoire des fichiers de sortie. La valeur par défaut est RayOutput
Options d'assemblage (les valeurs par défaut fonctionnent bien)
-désactiver-recyclage
Les désactivations du recyclage des lectures lors des lectures d'assemblage seront libérées dans 3 cas : 1.
la distance ne correspondait pas pour une paire 2. la lecture n'a pas rencontré son partenaire 3. le
la population de la bibliothèque indique un mauvais placement voir Parcours contraint des répétitions
avec des séquences appariées. Sébastien Boisvert, Elenie Godzaridis, François Laviolette
& Jacques Corbeil. Premier atelier satellite annuel RECOMB sur le massivement parallèle
Séquençage, 26-27 mars 2011, Vancouver, BC, Canada.
-désactiver l'échafaudage
Désactive l'échafaudage.
-longueur-minimum-contig minimumContigLength
Modifie la longueur minimale du contig, la valeur par défaut est de 100 nucléotides
-espace-couleur
Fonctionne dans l'espace colorimétrique Nécessite des fichiers csfasta. Activé automatiquement si fichiers csfasta
sont prévus.
-utiliser-une-couverture-maximale-de-graines profondeur de couverture maximale des graines
Ignore toute graine avec une profondeur de couverture supérieure à ce seuil. La valeur par défaut est
4294967295.
-utiliser-une-couverture-minimum-de-graines Profondeur de couverture minimale
Définit la profondeur de couverture de graine minimale. Tout chemin avec une profondeur de couverture inférieure à
celui-ci sera rejeté. La valeur par défaut est 0.
Moteur de stockage distribué (toutes ces valeurs sont pour chaque rang MPI)
-bloom-filter-bits les bits
Définit le nombre de bits pour le filtre Bloom La valeur par défaut est 268435456 bits, 0 bits
désactive le filtre Bloom.
-table-de-hash-seaux seaux
Définit le nombre initial de compartiments. Doit être une puissance de 2 ! Valeur par défaut:
268435456
-table-de-hash-seaux-par-groupe seaux
Définit le nombre de compartiments par groupe pour le stockage dispersé Valeur par défaut : 64, Doit être
entre >=1 et <= 64
-seuil-de-facteur-de-charge-de-table-de-hachage порог
Définit le seuil du facteur de charge pour le redimensionnement en temps réel Valeur par défaut : 0.75, doit être
>= 0.5 et < 1
-hash-table-verbosité
Active la verbosité pour le moteur de stockage distribué
Abondances biologiques
-chercher rechercheRépertoire
Fournit un répertoire contenant les fichiers fasta à rechercher dans le graphique de Bruijn.
Les abondances biologiques seront écrites dans RayOutput/BiologicalAbundances Voir
Documentation/Abondances Biologiques.txt
-une-couleur-par-fichier
Définit une couleur par fichier au lieu d'une par séquence. Par défaut, chaque séquence dans
chaque fichier a une couleur différente. Pour les fichiers avec un grand nombre de séquences, en utilisant
une seule couleur par fichier peut être plus efficace.
Profilage taxonomique avec des graphiques de Bruijn colorés
-avec-taxonomie Genome-to-Taxon.tsv TreeOfLife-Edges.tsv Taxon-Names.tsv
Fournit une taxonomie. Calcule et rédige des profils taxonomiques détaillés. Voir
Documentation/Taxonomy.txt pour plus de détails.
-gene-ontologie OntologieTerms.txt
Annotations.txt
Fournit une ontologie et des annotations. OntologyTerms.txt est récupéré à partir de
http://geneontology.org Annotations.txt est un fichier à 2 colonnes (descripteur EMBL_CDS &
identifiant d'ontologie de gène) Voir Documentation/GeneOntology.txt
Autres sorties
-activer-des-quartiers
Calcule les voisinages contig dans le graphe de Bruijn Fichier de sortie :
RayOutput/NeighborhoodRelations.txt
-amos
Écrit le fichier AMOS appelé RayOutput/AMOS.afg Un fichier AMOS contient les positions de lecture
sur contigs. Peut être ouvert avec un logiciel avec interface utilisateur graphique.
-écrire-kmers
Écrit le graphique k-mer dans RayOutput/kmers.txt Le fichier résultant n'est pas utilisé par
Rayon. Le fichier résultant est très volumineux.
-écriture-lecture-marqueurs
Écrit les marqueurs de lecture sur le disque.
-écrire-graines
Écrit les séquences d'ADN de départ dans RayOutput/Rank .RaySeeds.fasta
-écrire-extensions
Écrit les séquences d'ADN d'extension dans RayOutput/Rank .RayExtensions.fasta
-écrire-contig-chemins
Écrit les chemins contig avec des valeurs de couverture dans RayOutput/Rank .RayContigPaths.txt
-écrire-marqueur-résumé
Écrit les statistiques des marqueurs.
Utilisation de la mémoire
-afficher-utilisation-mémoire
Affiche l'utilisation de la mémoire. Les données sont extraites de / proc sur GNU/Linux a besoin de __linux__
-afficher les allocations de mémoire
Affiche les événements d'allocation de mémoire
Verbosité de l'algorithme
-show-extension-choix
Affiche le choix effectué (avec d'autres choix) lors de l'extension.
-afficher-le-contexte-de-fin
Affiche le contexte de fin de chaque extension. Montre les enfants du sommet où
l'extension était trop difficile.
-afficher-distance-résumé
Affiche un résumé des distances extérieures utilisées pour un chemin d'extension.
-montrer-consensus
Affiche le consensus lorsqu'un choix est fait.
Point de contrôle
-écriture-points de contrôle point de contrôleRépertoire
Écrire des fichiers de point de contrôle
-lecture-points de contrôle point de contrôleRépertoire
Lire les fichiers de point de contrôle
-lecture-écriture-points de contrôle point de contrôleRépertoire
Lire et écrire des fichiers de point de contrôle
Routage des messages pour un grand nombre de cœurs
-route-messages
Active le routeur de messages Ray. Désactivé par défaut. Les messages seront acheminés
en conséquence de sorte que n'importe quel rang puisse communiquer directement avec seulement quelques autres.
Sans -route-messages, n'importe quel rang peut communiquer directement avec n'importe quel autre rang.
Fichiers générés : Routing/Connections.txt, Routing/Routes.txt et
Routing/RelayEvents.txt et Routing/Summary.txt
-type de connexion type
Définit le type de connexion pour les routes. Les valeurs acceptées sont debruijn, hypercube,
polytope, groupe, aléatoire, kautz et complet. La valeur par défaut est debruijn.
debruijn : un graphe de de Bruijn complet un alphabet donné et un hypercube de diamètre : a
hypercube, l'alphabet est {0,1} et les sommets sont une puissance de 2 polytope : un convexe
polytope régulier, l'alphabet est {0,1,...,B-1} et les sommets sont une puissance du groupe B :
modèle idiot où un représentant par groupe peut communiquer avec des personnes extérieures
aléatoire : modèle d'Erdos-Renyi kautz : un graphe de de Kautz complet, qui est un sous-graphe d'un de
Graphique de Bruijn complet : un graphique complet avec toutes les connexions possibles
Avec le type debruijn, le nombre de rangs doit être une puissance de quelque chose.
Exemples : 256 = 16*16, 512=8*8*8, 49=7*7, et ainsi de suite. Sinon, n'utilisez pas debruijn
routage mais en utiliser un autre Avec le type kautz, le nombre de rangs n doit être
n=(k+1)*k^(d-1) pour certains k et d
-routing-graph-degré intensité
Spécifie le degré sortant pour le graphe de routage. Voir Documentation/Routage.txt
Test matériel
-test-réseau-uniquement
Teste le réseau et renvoie.
-écrire-réseau-tester-données-brutes
Écrit un fichier supplémentaire par rang détaillant le test de réseau.
-des échanges NombreD'Échanges
Définit le nombre d'échanges
-désactiver-test-réseau
Ignore le test du réseau.
Débogage
-vérifier-l'intégrité-du-message
Vérifie la fiabilité des données de message pour tout message non vide. ajouter '-D CONFIG_SSE_4_2'
dans le Makefile pour utiliser l'instruction matérielle (SSE 4.2)
-run-profileur
Exécute le profileur pendant l'exécution du code. Par défaut, n'affiche que les avertissements de granularité.
L'exécution du profileur augmente les temps d'exécution.
-avec-détails-de-profil
Affiche le nombre de messages envoyés et reçus dans chaque méthode à chaque fois
tranches (époques). Besoins -run-profileur.
-show-communication-evenements
Affiche tous les messages envoyés et reçus.
-afficher-lire-placement
Affiche le placement de lecture dans le graphique pendant l'extension.
-debug-bulles
Débogue le code à bulles. Les bulles peuvent être dues à des sites hétérozygotes ou à des erreurs de séquençage
ou d'autres événements (inconnus)
-graines de débogage
Débogue le code de départ. Les graines sont des chemins dans le graphique qui sont probablement uniques.
-debug-fusions
Débogue le code de fusion.
-débogage-échafaudage
Déboguez le scaffolder.
DES DOSSIERS
Fichiers d'entrée
Remarque : le format de fichier est déterminé par l'extension de fichier.
.fasta .fasta.gz (nécessite HAVE_LIBZ=y à la compilation) .fasta.bz2 (nécessite HAVE_LIBBZ2=y
à la compilation) .fastq .fastq.gz (nécessite HAVE_LIBZ=y à la compilation) .fastq.bz2
(nécessite HAVE_LIBBZ2=y à la compilation) .sff (les lectures appariées doivent être extraites manuellement)
.csfasta (lecture de l'espace colorimétrique)
Fichiers générés
Échafaudages
RayOutput/Échafaudages.fasta
Les séquences d'échafaudage au format FASTA
RayOutput/ScaffoldComponents.txt
Les composants de chaque échafaudage
RayOutput/ScaffoldLengths.txt
La longueur de chaque échafaudage
RayOutput/ScaffoldLinks.txt
Liens d'échafaudage
Contigus
RayOutput/Contigs.fasta
Séquences contiguës au format FASTA
RayOutput/ContigLengths.txt
Les longueurs des séquences contiguës
Résumé
RayOutput/OutputNumbers.txt
Chiffres globaux pour l'assemblée
graphique de Bruijn
RayOutput/CoverageDistribution.txt
La distribution des valeurs de couverture
RayOutput/CoverageDistributionAnalysis.txt
Analyse de la répartition de la couverture
RayOutput/degréDistribution.txt
Répartition des diplômes entrants et sortants
RayOutput/kmers.txt
graphique k-mer, option requise : -écrire-kmers
Le fichier résultant n'est pas utilisé par Ray. Le fichier résultant est très volumineux.
Etapes d'assemblage
RayOutput/SeedLengthDistribution.txt
Répartition de la longueur des graines
RayOutput/Rang .OptimalReadMarkers.txt
Lire les marqueurs.
RayOutput/Rang .RaySeeds.fasta
Séquences d'ADN de semence, option requise : -écrire-graines
RayOutput/Rang .RayExtensions.fasta
Séquences d'ADN d'extension, option requise : -écrire-extensions
RayOutput/Rang .RayContigPaths.txt
Chemins contig avec valeurs de couverture, option requise : -écrire-contig-chemins
Lectures appariées
RayOutput/LibraryStatistics.txt
Estimation des distances externes pour les lectures appariées
RayOutput/Bibliothèque .SMS
Fréquences pour les distances extérieures observées (taille d'insertion + longueurs de lecture)
Partition
RayOutput/NumberOfSequences.txt
Nombre de lectures dans chaque fichier
RayOutput/SequencePartition.txt
Partition de séquence
Logiciel Ray
RayOutput/RayVersion.txt
La version de Ray
RayOutput/RayCommand.txt
Exactement la même commande fournie
AMOS
Sortie Ray/AMOS.afg
Représentation de l'assemblage au format AMOS, option requise : -amos
RayOutput/MessagePassingInterface.txt
Nombre de messages envoyés
RayOutput/NetworkTest.txt
Latences en microsecondes
RayOutput/Rang NetworkTestData.txt
Tester les données brutes du réseau
DOCUMENTATION
- mpiexec -n 1 rayon -Aide|less (toujours à jour) - Cette page d'aide (toujours
à jour) - Le répertoire Documentation/ - Manuel (Portable Document Format) :
InstructionManual.tex (dans la documentation) - Archives des listes de diffusion :
http://sourceforge.net/mailarchive/forum.php?forum_name=denovoassembler-utilisateurs
AUTEUR
Écrit par Sébastien Boisvert.
SIGNALER DES BOGUES
Signaler des bogues à [email protected] Page d'accueil:
<http://denovoassembler.sourceforge.net/>
DROIT D'AUTEUR
Ce programme est un logiciel libre : vous pouvez le redistribuer et/ou le modifier sous le
termes de la licence publique générale GNU telle que publiée par le logiciel libre
Fondation, version 3 de la Licence.
Ce programme est distribué dans l'espoir qu'il sera utile, mais SANS AUCUN
GARANTIE; sans même la garantie implicite de QUALITÉ MARCHANDE ou D'ADAPTATION À UN
RAISON PARTICULIÈRE. Voir la licence publique générale GNU pour plus de détails.
Vous avez reçu une copie de la licence publique générale GNU avec ce programme
(voir LICENCE).
Ray 2.1.0
Licence pour Ray : GNU General Public License version 3 RayPlatform version : 1.1.0 License
pour RayPlatform : Licence publique générale limitée GNU version 3
MAXKMERLENGTH : 32 KMER_U64_ARRAY_SIZE : 1 Profondeur de couverture maximale stockée par CoverageDepth :
4294967295 MAXIMUM_MESSAGE_SIZE_IN_BYTES : 4000 octets FORCE_PACKING = n ASSERT = n
HAVE_LIBZ = y HAVE_LIBBZ2 = y CONFIG_PROFILER_COLLECT = n CONFIG_CLOCK_GETTIME = n
__linux__ = y _MSC_VER = n __GNUC__ = y RAY_32_BITS = n RAY_64_BITS = y Norme MPI
version : MPI 2.1 Bibliothèque MPI : Open-MPI 1.4.2 Compilateur : GNU gcc/g++ 4.4.5
Utiliser Ray en ligne à l'aide des services onworks.net
