Il s'agit de la commande filter.pl qui peut être exécutée dans le fournisseur d'hébergement gratuit OnWorks en utilisant l'un de nos multiples postes de travail en ligne gratuits tels que Ubuntu Online, Fedora Online, l'émulateur en ligne Windows ou l'émulateur en ligne MAC OS
PROGRAMME:
Nom
filter.pl - filtre la sortie de murasaki en fonction de divers filtres
SYNOPSIS
filter.pl [options] [fichier de sortie]
OPTIONS
Options de filtrage :
Le filtrage peut être effectué sur « longueur », « hits », « tfidf » ou « score ».
Vous pouvez filtrer en définissant soit un "min" soit un "max".
Par exemple : "--minlength 50" filtre toutes les ancres avec une moyenne
longueur inférieure à 50. (la longueur moyenne est utilisée car une ancre
peuvent être de tailles différentes sur des séquences différentes).
Les filtres peuvent également utiliser la moyenne (x), l'écart-type (s),
variance(v) ou nombre d'ancres(a) dans une expression pour définir un filtre.
Par exemple : "--minscore=2x" définit le seuil de score minimum sur
deux fois la note moyenne. "--minlength=x+s/2" définit la longueur minimale
seuil à la longueur moyenne plus un demi-écart type.
Modification d'entrée :
"--widen=500" => étend chaque ancre de 500 bases dans les deux sens
"--randomwiden=500" => étend chaque ancre de 500 bases _au hasard_
(c'est-à-dire pour comparer à --widen)
Options de sortie :
"--statdump" => vider toutes les statistiques disponibles dans 1 fichier avec une ligne d'en-tête
"--dumpstats tfidf,length" => vide les statistiques tfidf et la longueur pour séparer les fichiers
une ligne par ancre
"--dumpstats" => suppose que "--dumpstats all"
Options de tracé :
filter.pl peut tracer tout ou partie des statistiques recueillies en utilisant
l'option "--plot".
Exemples :
"--plot hits,length" => trace à la fois les hits et la longueur
"--plot" => suppose que "--plot all"
"--plotopts" permet de définir diverses options de gnuplot et de tracé spécial.
Différentes statistiques peuvent être ciblées séparément en préfixant le paramètre
nom avec la ou les statistiques de votre choix suivi d'un "."
Par exemple :
"--plotopts hits,length.flatx" => désactive l'échelle de log sur l'axe des x
des hits et des tracés de longueur uniquement
"--plotopts with=points" => utilise des points au lieu de barres sur tous les tracés
"--plotopts = " => peut être utilisé pour définir arbitrairement
gnuplot options de la forme "set "
"--bins" peut être utilisé pour spécifier le nombre de casiers.
"--nobins" désactive le binning et trace un histogramme brut (probablement bosselé)
"--showall=crop" envoie toutes les données à gnuplot même sur des tracés à l'échelle logarithmique (par
par défaut pour les tracés à l'échelle logarithmique, les valeurs <=1 à l'extrême droite sont
coupés car ils n'apparaissent pas dans gnuplot (1 est la ligne de base)
mais ils affectent la plage visible et provoquent ainsi un certain froissement.
"--showall=scale" définit manuellement les plages X et Y sur la plage de la
données (donc les 1 sont visiblement différents des 0).
"--showall= " désactive la mise à l'échelle/le recadrage
Les commandes Gnuplot pour générer les tracés sont également transférées vers
. .plot et peut être exécuté de manière interactive dans gnuplot en tapant : load
" . .terrain"
Options statistiques :
"--all/--quick" => les calculs d'écart type nécessitent une seconde
passer à travers les données, et comme les tracés d'histogramme sont généralement beaucoup
plus utile qu'une statistique d'écart type (surtout si l'on considère
toutes ces statistiques peuvent ne pas être gaussiennes), donc à moins que l'un de vos
contraintes appelle un écart type, ce calcul est ignoré.
Il peut être forcé en appliquant --all. (--rapide est la valeur par défaut)
"--nodetails" => désactive la reconstruction des indices de terme (cela
désactiver les statistiques tfidf).
"--tags" => permet la lecture de l'annotation.
Cela produit des statistiques "bonnes, ratées, aléatoires" (qui peuvent également être tracées)
et informations de spécificité/sensibilité
"--notags" => désactive la lecture de l'annotation (par défaut)
Statistiques COG/KOG :
À tout prix:
"--kogfile=path/to/kog" => active l'alignement basé sur kog
"--kogmap 3=hsa" => force la séquence 3 (note : les séquences sont indexées à 0) à
être affecté au kog "hsa". Si le nom de fichier comprend l'un des
abréviations d'espèces de kog, il est supposé appartenir à ce kog.
Débogage:
"--linear" => force les scans linéaires pour les CDS au lieu des recherches binaires
(si cela renvoie des résultats différents, cela signifie que quelque chose ne va vraiment pas)
[fichier de sortie]:
Si le nom du fichier d'entrée est de la forme .anchors.details, puis le
[fichier de sortie] par défaut .filtré.
Incidemment, si vous ne fournissez pas de .anchors.details, ce ne sera probablement pas le cas
travailler quand même...
DESCRIPTION
Filtre les alignements murasaki en fonction de diverses statistiques. Diverses statistiques peuvent être tracées
en utilisant --plot. Les données d'annotation sont traitées à partir des fichiers d'entrée à l'aide de BioPerl.
Les données ROC peuvent être calculées à l'aide des données KOG (qui sont beaucoup plus fiables que le simple gène
noms). Pour ce faire, vous devez spécifier un fichier de données KOG qui peut être téléchargé à partir du COG
base de données à : http://www.ncbi.nlm.nih.gov/COG/ Vous chercherez soit le fichier "whog"
pour les COG ou le fichier "kog" côté KOG. La dénomination des locus KOG diffère parfois de GBK
fichier à fichier, et les noms de locus sont parfois manquants, donc l'évaluation basée sur KOG est actuellement
meilleur effort (la majuscule est ignorée, les lieux qui n'apparaissent pas dans l'annotation sont
ignorées et les terminaisons _x spécifiques au domaine sont ignorées).
Utilisez filter.pl en ligne en utilisant les services onworks.net
