Il s'agit de la commande datamash qui peut être exécutée dans le fournisseur d'hébergement gratuit OnWorks à l'aide de l'un de nos multiples postes de travail en ligne gratuits tels que Ubuntu Online, Fedora Online, l'émulateur en ligne Windows ou l'émulateur en ligne MAC OS
PROGRAMME:
Nom
datamash - calculs en ligne de commande
SYNOPSIS
datamash [OPTION] op [avec] [op avec ...]
DESCRIPTION
Effectue des opérations numériques/chaînes sur l'entrée de stdin.
'op' est l'opération à effectuer ; Pour le regroupement, les opérations par ligne 'col' est l'entrée
champ à utiliser ; 'col' peut être un nombre (1=premier champ) ou un nom de colonne lors de l'utilisation -H or
--en-tête-in options.
Déposez votre dernière attestation opérations:
transposer, inverser
Filtrage de ligne opérations:
rmdup
Par ligne opérations:
base64, avilir64, md5, sha1, sha256, sha512
Numérique regroupement opérations:
somme, min, max, absmin, absmax
Textuel/Numérique regroupement opérations:
compter, premier, dernier, rand, unique, effondrement, countunique
Statistique regroupement opérations:
moyenne, médiane, q1, q3, iqr, mode, antimode, pstdev, sstdev, pvar svar, fou, madraw,
pskew, sskew, pkurt, skurt, dpo, jarque
OPTIONS
regroupement Options:
-f, --complet
imprimer toute la ligne d'entrée avant les résultats de l'opération (par défaut : n'imprimer que les touches groupées)
-g, --grouper=X[,Y,Z]
groupe via les champs X,[Y,Z]
--en-tête-in
la première ligne d'entrée correspond aux en-têtes de colonne
--en-tête de sortie
imprimer les en-têtes de colonnes en première ligne
-H, --en-têtes
identique à '--header-in --en-tête de sortie'
-i, --ignore-cas
ignorer les majuscules/minuscules lors de la comparaison de texte ; cela affecte le regroupement et la chaîne
-s, --sorte
trier l'entrée avant de regrouper ; cela supprime le besoin de diriger manuellement l'entrée
par « trier »
Déposez votre dernière attestation Opération Options:
--no-strict
autoriser les lignes avec un nombre variable de champs
--remplissage=X
remplir les valeurs manquantes avec X (par défaut %s)
Général Options:
-t, --séparateur de champs=X
utiliser X au lieu de TAB comme délimiteur de champ
--narm ignorer les valeurs NA/NaN
-W, --espace
utiliser des espaces (un ou plusieurs espaces et/ou tabulations) pour les délimiteurs de champs
-z, --terminé par zéro
fin des lignes avec 0 octet, pas de nouvelle ligne
--Aidez-moi afficher cette aide et quitte
--version
informations de version et quitte
DISPONIBLE OPÉRATIONS
Déposez votre dernière attestation opérations:
transposer transposer les lignes, les colonnes du fichier d'entrée
inverser inverser l'ordre des champs dans chaque ligne
Filtrage de ligne opérations:
rmdup supprimer les lignes avec une valeur de clé dupliquée
Par ligne opérations:
base64 Encoder le champ en base64
avilir64 Décoder le champ en base64, quitter avec une erreur si chaîne base64 invalide
md5/sha1/sha256/sha512
Calculer le hachage md5/sha1/sha256/sha512 de la valeur du champ
inverser inverser l'ordre des champs dans chaque ligne
Numérique regroupement
somme somme des valeurs
m. valeur minimale
max valeur maximum
absmine minimum des valeurs absolues
absmax maximum des valeurs absolues
Textuel/Numérique regroupement
compter compter le nombre d'éléments dans le groupe
premier la première valeur du groupe
dernier la dernière valeur du groupe
rand une valeur aléatoire du groupe
unique liste triée par des virgules de valeurs uniques
effondrement liste séparée par des virgules de toutes les valeurs d'entrée
pays nombre de valeurs uniques/distinctes
Statistique regroupement
signifier moyenne des valeurs
médiane valeur médiane
q1 valeur du 1er quartile
q3 Valeur du 3e quartile
iqr gamme interquartile
mode valeur du mode (valeur la plus courante)
antimode valeur anti-mode (valeur la moins commune)
pstdev écart type de la population
sstdev écart type de l'échantillon
pvar variance de la population
réponse variance de l'échantillon
fou écart absolu médian, mis à l'échelle par la constante 1.4826 pour les distributions normales
fou écart absolu médian, non mis à l'échelle
incliner asymétrie du groupe (échantillon)
pskew asymétrie du groupe (de population)
valeurs x rapportées par les opérations 'sskew' et 'pskew' :
x > 0 - positivement asymétrique / asymétrique à droite
0 > x - biais négatif / biais gauche
x > 1 - fortement asymétrique à droite
1 > x > 0.5 - modérément asymétrique à droite
0.5 > x > -0.5 - approximativement symétrique
-0.5 > x > -1 - modérément asymétrique à gauche
-1 > x - fortement asymétrique à gauche
jupe excès d'aplatissement du groupe (échantillon)
pkurt excès d'aplatissement du groupe (de population)
jaque Valeur p du test de Jarque-Beta pour la normalité
alors valeur p du test de normalité D'Agostino-Pearson Omnibus ;
pour les opérations 'jarque' et 'dpo' :
l'hypothèse nulle est la normalité ;
des valeurs p faibles indiquent des données non normales ;
Des valeurs p élevées indiquent que l'hypothèse nulle ne peut pas être rejetée.
EXEMPLES
Imprimez la somme et la moyenne des valeurs de la colonne 1 :
$ séq 10 | datamash somme 1 moyenne 1
+55 (5.5)XNUMX XNUMX
Saisie de groupe basée sur le champ 1 et somme des valeurs (par groupe) sur le champ 2 :
$ chat exemple.txt
B 9
B 11
$ datamash -g 1 somme 2 < exemple.txt
B 20
Les entrées non triées doivent être triées (avec '-s'):
$ chat exemple.txt
C 4
B 9
C 1
B 11
$ datamash -s -g1 somme 2 < exemple.txt
B 20
C 5
Ce qui équivaut à :
$ chat exemple.txt | trier -k1,1 | datamash -g 1 somme 2
Utilisez -h (--en-têtes) si le fichier d'entrée a une ligne d'en-tête :
# Donné un fichier avec le nom de l'étudiant, le domaine, le résultat du test...
$ head -n5 scores_h.txt
Nom Major Score
Shawn Ingénierie 47
Caleb Affaires 87
affaires chrétiennes 88
Derek Arts 60
# Calculer la moyenne et l'écart type pour chaque majeure
$ datamash --sort --headers --group 2 signifie 3 pstdev 3 < scores_h.txt
(ou utilisez une forme courte)
$ datamash -sH -g2 signifie 3 pstdev 3 < scores_h.txt
(ou utilisez des colonnes nommées)
$ datamash -sH -g Moyenne majeure Score pstdev Score < scores_h.txt
GroupBy(Major) signifie(Score) pstdev(Score)
Arts 68.9 10.1
Entreprise 87.3 4.9
Ingénierie 66.5 19.1
Santé-Médecine 90.6 8.8
Sciences de la vie 55.3 19.7
Sciences sociales 60.2 16.6
Inverser l'ordre des champs dans chaque ligne :
$ suite 6 | pâte - - | datamash inverser
+2 (1)XNUMX XNUMX
+4 (3)XNUMX XNUMX
+6 (5)XNUMX XNUMX
Transposer les lignes, les colonnes :
$ suite 6 | pâte - - | datamash transposer
+1 (3)5
+2 (4)6
Supprimez les lignes avec une valeur de clé en double de la colonne 1 (contrairement à premier,dernier opérations, rmdup
est beaucoup plus rapide et ne nécessite pas de trier le fichier avec -s):
# Étant donné une liste de fichiers et d'exemples d'ID :
$ chat ENTRÉE
Fichier d'ID d'échantillon
2 cc.txt
3 jj.txt
1 ab.txt
2 ee.txt
3 et suiv.txt
# Supprimer les lignes avec Sample-ID dupliqué (colonne 1) :
$ datamash rmdup 1 < ENTRÉE
(ou colonne nommée utilisée)
$ datamash -H rmdup SampleID < INPUT
Fichier d'ID d'échantillon
2 cc.txt
3 jj.txt
1 ab.txt
Calculez la valeur de hachage sha1 de chaque fichier TXT, après avoir calculé la valeur sha1 de chacun
contenu du fichier :
$ sha1sum *.txt | datamash -Wf sha1 2
COMPLÉMENTAIRES INFORMATION
Voir le site Web de GNU Datamash (http://www.gnu.org/software/datamash)
Utiliser datamash en ligne à l'aide des services onworks.net