Aceasta este comanda datamash care poate fi rulată în furnizorul de găzduire gratuit OnWorks folosind una dintre multiplele noastre stații de lucru online gratuite, cum ar fi Ubuntu Online, Fedora Online, emulator online Windows sau emulator online MAC OS
PROGRAM:
NUME
datamash - calcule din linia de comandă
REZUMAT
datamash [OPȚIUNE] op [cu] [op cu ...]
DESCRIERE
Efectuează operații numerice/șir la intrarea din stdin.
„op” este operația de efectuat; Pentru grupare, operațiunile pe linie „col” este intrarea
câmp de utilizat; „col” poate fi un număr (1=primul câmp) sau un nume de coloană când se utilizează -H or
--header-in opțiuni.
Fișier operațiuni:
transpune, invers
Filtrare de linie operațiuni:
rmdup
pe linie operațiuni:
base64, debase64, md5, sha1, sha256, sha512
Numeric Gruparea operațiuni:
suma, min, max, absmin, absmax
Textual/Numeric Gruparea operațiuni:
numără, primul, ultimul, rand, unic, colaps, countunique
Statistic Gruparea operațiuni:
medie, mediană, q1, q3, iqr, mod, antimod, pstdev, sstdev, pvar svar, nebun, madraw,
pskew, sskew, pkurt, skurt, dpo, jarque
OPŢIUNI
Gruparea Opțiuni:
-f, --deplin
imprimați întreaga linie de intrare înainte de rezultatele operațiunii (implicit: imprimați numai tastele grupate)
-g, --grup=X[,Y,Z]
grupați prin câmpurile X,[Y,Z]
--header-in
prima linie de intrare este antetul coloanei
--header-out
tipăriți anteturile coloanei ca primă linie
-H, --anteturi
la fel ca „--header-in --header-out'
-i, --ignora-majuscule
ignorați litere mari/minuscule atunci când comparați text; aceasta afectează gruparea și șirul
operațiuni
-s, --fel
sortați intrarea înainte de grupare; acest lucru elimină nevoia de a conducta manual intrarea
prin "sortare"
Fișier Ziua Operației Opțiuni:
--nu-strict
permite linii cu un număr diferit de câmpuri
--material de umplutură=X
completați valorile lipsă cu X (implicit %s)
General Opțiuni:
-t, --separator de câmp=X
utilizați X în loc de TAB ca delimitator de câmp
--narm omite valorile NA/NaN
-W, --spatiu alb
utilizați spații albe (unul sau mai multe spații și/sau file) pentru delimitatorii câmpurilor
-z, --zero-terminat
linii de sfârșit cu 0 octeți, nu linie nouă
--Ajutor afișați acest ajutor și ieșiți
--versiune
informații despre versiunea de ieșire și ieșire
DISPONIBIL OPERAȚII
Fișier operațiuni:
transpune transpune rânduri, coloane ale fișierului de intrare
inversa inversează ordinea câmpurilor în fiecare linie
Filtrare de linie operațiuni:
rmdup eliminați liniile cu valoarea cheie duplicată
pe linie operațiuni:
base64 Codificați câmpul ca base64
înjosi64 Decodați câmpul ca bază64, ieșiți cu eroare dacă șirul de bază64 este invalid
md5/sha1/sha256/sha512
Calculați hash md5/sha1/sha256/sha512 al valorii câmpului
inversa inversează ordinea câmpurilor în fiecare linie
Numeric Gruparea operațiuni
sumă suma valorilor
minute valoarea minimă
max valoare maximă
absmin minim al valorilor absolute
absmax maximul valorilor absolute
Textual/Numeric Gruparea operațiuni
conta numără numărul de elemente din grup
primul prima valoare a grupului
ultimul ultima valoare a grupului
rand o valoare aleatorie din grup
unic listă sortată de valori unice, separate prin virgulă
colaps listă separată prin virgulă a tuturor valorilor de intrare
countunic numărul de valori unice/distinctive
Statistic Gruparea operațiuni
însemna media valorilor
mediană valoarea mediană
q1 Valoarea primei quartile
q3 Valoarea a 3-a quartila
iqr intervalul inter-cuartil
mod valoarea modului (valoarea cea mai comună)
antimod valoare anti-mod (valoarea cea mai puțin comună)
pstdev abaterea standard a populației
sstdev abaterea standard a probei
pvar varianța populației
Răspuns varianța eșantionului
nebun abaterea mediană absolută, scalată cu constanta 1.4826 pentru distribuțiile normale
madraw abaterea mediană absolută, nescalată
sskew asimetrie a grupului (eșantionului).
pskew asimetrie a grupului (populației).
valorile x raportate de operațiile „sskew” și „pskew”:
x > 0 - denaturat pozitiv / deformat la dreapta
0 > x - înclinat negativ / înclinat spre stânga
x > 1 - dreapta foarte denaturată
1 > x > 0.5 - moderat înclinat la dreapta
0.5 > x > -0.5 - aproximativ simetric
-0.5 > x > -1 - moderat înclinată la stânga
-1 > x - stânga foarte denaturată
skurt excesul de Kurtoză a grupului (probă).
pkurt excesul de Kurtoză a grupului (populației).
jarque valoarea p a testului Jarque-Beta pentru normalitate
DPO valoarea p a testului Omnibus D'Agostino-Pearson pentru normalitate;
pentru operațiunile „jarque” și „dpo”:
ipoteza nulă este normalitatea;
Valorile p scăzute indică date nenormale;
Valorile p ridicate indică că ipoteza nulă nu poate fi respinsă.
EXEMPLE
Tipăriți suma și media valorilor din coloana 1:
$ secv 10 | datamash suma 1 înseamnă 1
55 5.5
Introducerea grupului pe baza câmpului 1 și a valorilor sumate (pe grup) în câmpul 2:
$ exemplu de pisică.txt
A 10
A 5
B 9
B 11
$ datamash -g 1 suma 2 < example.txt
A 15
B 20
Intrările nesortate trebuie sortate (cu „-s”):
$ exemplu de pisică.txt
A 10
C 4
B 9
C 1
A 5
B 11
$ datamash -s -g1 suma 2 < example.txt
A 15
B 20
C 5
Care este echivalent cu:
$ exemplu de pisică.txt | sortare -k1,1 | datamash -g 1 suma 2
Utilizare -h (--anteturi) dacă fișierul de intrare are o linie de antet:
# Dat un fișier cu numele studentului, câmpul, scorul la test...
$ head -n5 scors_h.txt
Nume Scorul major
Shawn Engineering 47
Caleb Business 87
Afaceri creștine 88
Derek Arts 60
# Calculați media și deviana standard pentru fiecare majoră
$ datamash --sort --headers --grup 2 medie 3 pstdev 3 < scores_h.txt
(sau folosiți forma scurtă)
$ datamash -sH -g2 medie 3 pstdev 3 < scors_h.txt
(sau utilizați coloane numite)
$ datamash -sH -g Scor mediu major pstdev Scor < scores_h.txt
GroupBy(Major) medie(Scor) pstdev(Scor)
Art. 68.9 10.1
Afaceri 87.3 4.9
Inginerie 66.5 19.1
Sănătate-Medicina 90.6 8.8
Științe ale vieții 55.3 19.7
Ştiinţe sociale 60.2 16.6
Inversați ordinea câmpurilor în fiecare rând:
$ secv 6 | pastă - - | datamash inversa
2 1
4 3
6 5
Transpune rânduri, coloane:
$ secv 6 | pastă - - | datamash transpune
1 3 5
2 4 6
Eliminați liniile cu valoarea cheie duplicată din coloana 1 (Spre deosebire de primul,ultimul operațiuni, rmdup
este mult mai rapid și nu necesită sortarea fișierului cu -s):
# Se oferă o listă de fișiere și ID-uri de eșantion:
$ cat INTRARE
Fișier SampleID
2 cc.txt
3 dd.txt
1 ab.txt
2 ee.txt
3 ff.txt
# Eliminați liniile cu Sample-ID duplicat (coloana 1):
$ datamash rmdup 1 < INTRARE
(sau folosită coloană numită)
$ datamash -H rmdup SampleID < INPUT
Fișier SampleID
2 cc.txt
3 dd.txt
1 ab.txt
Calculați valoarea hash sha1 a fiecărui fișier TXT, după calcularea valorii sha1 a fiecărui fișier
continutul fisierului:
$ sha1sum *.txt | datamash -Wf sha1 2
ADIŢIONAL INFORMAŢII
Vezi site-ul web GNU Datamash (http://www.gnu.org/software/datamash)
Utilizați datamash online folosind serviciile onworks.net