Ito ang command datamash na maaaring patakbuhin sa OnWorks na libreng hosting provider gamit ang isa sa aming maramihang libreng online na workstation gaya ng Ubuntu Online, Fedora Online, Windows online emulator o MAC OS online emulator
PROGRAMA:
NAME
datamash - mga kalkulasyon ng command-line
SINOPSIS
datamash [OPTION] op [co] [op co ...]
DESCRIPTION
Nagsasagawa ng numeric/string operations sa input mula sa stdin.
'op' ay ang operasyon upang maisagawa; Para sa pagpapangkat, per-line operations 'col' ang input
patlang na gagamitin; Ang 'col' ay maaaring isang numero (1=unang field), o isang pangalan ng column kapag ginagamit -H or
--header-in mga pagpipilian.
talaksan operasyon:
transpose, baligtarin
Line-Filtering operasyon:
rmdup
Per-Line operasyon:
base64, debase64, md5, sha1, sha256, sha512
Numeric Pagpapangkat operasyon:
kabuuan, min, max, absmin, absmax
Tekstwal/Numeric Pagpapangkat operasyon:
bilang, una, huli, rand, natatangi, pagbagsak, countunique
Estatistiko Pagpapangkat operasyon:
ibig sabihin, median, q1, q3, iqr, mode, antimode, pstdev, sstdev, pvar svar, baliw, madraw,
pskew, sskew, pkurt, skurt, dpo, jarque
Opsyon
Pagpapangkat Pagpipilian:
-f, --puno
i-print ang buong linya ng input bago ang mga resulta ng op (default: i-print lamang ang mga nakagrupong key)
-g, --grupo=X[,Y,Z]
pangkat sa pamamagitan ng mga patlang X, [Y, Z]
--header-in
ang unang linya ng pag-input ay mga header ng hanay
--header-out
i-print ang mga header ng column bilang unang linya
-H, --mga header
katulad ng '--header-in --header-out'
-i, --balewalain-kaso
huwag pansinin ang upper/lower case kapag naghahambing ng text; nakakaapekto ito sa pagpapangkat, at string
pagpapatakbo
-s, --uri-uriin
pag-uri-uriin ang input bago pagpangkat; inaalis nito ang pangangailangang manu-manong i-pipe ang input
sa pamamagitan ng 'sort'
talaksan Operasyon Pagpipilian:
--hindi-mahigpit
payagan ang mga linya na may iba't ibang bilang ng mga patlang
--tagapuno=X
punan ang mga nawawalang halaga ng X (default %s)
Pangkalahatan Pagpipilian:
-t, --field-separator=X
gamitin ang X sa halip na TAB bilang field delimiter
--narm laktawan ang mga halaga ng NA/NaN
-W, --whitespace
gumamit ng whitespace (isa o higit pang mga puwang at/o mga tab) para sa mga delimiter ng field
-z, --zero-terminated
pagtatapos ng mga linya na may 0 byte, hindi bagong linya
- Tumulong ipakita ang tulong na ito at lumabas
--bersyon
impormasyon sa bersyon ng output at paglabas
MAGAGAMIT MGA OPERASYON
talaksan operasyon:
baligtarin i-transpose ang mga row, column ng input file
baligtarin baligtarin ang pagkakasunud-sunod ng field sa bawat linya
Line-Filtering operasyon:
rmdup alisin ang mga linyang may dobleng halaga ng key
Per-Line operasyon:
base64 I-encode ang field bilang base64
debase64 I-decode ang field bilang base64, lumabas nang may error kung hindi wasto ang base64 string
md5/sha1/sha256/sha512
Kalkulahin ang md5/sha1/sha256/sha512 hash ng field value
baligtarin baligtarin ang pagkakasunud-sunod ng field sa bawat linya
Numeric Pagpapangkat pagpapatakbo
kabuuan kabuuan ng mga halaga
minuto pinakamaliit na value
max maximum na halaga
absmin minimum ng mga ganap na halaga
absmax maximum ng mga ganap na halaga
Tekstwal/Numeric Pagpapangkat pagpapatakbo
bilangin bilangin ang bilang ng mga elemento sa pangkat
una ang unang halaga ng pangkat
huli ang huling halaga ng pangkat
Rand isang random na halaga mula sa pangkat
kakaiba pinaghihiwalay ng kuwit na pinagsunod-sunod na listahan ng mga natatanging halaga
pagbagsak comma-separated list ng lahat ng input value
countunique bilang ng mga natatangi/natatangi na halaga
Estatistiko Pagpapangkat pagpapatakbo
ibig sabihin ibig sabihin ng mga halaga
panggitna panggitna halaga
q1 1st quartile value
q3 3rd quartile value
iqr hanay ng inter-quartile
paraan halaga ng mode (pinakakaraniwang halaga)
antimode halaga ng anti-mode (hindi gaanong karaniwang halaga)
pstdev pamantayan ng paglihis ng populasyon
sstdev sample na karaniwang paglihis
pvar pagkakaiba-iba ng populasyon
sagot pagkakaiba-iba ng sample
baliw median absolute deviation, na na-scale ng pare-parehong 1.4826 para sa mga normal na distribusyon
madraw median absolute deviation, unscaled
skew skewness ng (sample) group
pskew skewness ng (populasyon) pangkat
mga halagang x na iniulat ng 'sskew' at 'pskew' na operasyon:
x > 0 - positibong skewed / skewed pakanan
0 > x - negatibong skewed / skewed pakaliwa
x > 1 - mataas ang baluktot sa kanan
1 > x > 0.5 - katamtamang liko pakanan
0.5 > x > -0.5 - humigit-kumulang simetriko
-0.5 > x > -1 - katamtamang liko pakaliwa
-1 > x - mataas ang liko sa kaliwa
skurt labis na Kurtosis ng (sample) na pangkat
pkurt labis na Kurtosis ng (populasyon) pangkat
jarque p-value ng Jarque-Beta test para sa normalidad
dpo p-value ng D'Agostino-Pearson Omnibus test para sa normalidad;
para sa 'jarque' at 'dpo' na operasyon:
ang null hypothesis ay normalidad;
ang mababang p-Values ay nagpapahiwatig ng hindi normal na data;
Ang mataas na p-Values ay nagpapahiwatig ng null-hypothesis na hindi maaaring tanggihan.
HALIMBAWA
I-print ang kabuuan at ang ibig sabihin ng mga halaga mula sa column 1:
$ seq 10 | datamash kabuuan 1 ibig sabihin 1
55 5.5
Group input batay sa field 1, at sum values (bawat grupo) sa field 2:
$ pusa example.txt
Isang 10
Isang 5
B 9
B 11
$ datamash -g 1 kabuuan 2 < example.txt
Isang 15
B 20
Dapat na pagbukud-bukurin ang hindi naayos na input (na may '-s'):
$ pusa example.txt
Isang 10
C 4
B 9
C 1
Isang 5
B 11
$ datamash -s -g1 kabuuan 2 < example.txt
Isang 15
B 20
C 5
Alin ang katumbas ng:
$ cat example.txt | sort -k1,1 | datamash -g 1 kabuuan 2
paggamit -h (--headers) kung ang input file ay may linya ng header:
# Binigyan ng file na may pangalan ng mag-aaral, field, marka ng pagsusulit...
$ ulo -n5 scores_h.txt
Pangalan Major Score
Shawn Engineering 47
Negosyo ng Caleb 87
Negosyong Kristiyano 88
Derek Arts 60
# Kalkulahin ang mean at standard devian para sa bawat major
$ datamash --sort --headers --group 2 mean 3 pstdev 3 < scores_h.txt
(o gumamit ng maikling form)
$ datamash -sH -g2 ibig sabihin 3 pstdev 3 < scores_h.txt
(o gumamit ng mga pinangalanang column)
$ datamash -sH -g Major mean Score pstdev Score < scores_h.txt
GroupBy(Major) mean(Score) pstdev(Score)
Sining 68.9 10.1
Negosyo 87.3 4.9
Engineering 66.5 19.1
Health-Medicine 90.6 8.8
Life-Sciences 55.3 19.7
Social-Sciences 60.2 16.6
Baliktarin ang pagkakasunud-sunod ng field sa bawat linya:
$ seq 6 | idikit - - | datamash baligtarin
2 1
4 3
6 5
Ilipat ang mga row, column:
$ seq 6 | idikit - - | datamash baligtarin
+1 3 5
+2 4 6
Alisin ang mga linyang may duplicate na halaga ng key mula sa column 1 (Hindi tulad ng una,huli operasyon, rmdup
ay mas mabilis at hindi nangangailangan ng pag-uuri ng file gamit ang -s):
# Binigyan ng listahan ng mga file at sample ID:
$ pusa INPUT
SampleID File
2 cc.txt
3 dd.txt
1 ab.txt
2 ee.txt
3 ff.txt
# Alisin ang mga linyang may duplicate na Sample-ID (column 1):
$ datamash rmdup 1 < INPUT
(o ginamit na pinangalanang column)
$ datamash -H rmdup SampleID < INPUT
SampleID File
2 cc.txt
3 dd.txt
1 ab.txt
Kalkulahin ang sha1 hash value ng bawat TXT file, pagkatapos kalkulahin ang sha1 value ng bawat isa
nilalaman ng file:
$ sha1sum *.txt | datamash -Wf sha1 2
KARAGDAGANG IMPORMASYON
Tingnan ang GNU Datamash Website (http://www.gnu.org/software/datamash)
Gumamit ng datamash online gamit ang mga serbisyo ng onworks.net