Dit is de opdrachtdatamash die kan worden uitgevoerd in de gratis hostingprovider van OnWorks met behulp van een van onze meerdere gratis online werkstations zoals Ubuntu Online, Fedora Online, Windows online emulator of MAC OS online emulator
PROGRAMMA:
NAAM
datamash - berekeningen via de opdrachtregel
KORTE INHOUD
datamash [OPTIE] op [col] [op col
PRODUCTBESCHRIJVING
Voert numerieke/tekenreeksbewerkingen uit op invoer van stdin.
'op' is de uit te voeren bewerking; Voor groepering is 'col' per regel de invoer
veld om te gebruiken; 'col' kan bij gebruik een getal zijn (1=eerste veld), of een kolomnaam -H or
--header-in opties.
Dien in activiteiten:
transponeren, omkeren
Lijnfiltering activiteiten:
rmdup
Per lijn activiteiten:
base64, debase64, md5, sha1, sha256, sha512
Numerieke Groepering activiteiten:
som, min, max, absmin, absmax
Tekstueel/numeriek Groepering activiteiten:
tellen, eerste, laatste, rand, uniek, ineenstorting, tellinguniek
Statistisch Groepering activiteiten:
gemiddelde, mediaan, q1, q3, iqr, mode, antimode, pstdev, sstdev, pvar svar, gek, madraw,
pskew, skew, pkurt, skurt, dpo, jarque
OPTIES
Groepering Opties:
-f, --vol
druk de volledige invoerregel af vóór de operationele resultaten (standaard: druk alleen de gegroepeerde toetsen af)
-g, --groep=X[,Y,Z]
groeperen via velden X,[Y,Z]
--header-in
De eerste invoerregel bestaat uit kolomkoppen
--header-uit
kolomkoppen afdrukken als eerste regel
-H, --koppen
hetzelfde als '--header-in --header-uit'
-i, --negeer zaak
negeer hoofdletters/kleine letters bij het vergelijken van tekst; dit heeft invloed op de groepering en de tekenreeks
operaties
-s, --soort
sorteer de invoer vóór het groeperen; hierdoor is het niet meer nodig om de invoer handmatig door te voeren
via 'sorteren'
Dien in Werking Opties:
--niet-strikt
regels toestaan met een variërend aantal velden
--vuller=X
vul ontbrekende waarden in met X (standaard %s)
Algemeen Opties:
-t, --veld-scheidingsteken=X
gebruik X in plaats van TAB als veldscheidingsteken
--narm sla NA/NaN-waarden over
-W, --witte ruimte
gebruik witruimte (een of meer spaties en/of tabs) voor veldscheidingstekens
-z, --zero-beëindigd
eindregels met 0 byte, niet nieuwe regel
--help laat deze hulp zien en eindig
--versie
uitgang versie informatie en eindig
BESCHIKBAAR WERKZAAMHEDEN
Dien in activiteiten:
transponeren rijen en kolommen van het invoerbestand transponeren
omkeren omgekeerde veldvolgorde op elke regel
Lijnfiltering activiteiten:
rmdup verwijder regels met dubbele sleutelwaarde
Per lijn activiteiten:
base64 Codeer het veld als base64
debase64 Decodeer het veld als base64, sluit af met een foutmelding als de base64-reeks ongeldig is
md5/sha1/sha256/sha512
Bereken de md5/sha1/sha256/sha512-hash van de veldwaarde
omkeren omgekeerde veldvolgorde op elke regel
Numerieke Groepering operaties
som som de waarden op
Min minimumwaarde
max maximale waarde
absmin minimum van de absolute waarden
absmax maximum van de absolute waarden
Tekstueel/numeriek Groepering operaties
tellen tel het aantal elementen in de groep
eerste de eerste waarde van de groep
laatste de laatste waarde van de groep
rand één willekeurige waarde uit de groep
unieke door komma's gescheiden gesorteerde lijst met unieke waarden
ineenstorting door komma's gescheiden lijst met alle invoerwaarden
graaf uniek aantal unieke/onderscheiden waarden
Statistisch Groepering operaties
gemiddelde gemiddelde van de waarden
mediaan mediane waarde
q1 Waarde 1e kwartiel
q3 3e kwartielwaarde
iqr interkwartielbereik
mode moduswaarde (meest voorkomende waarde)
anti-mode anti-moduswaarde (minst voorkomende waarde)
pstdev populatie standaarddeviatie
sstdev voorbeeld standaarddeviatie
pvar populatievariantie
antwoord geven steekproefvariantie
gek mediane absolute afwijking, geschaald met constante 1.4826 voor normale verdelingen
madra mediaan absolute afwijking, ongeschaald
scheef scheefheid van de (steekproef)groep
pskew scheefheid van de (bevolkings)groep
waarden x gerapporteerd door 'sskew'- en 'pskew'-bewerkingen:
x > 0 - positief scheef / scheef naar rechts
0 > x - negatief scheef / scheef naar links
x > 1 - zeer scheef naar rechts
1 > x > 0.5 - matig scheef naar rechts
0.5 > x > -0.5 - ongeveer symmetrisch
-0.5 > x > -1 - matig scheef naar links
-1 > x - zeer scheef naar links
skurt overtollige Kurtosis van de (monster)groep
pkurt overtollige Kurtosis van de (bevolkings)groep
jarque p-waarde van de Jarque-Beta-test voor normaliteit
dpo p-waarde van de D'Agostino-Pearson Omnibus-test voor normaliteit;
voor 'jarque'- en 'dpo'-bewerkingen:
nulhypothese is normaliteit;
lage p-waarden duiden op niet-normale gegevens;
hoge p-waarden geven aan dat de nulhypothese niet kan worden afgewezen.
Voorbeelden
Druk de som en het gemiddelde van de waarden uit kolom 1 af:
$ vervolg 10 | datamash som 1 gemiddelde 1
55 5.5
Groepsinvoer op basis van veld 1, en somwaarden (per groep) op veld 2:
$ kat voorbeeld.txt
Een 10
Een 5
B 9
B 11
$ datamash -g 1 som 2 < voorbeeld.txt
Een 15
B 20
Ongesorteerde invoer moet worden gesorteerd (met '-s'):
$ kat voorbeeld.txt
Een 10
C 4
B 9
C 1
Een 5
B 11
$ datamash -s -g1 som 2 < voorbeeld.txt
Een 15
B 20
C 5
Wat gelijk is aan:
$ cat voorbeeld.txt | sorteer -k1,1 | datamash -g 1 som 2
Te gebruiken -h (--koppen) als het invoerbestand een kopregel heeft:
# Gegeven een bestand met de naam van de student, het veld, de testscore...
$ hoofd -n5 scores_h.txt
Noem de hoofdscore
Shawn Techniek 47
Caleb Zaken 87
Christelijk bedrijf 88
Derek Arts60
# Bereken de gemiddelde en standaarddeviaan voor elke major
$ datamash --sort --headers --groep 2 gemiddelde 3 pstdev 3 < scores_h.txt
(of gebruik een korte vorm)
$ datamash -sH -g2 gemiddelde 3 pstdev 3 < scores_h.txt
(of gebruik benoemde kolommen)
$ datamash -sH -g Belangrijkste gemiddelde Score pstdev Score < scores_h.txt
GroupBy(Major) mean(Score) pstdev(Score)
Kunst 68.9 10.1
Zakelijk 87.3 4.9
Techniek 66.5 19.1
Gezondheidsgeneeskunde 90.6 8.8
Levenswetenschappen 55.3 19.7
Sociale Wetenschappen 60.2 16.6
Omgekeerde veldvolgorde op elke regel:
$ vervolg 6 | plakken - - | datamash omkeren
2 1
4 3
6 5
Rijen, kolommen transponeren:
$ vervolg 6 | plakken - - | datamash transponeren
1 3 5
2 4 6
Verwijder regels met dubbele sleutelwaarde uit kolom 1 (In tegenstelling tot eerste,laatste activiteiten, rmdup
is veel sneller en vereist geen sortering van het bestand met -s):
# Gegeven een lijst met bestanden en voorbeeld-ID's:
$ kat INPUT
SampleID-bestand
2 cc.txt
3 dd.txt
1 ab.txt
2 ee.txt
3 ff.txt
# Verwijder regels met dubbele monster-ID (kolom 1):
$ datamash rmdup 1 < INGANG
(of gebruikte benoemde kolom)
$ datamash -H rmdup MonsterID < INPUT
SampleID-bestand
2 cc.txt
3 dd.txt
1 ab.txt
Bereken de sha1-hashwaarde van elk TXT-bestand, na het berekenen van de sha1-waarde van elk
inhoud van het bestand:
$ sha1sum *.txt | datamash -Wf sha1 2
EXTRA INFORMATIE
Zie de GNU Datamash-website (http://www.gnu.org/software/datamash)
Gebruik datamash online met behulp van onworks.net-services