To jest polecenie datamash, które można uruchomić w bezpłatnym dostawcy hostingu OnWorks przy użyciu jednej z naszych wielu bezpłatnych stacji roboczych online, takich jak Ubuntu Online, Fedora Online, emulator online systemu Windows lub emulator online systemu MAC OS
PROGRAM:
IMIĘ
datamash - obliczenia z wiersza poleceń
STRESZCZENIE
mash danych [OPCJA] op [col] [op col ...]
OPIS
Wykonuje operacje numeryczne/ciągowe na wejściu ze standardowego wejścia.
„op” to operacja do wykonania; W przypadku grupowania danymi wejściowymi są operacje na wierszach „col”.
pole do wykorzystania; „col” może być liczbą (1=pierwsze pole) lub nazwą kolumny, jeśli jest używana -H or
--wejście nagłówka opcje.
filet operacje:
transponować, odwracać
Filtrowanie linii operacje:
rmdup
Za linię operacje:
base64, debase64, md5, sha1, sha256, sha512
Numeryczne Grupowanie operacje:
suma, min, max, absmin, absmax
Tekstowe/numeryczne Grupowanie operacje:
liczyć, pierwszy, ostatni, rand, unikalny, zwiń, Countunique
Statystyczny Grupowanie operacje:
średnia, mediana, q1, q3, iqr, tryb, antimode, pstdev, sstdev, pvar svar, mad, madraw,
pskew, sskew, pkurt, skurt, dpo, jarque
OPCJE
Grupowanie Opcje:
-f, --pełny
drukuj całą linię wejściową przed wynikami operacji (domyślnie: drukuj tylko zgrupowane klucze)
-g, --Grupa=X[,Y,Z]
grupuj poprzez pola X,[Y,Z]
--wejście nagłówka
pierwsza linia wejściowa to nagłówki kolumn
--wyjście nagłówka
wydrukuj nagłówki kolumn jako pierwszą linię
-H, --nagłówki
tak samo jak '--header-in --wyjście nagłówka'
-i, --ignoruj-przypadek
ignorować wielkie/małe litery podczas porównywania tekstu; wpływa to na grupowanie i ciąg
operacje
-s, --sortować
posortuj dane wejściowe przed grupowaniem; eliminuje to potrzebę ręcznego przesyłania danych wejściowych
poprzez „sortowanie”
filet Działanie Opcje:
--nie-ścisłe
zezwalaj na linie o różnej liczbie pól
--podsadzkarz=X
uzupełnij brakujące wartości X (domyślnie %s)
Ogólne Opcje:
-t, --separator pól=X
użyj X zamiast TAB jako ogranicznika pola
--narm pomiń wartości NA/NaN
-W, --Biała przestrzeń
użyj białych znaków (jednej lub więcej spacji i/lub tabulatorów) jako ograniczników pól
-z, --zakończony zerem
zakończ linie 0 bajtem, a nie nową linią
--help wyświetlenie tego opisu i zakończenie
--wersja
Informacje o wersji i zakończ
DOSTĘPNY OPERACJE
filet operacje:
transponować transponuj wiersze i kolumny pliku wejściowego
rewers odwróć kolejność pól w każdym wierszu
Filtrowanie linii operacje:
rmdup usuń linie ze zduplikowaną wartością klucza
Za linię operacje:
base64 Zakoduj pole jako base64
poniżyć64 Zdekoduj pole jako base64, zakończ z błędem, jeśli nieprawidłowy ciąg base64
md5/sha1/sha256/sha512
Oblicz skrót md5/sha1/sha256/sha512 wartości pola
rewers odwróć kolejność pól w każdym wierszu
Numeryczne Grupowanie operacje
suma sumować wartości
min Minimalna wartość
max maksymalna wartość
absmin minimum wartości bezwzględnych
absmax maksimum wartości bezwzględnych
Tekstowe/numeryczne Grupowanie operacje
liczyć policz liczbę elementów w grupie
drugim pierwsza wartość grupy
trwać ostatnia wartość grupy
rand jedną losową wartość z grupy
wyjątkowy posortowana lista wartości rozdzielonych przecinkami
upadek lista oddzielonych przecinkami wszystkich wartości wejściowych
hrabia liczba unikalnych/odrębnych wartości
Statystyczny Grupowanie operacje
oznaczać średnia wartości
mediana mediana wartości
q1 Wartość pierwszego kwartyla
q3 Wartość trzeciego kwartyla
iqr zakres międzykwartylowy
tryb wartość trybu (najczęstsza wartość)
antymod wartość przeciwtrybowa (najmniejsza wspólna wartość)
pstdev odchylenie standardowe populacji
sstdev Odchylenie standardowe próbki
pwar Wariancja populacji
odpowiedź wariancja próbki
szalony mediana odchylenia bezwzględnego, skalowana stałą 1.4826 dla rozkładów normalnych
Madraw mediana odchylenia bezwzględnego, nieskalowana
przekrzywić skośność grupy (próbnej).
psew skośność grupy (populacyjnej).
wartości x zgłaszane przez operacje „skew” i „pskew”:
x > 0 - dodatnio pochylony/przesunięty w prawo
0 > x - przesunięty ujemnie/przesunięty w lewo
x > 1 - mocno przesunięty w prawo
1 > x > 0.5 - umiarkowanie przesunięty w prawo
0.5 > x > -0.5 - w przybliżeniu symetryczny
-0.5 > x > -1 - umiarkowanie przesunięty w lewo
-1 > x - mocno przesunięty w lewo
skrzecz nadmiar Kurtozy grupy (próbki).
pkurt nadmierna Kurtoza grupy (populacyjnej).
Jarque Wartość p testu Jarque’a-Beta dla normalności
DPO wartość p testu D'Agostino-Pearsona Omnibus dla normalności;
dla operacji „jarque” i „dpo”:
hipoteza zerowa to normalność;
niskie wartości p wskazują na nieprawidłowe dane;
wysokie wartości p wskazują, że hipotezy zerowej nie można odrzucić.
PRZYKŁADY
Wydrukuj sumę i średnią wartości z kolumny 1:
$ kolejne 10 | mash danych suma 1 oznacza 1
55 5.5
Grupowanie danych wejściowych na podstawie pola 1 i wartości sumy (na grupę) w polu 2:
$ kot przykład.txt
10
5
B 9
B 11
$ mash danych -g 1 suma 2 < przykład.txt
15
B 20
Nieposortowane dane wejściowe muszą zostać posortowane (z „-s”):
$ kot przykład.txt
10
C 4
B 9
C 1
5
B 11
$ mash danych -s -g1 suma 2 < przykład.txt
15
B 20
C 5
Co jest równoważne z:
$ przykład kota.txt | sortuj -k1,1 | mash danych -g 1 suma 2
Zastosowanie -h (--nagłówki) jeśli plik wejściowy ma linię nagłówka:
# Otrzymano plik z imieniem i nazwiskiem ucznia, polem, wynikiem testu...
$ głowa -n5 scores_h.txt
Nazwij wynik główny
Inżynieria Shawna 47
Caleb Biznes 87
Biznes chrześcijański 88
Darek Art 60
# Oblicz średnią i odchylenie standardowe dla każdego kierunku
$ mash danych --sort --headers --group 2 oznacza 3 pstdev 3 < score_h.txt
(lub użyj krótkiej formy)
$ mash danych -sH -g2 średnia 3 pstdev 3 < score_h.txt
(lub użyj nazwanych kolumn)
$ mash danych -sH -g Średnia główna Wynik pstdev Wynik < score_h.txt
GroupBy(główny) średnia (wynik) pstdev (wynik)
Sztuka 68.9 10.1
Biznes 87.3 4.9
Inżynieria 66.5 19.1
Zdrowie-Medycyna 90.6 8.8
Nauki o życiu 55.3 19.7
Nauki społeczne 60.2 16.6
Odwróć kolejność pól w każdym wierszu:
$ sekwencja 6 | wklej - - | mash danych rewers
2 1
4 3
6 5
Transponuj wiersze, kolumny:
$ sekwencja 6 | wklej - - | mash danych transponować
1 3 5
2 4 6
Usuń linie ze zduplikowaną wartością klucza z kolumny 1 (w przeciwieństwie do drugim,trwać operacje, rmdup
jest znacznie szybszy i nie wymaga sortowania pliku za pomocą -s):
# Biorąc pod uwagę listę plików i przykładowe identyfikatory:
$ kot WEJŚCIE
Plik ID próbki
2 cc.txt
3 dd.txt
1 ab.txt
2 ee.txt
3 dalej.txt
# Usuń linie ze zduplikowanym identyfikatorem próbki (kolumna 1):
$ mash danych rmdup 1 < WEJŚCIE
(lub używana nazwana kolumna)
$ mash danych -H rmdup ID próbki < WEJŚCIE
Plik ID próbki
2 cc.txt
3 dd.txt
1 ab.txt
Oblicz wartość skrótu sha1 każdego pliku TXT po obliczeniu wartości sha1 każdego pliku
zawartość pliku:
$ sha1sum *.txt | datamash -Wf sha1 2
DODATKOWY INFORMACJE
Zobacz witrynę GNU Datamash (http://www.gnu.org/software/datamash)
Korzystaj z datamash online, korzystając z usług onworks.net