datamash - クラウドでオンライン

これは、Ubuntu Online、Fedora Online、Windows オンライン エミュレーター、または MAC OS オンライン エミュレーターなどの複数の無料オンライン ワークステーションの XNUMX つを使用して、OnWorks 無料ホスティング プロバイダーで実行できるコマンド datamash です。

プログラム:

NAME


datamash - コマンドライン計算

SYNOPSIS


データマッシュ [オプション] op [コル] [op コル ...]

DESCRIPTION


標準入力からの入力に対して数値/文字列操作を実行します。

「op」は実行する操作です。 グループ化の場合、行ごとの操作「col」が入力になります
使用するフィールド。 「col」は数値 (1=最初のフィールド)、または使用する場合は列名にすることができます。 -H or
--ヘッダーイン オプション。

File 操作:
移調、反転

ラインフィルタリング 操作:
rmdup

行ごと 操作:
Base64、debase64、md5、sha1、sha256、sha512

数値の グループ化 操作:
合計、最小、最大、absmin、absmax

テキスト/数値 グループ化 操作:
カウント、最初、最後、ランド、ユニーク、折りたたみ、カウントユニーク

統計的 グループ化 操作:
平均、中央値、q1、q3、iqr、モード、アンチモード、pstdev、sstdev、pvar svar、mad、madraw、
pskew、sskew、pkurt、skurt、dpo、jarque

OPTIONS


グループ化 オプション:
-f, - 満杯
演算結果の前に入力行全体を出力します (デフォルト: グループ化されたキーのみを出力します)

-g, - グループ=X[、Y、Z]
フィールド X、[Y、Z] によるグループ化

--ヘッダーイン
最初の入力行は列ヘッダーです

--ヘッダーアウト
列ヘッダーを最初の行として印刷します

-H, -ヘッダー
「--header-in」と同じ --ヘッダーアウト'

-i, --大文字と小文字を区別しない
テキストを比較するときに大文字と小文字を無視します。 これはグループ化と文字列に影響します
操作

-s, - 選別
グループ化する前に入力を並べ替えます。 これにより、入力を手動でパイプする必要がなくなりました。
「並べ替え」を通して

File 操作 オプション:
--厳密でない
さまざまな数のフィールドを含む行を許可する

--フィラー=X
欠損値を X で埋めます (デフォルト %s)

オプション:
-t, -フィールドセパレータ=X
フィールド区切り文字として TAB の代わりに X を使用します

--narm NA/NaN 値をスキップする

-W, --空白
フィールド区切り文字として空白 (XNUMX つ以上のスペースやタブ) を使用します。

-z, -ゼロで終了
改行ではなく0バイトで行を終了する

- 助けて このヘルプを表示して終了

- バージョン
出力バージョン情報を表示して終了

AVAILABLE オペレーション


File 操作:
転置 入力ファイルの行、列を転置します。

各行のフィールドの順序を逆にする

ラインフィルタリング 操作:
rmdup キー値が重複する行を削除する

行ごと 操作:
base64 フィールドをbase64としてエンコードします

デベース64 フィールドをbase64としてデコードし、無効なbase64文字列の場合はエラーで終了します。

md5/sha1/sha256/sha512
フィールド値の md5/sha1/sha256/sha512 ハッシュを計算します

各行のフィールドの順序を逆にする

数値の グループ化 操作
合計 値の合計

最小値

マックス 最大値

腹筋 絶対値の最小値

アブスマックス 絶対値の最大値

テキスト/数値 グループ化 操作
カウント グループ内の要素の数を数える

最初の グループの最初の値

last グループの最後の値

ランド グループからの XNUMX つのランダムな値

ユニーク カンマ区切りでソートされた一意の値のリスト

崩壊 すべての入力値のカンマ区切りリスト

カウントユニーク 一意の/個別の値の数

統計的 グループ化 操作
意味する 値の平均

中央値 中央値

q1 第 1 四分位値

q3 第 3 四分位値

iqr 四分位範囲

モード モード値 (最も一般的な値)

アンチモード アンチモード値 (最も一般的ではない値)

pstdev 母標準偏差

sstdev サンプルの標準偏差

pvar 人口分散

答え 標本分散

怒って 絶対偏差の中央値、正規分布の定数 1.4826 でスケール化

マドロー 絶対偏差の中央値、スケールなし

スキュー (サンプル) グループの歪度

歪んだ (母集団) グループの歪度
「sskew」および「pskew」操作によって報告される値 x :
x > 0 - 正に歪んだ/右に歪んだ
0 > x - 負に歪んだ/左に歪んだ
x > 1 - 大きく右に偏っています
1 > x > 0.5 - 適度に右に偏っています
0.5 > x > -0.5 - ほぼ対称
-0.5 > x > -1 - 中程度に左に偏っています
-1 > x - 左に大きく偏っています

スカート (サンプル) グループの過剰尖度

カート (集団) グループの超過尖度

ジャーク 正規性に関する Jarque-Beta 検定の p 値

dpo 正規性に関するダゴスティーノ・ピアソンオムニバス検定の p 値。
「jarque」および「dpo」操作の場合:
帰無仮説は正規性です。
低い p 値は、非正規データを示します。
高い p 値は、帰無仮説が棄却できないことを示します。


列 1 の値の合計と平均を出力します。

$ シーケンス 10 | データマッシュ 合計1 平均1
55 5.5

フィールド 1 に基づいて入力をグループ化し、フィールド 2 に値 (グループごと) を合計します。

$ 猫 example.txt
10
5
B 9
B 11
$ データマッシュ -g 1 合計 2 < example.txt
15
B 20

ソートされていない入力はソートする必要があります (「-s」を使用)。

$ 猫 example.txt
10
C 4
B 9
C 1
5
B 11
$ データマッシュ -s -g1 sum 2 < example.txt
15
B 20
C 5

これは次と同等です。

$ 猫の例.txt | ソート -k1,1 | データマッシュ -g 1 合計 2

  -h (--ヘッダー) 入力ファイルにヘッダー行がある場合:

# 学生の名前、分野、テストのスコアを含むファイルを指定します...
$ head -n5 スコア_h.txt
名前 メジャースコア
ショーン・エンジニアリング 47
カレブ ビジネス 87
クリスチャンビジネス 88
デレク・アーツ 60

# 各専攻の平均と標準偏差を計算します
$ データマッシュ --sort --headers --group 2 平均 3 pstdev 3 < スコア_h.txt
(または短い形式を使用してください)
$ データマッシュ -sH -g2 3 pstdev 3 < スコア_h.txt を意味します
(または名前付き列を使用します)
$ データマッシュ -sH -g メジャー平均スコア pstdev スコア <scores_h.txt
GroupBy(メジャー) 平均(スコア) pstdev(スコア)
芸術 68.9 10.1
ビジネス 87.3 4.9
エンジニアリング 66.5 19.1
保健医療 90.6 8.8
ライフサイエンス 55.3 19.7
社会科学 60.2 16.6

各行のフィールドの順序を逆にします。

$ シーケンス 6 | ペースト - - | データマッシュ
2 1
4 3
6 5

行と列を入れ替える:

$ シーケンス 6 | ペースト - - | データマッシュ 転置
1 3 5
2 4 6

重複するキー値を持つ行を列 1 から削除します (列 XNUMX とは異なります)。 最初の,last オペレーション、 rmdup
はるかに高速で、-s を使用してファイルを並べ替える必要はありません):

# ファイルとサンプル ID のリストが与えられた場合:
$猫入力
サンプルIDファイル
2cc.txt
3 dd.txt
1 ab.txt
2 ee.txt
3 ff.txt

# 重複したサンプル ID を持つ行を削除します (列 1):
$ データマッシュ rmdup 1 < 入力
(または名前付き列を使用)
$ データマッシュ -H rmdup サンプル ID < 入力
サンプルIDファイル
2cc.txt
3 dd.txt
1 ab.txt

各TXTファイルのsha1値を​​計算した後、各TXTファイルのsha1ハッシュ値を計算します。
ファイルの内容:

$ sha1sum *.txt | データマッシュ -Wf sha1 2

付加 情報


GNU Datamash Web サイト (http://www.gnu.org/software/datamash)

onworks.net サービスを使用してオンラインで datamash を使用する



最新のLinuxおよびWindowsオンラインプログラム