これは、Ubuntu Online、Fedora Online、Windows オンライン エミュレーター、または MAC OS オンライン エミュレーターなどの複数の無料オンライン ワークステーションの XNUMX つを使用して、OnWorks 無料ホスティング プロバイダーで実行できるコマンド datamash です。
プログラム:
NAME
datamash - コマンドライン計算
SYNOPSIS
データマッシュ [オプション] op [コル] [op コル ...]
DESCRIPTION
標準入力からの入力に対して数値/文字列操作を実行します。
「op」は実行する操作です。 グループ化の場合、行ごとの操作「col」が入力になります
使用するフィールド。 「col」は数値 (1=最初のフィールド)、または使用する場合は列名にすることができます。 -H or
--ヘッダーイン オプション。
File 操作:
移調、反転
ラインフィルタリング 操作:
rmdup
行ごと 操作:
Base64、debase64、md5、sha1、sha256、sha512
数値の グループ化 操作:
合計、最小、最大、absmin、absmax
テキスト/数値 グループ化 操作:
カウント、最初、最後、ランド、ユニーク、折りたたみ、カウントユニーク
統計的 グループ化 操作:
平均、中央値、q1、q3、iqr、モード、アンチモード、pstdev、sstdev、pvar svar、mad、madraw、
pskew、sskew、pkurt、skurt、dpo、jarque
OPTIONS
グループ化 オプション:
-f, - 満杯
演算結果の前に入力行全体を出力します (デフォルト: グループ化されたキーのみを出力します)
-g, - グループ=X[、Y、Z]
フィールド X、[Y、Z] によるグループ化
--ヘッダーイン
最初の入力行は列ヘッダーです
--ヘッダーアウト
列ヘッダーを最初の行として印刷します
-H, -ヘッダー
「--header-in」と同じ --ヘッダーアウト'
-i, --大文字と小文字を区別しない
テキストを比較するときに大文字と小文字を無視します。 これはグループ化と文字列に影響します
操作
-s, - 選別
グループ化する前に入力を並べ替えます。 これにより、入力を手動でパイプする必要がなくなりました。
「並べ替え」を通して
File 操作 オプション:
--厳密でない
さまざまな数のフィールドを含む行を許可する
--フィラー=X
欠損値を X で埋めます (デフォルト %s)
オプション:
-t, -フィールドセパレータ=X
フィールド区切り文字として TAB の代わりに X を使用します
--narm NA/NaN 値をスキップする
-W, --空白
フィールド区切り文字として空白 (XNUMX つ以上のスペースやタブ) を使用します。
-z, -ゼロで終了
改行ではなく0バイトで行を終了する
- 助けて このヘルプを表示して終了
- バージョン
出力バージョン情報を表示して終了
AVAILABLE オペレーション
File 操作:
転置 入力ファイルの行、列を転置します。
逆 各行のフィールドの順序を逆にする
ラインフィルタリング 操作:
rmdup キー値が重複する行を削除する
行ごと 操作:
base64 フィールドをbase64としてエンコードします
デベース64 フィールドをbase64としてデコードし、無効なbase64文字列の場合はエラーで終了します。
md5/sha1/sha256/sha512
フィールド値の md5/sha1/sha256/sha512 ハッシュを計算します
逆 各行のフィールドの順序を逆にする
数値の グループ化 操作
合計 値の合計
分 最小値
マックス 最大値
腹筋 絶対値の最小値
アブスマックス 絶対値の最大値
テキスト/数値 グループ化 操作
カウント グループ内の要素の数を数える
最初の グループの最初の値
last グループの最後の値
ランド グループからの XNUMX つのランダムな値
ユニーク カンマ区切りでソートされた一意の値のリスト
崩壊 すべての入力値のカンマ区切りリスト
カウントユニーク 一意の/個別の値の数
統計的 グループ化 操作
意味する 値の平均
中央値 中央値
q1 第 1 四分位値
q3 第 3 四分位値
iqr 四分位範囲
モード モード値 (最も一般的な値)
アンチモード アンチモード値 (最も一般的ではない値)
pstdev 母標準偏差
sstdev サンプルの標準偏差
pvar 人口分散
答え 標本分散
怒って 絶対偏差の中央値、正規分布の定数 1.4826 でスケール化
マドロー 絶対偏差の中央値、スケールなし
スキュー (サンプル) グループの歪度
歪んだ (母集団) グループの歪度
「sskew」および「pskew」操作によって報告される値 x :
x > 0 - 正に歪んだ/右に歪んだ
0 > x - 負に歪んだ/左に歪んだ
x > 1 - 大きく右に偏っています
1 > x > 0.5 - 適度に右に偏っています
0.5 > x > -0.5 - ほぼ対称
-0.5 > x > -1 - 中程度に左に偏っています
-1 > x - 左に大きく偏っています
スカート (サンプル) グループの過剰尖度
カート (集団) グループの超過尖度
ジャーク 正規性に関する Jarque-Beta 検定の p 値
dpo 正規性に関するダゴスティーノ・ピアソンオムニバス検定の p 値。
「jarque」および「dpo」操作の場合:
帰無仮説は正規性です。
低い p 値は、非正規データを示します。
高い p 値は、帰無仮説が棄却できないことを示します。
例
列 1 の値の合計と平均を出力します。
$ シーケンス 10 | データマッシュ 合計1 平均1
55 5.5
フィールド 1 に基づいて入力をグループ化し、フィールド 2 に値 (グループごと) を合計します。
$ 猫 example.txt
10
5
B 9
B 11
$ データマッシュ -g 1 合計 2 < example.txt
15
B 20
ソートされていない入力はソートする必要があります (「-s」を使用)。
$ 猫 example.txt
10
C 4
B 9
C 1
5
B 11
$ データマッシュ -s -g1 sum 2 < example.txt
15
B 20
C 5
これは次と同等です。
$ 猫の例.txt | ソート -k1,1 | データマッシュ -g 1 合計 2
-h (--ヘッダー) 入力ファイルにヘッダー行がある場合:
# 学生の名前、分野、テストのスコアを含むファイルを指定します...
$ head -n5 スコア_h.txt
名前 メジャースコア
ショーン・エンジニアリング 47
カレブ ビジネス 87
クリスチャンビジネス 88
デレク・アーツ 60
# 各専攻の平均と標準偏差を計算します
$ データマッシュ --sort --headers --group 2 平均 3 pstdev 3 < スコア_h.txt
(または短い形式を使用してください)
$ データマッシュ -sH -g2 3 pstdev 3 < スコア_h.txt を意味します
(または名前付き列を使用します)
$ データマッシュ -sH -g メジャー平均スコア pstdev スコア <scores_h.txt
GroupBy(メジャー) 平均(スコア) pstdev(スコア)
芸術 68.9 10.1
ビジネス 87.3 4.9
エンジニアリング 66.5 19.1
保健医療 90.6 8.8
ライフサイエンス 55.3 19.7
社会科学 60.2 16.6
各行のフィールドの順序を逆にします。
$ シーケンス 6 | ペースト - - | データマッシュ 逆
2 1
4 3
6 5
行と列を入れ替える:
$ シーケンス 6 | ペースト - - | データマッシュ 転置
1 3 5
2 4 6
重複するキー値を持つ行を列 1 から削除します (列 XNUMX とは異なります)。 最初の,last オペレーション、 rmdup
はるかに高速で、-s を使用してファイルを並べ替える必要はありません):
# ファイルとサンプル ID のリストが与えられた場合:
$猫入力
サンプルIDファイル
2cc.txt
3 dd.txt
1 ab.txt
2 ee.txt
3 ff.txt
# 重複したサンプル ID を持つ行を削除します (列 1):
$ データマッシュ rmdup 1 < 入力
(または名前付き列を使用)
$ データマッシュ -H rmdup サンプル ID < 入力
サンプルIDファイル
2cc.txt
3 dd.txt
1 ab.txt
各TXTファイルのsha1値を計算した後、各TXTファイルのsha1ハッシュ値を計算します。
ファイルの内容:
$ sha1sum *.txt | データマッシュ -Wf sha1 2
付加 情報
GNU Datamash Web サイト (http://www.gnu.org/software/datamash)
onworks.net サービスを使用してオンラインで datamash を使用する