英語フランス語スペイン語

Ad


OnWorksファビコン

datamash - クラウドでオンライン

Ubuntu Online、Fedora Online、Windows オンライン エミュレーター、または MAC OS オンライン エミュレーターを介して、OnWorks の無料ホスティング プロバイダーで datamash を実行します。

これは、Ubuntu Online、Fedora Online、Windows オンライン エミュレーター、または MAC OS オンライン エミュレーターなどの複数の無料オンライン ワークステーションの XNUMX つを使用して、OnWorks 無料ホスティング プロバイダーで実行できるコマンド datamash です。

プログラム:

NAME


datamash - コマンドライン計算

SYNOPSIS


データマッシュ [オプション] op [コル] [op コル ...]

DESCRIPTION


標準入力からの入力に対して数値/文字列操作を実行します。

「op」は実行する操作です。 グループ化の場合、行ごとの操作「col」が入力になります
使用するフィールド。 「col」は数値 (1=最初のフィールド)、または使用する場合は列名にすることができます。 -H or
--ヘッダーイン オプション。

File 操作:
移調、反転

ラインフィルタリング 操作:
rmdup

行ごと 操作:
Base64、debase64、md5、sha1、sha256、sha512

数値の グループ化 操作:
合計、最小、最大、absmin、absmax

テキスト/数値 グループ化 操作:
カウント、最初、最後、ランド、ユニーク、折りたたみ、カウントユニーク

統計的 グループ化 操作:
平均、中央値、q1、q3、iqr、モード、アンチモード、pstdev、sstdev、pvar svar、mad、madraw、
pskew、sskew、pkurt、skurt、dpo、jarque

OPTIONS


グループ化 オプション:
-f, - 満杯
演算結果の前に入力行全体を出力します (デフォルト: グループ化されたキーのみを出力します)

-g, - グループ=X[、Y、Z]
フィールド X、[Y、Z] によるグループ化

--ヘッダーイン
最初の入力行は列ヘッダーです

--ヘッダーアウト
列ヘッダーを最初の行として印刷します

-H, -ヘッダー
「--header-in」と同じ --ヘッダーアウト'

-i, --大文字と小文字を区別しない
テキストを比較するときに大文字と小文字を無視します。 これはグループ化と文字列に影響します
操作

-s, - 選別
グループ化する前に入力を並べ替えます。 これにより、入力を手動でパイプする必要がなくなりました。
「並べ替え」を通して

File 操作 オプション:
--厳密でない
さまざまな数のフィールドを含む行を許可する

--フィラー=X
欠損値を X で埋めます (デフォルト %s)

オプション:
-t, -フィールドセパレータ=X
フィールド区切り文字として TAB の代わりに X を使用します

--narm NA/NaN 値をスキップする

-W, --空白
フィールド区切り文字として空白 (XNUMX つ以上のスペースやタブ) を使用します。

-z, -ゼロで終了
改行ではなく0バイトで行を終了する

- 助けて このヘルプを表示して終了

- バージョン
出力バージョン情報を表示して終了

AVAILABLE オペレーション


File 操作:
転置 入力ファイルの行、列を転置します。

各行のフィールドの順序を逆にする

ラインフィルタリング 操作:
rmdup キー値が重複する行を削除する

行ごと 操作:
base64 フィールドをbase64としてエンコードします

デベース64 フィールドをbase64としてデコードし、無効なbase64文字列の場合はエラーで終了します。

md5/sha1/sha256/sha512
フィールド値の md5/sha1/sha256/sha512 ハッシュを計算します

各行のフィールドの順序を逆にする

数値の グループ化 操作
合計 値の合計

最小値

マックス 最大値

腹筋 絶対値の最小値

アブスマックス 絶対値の最大値

テキスト/数値 グループ化 操作
カウント グループ内の要素の数を数える

最初の グループの最初の値

last グループの最後の値

ランド グループからの XNUMX つのランダムな値

ユニーク カンマ区切りでソートされた一意の値のリスト

崩壊 すべての入力値のカンマ区切りリスト

カウントユニーク 一意の/個別の値の数

統計的 グループ化 操作
意味する 値の平均

中央値 中央値

q1 第 1 四分位値

q3 第 3 四分位値

iqr 四分位範囲

モード モード値 (最も一般的な値)

アンチモード アンチモード値 (最も一般的ではない値)

pstdev 母標準偏差

sstdev サンプルの標準偏差

pvar 人口分散

答え 標本分散

怒って 絶対偏差の中央値、正規分布の定数 1.4826 でスケール化

マドロー 絶対偏差の中央値、スケールなし

スキュー (サンプル) グループの歪度

歪んだ (母集団) グループの歪度
「sskew」および「pskew」操作によって報告される値 x :
x > 0 - 正に歪んだ/右に歪んだ
0 > x - 負に歪んだ/左に歪んだ
x > 1 - 大きく右に偏っています
1 > x > 0.5 - 適度に右に偏っています
0.5 > x > -0.5 - ほぼ対称
-0.5 > x > -1 - 中程度に左に偏っています
-1 > x - 左に大きく偏っています

スカート (サンプル) グループの過剰尖度

カート (集団) グループの超過尖度

ジャーク 正規性に関する Jarque-Beta 検定の p 値

dpo 正規性に関するダゴスティーノ・ピアソンオムニバス検定の p 値。
「jarque」および「dpo」操作の場合:
帰無仮説は正規性です。
低い p 値は、非正規データを示します。
高い p 値は、帰無仮説が棄却できないことを示します。


列 1 の値の合計と平均を出力します。

$ シーケンス 10 | データマッシュ 合計1 平均1
55 5.5

フィールド 1 に基づいて入力をグループ化し、フィールド 2 に値 (グループごと) を合計します。

$ 猫 example.txt
10
5
B 9
B 11
$ データマッシュ -g 1 合計 2 < example.txt
15
B 20

ソートされていない入力はソートする必要があります (「-s」を使用)。

$ 猫 example.txt
10
C 4
B 9
C 1
5
B 11
$ データマッシュ -s -g1 sum 2 < example.txt
15
B 20
C 5

これは次と同等です。

$ 猫の例.txt | ソート -k1,1 | データマッシュ -g 1 合計 2

  -h (--ヘッダー) 入力ファイルにヘッダー行がある場合:

# 学生の名前、分野、テストのスコアを含むファイルを指定します...
$ head -n5 スコア_h.txt
名前 メジャースコア
ショーン・エンジニアリング 47
カレブ ビジネス 87
クリスチャンビジネス 88
デレク・アーツ 60

# 各専攻の平均と標準偏差を計算します
$ データマッシュ --sort --headers --group 2 平均 3 pstdev 3 < スコア_h.txt
(または短い形式を使用してください)
$ データマッシュ -sH -g2 3 pstdev 3 < スコア_h.txt を意味します
(または名前付き列を使用します)
$ データマッシュ -sH -g メジャー平均スコア pstdev スコア <scores_h.txt
GroupBy(メジャー) 平均(スコア) pstdev(スコア)
芸術 68.9 10.1
ビジネス 87.3 4.9
エンジニアリング 66.5 19.1
保健医療 90.6 8.8
ライフサイエンス 55.3 19.7
社会科学 60.2 16.6

各行のフィールドの順序を逆にします。

$ シーケンス 6 | ペースト - - | データマッシュ
2 1
4 3
6 5

行と列を入れ替える:

$ シーケンス 6 | ペースト - - | データマッシュ 転置
1 3 5
2 4 6

重複するキー値を持つ行を列 1 から削除します (列 XNUMX とは異なります)。 最初の,last オペレーション、 rmdup
はるかに高速で、-s を使用してファイルを並べ替える必要はありません):

# ファイルとサンプル ID のリストが与えられた場合:
$猫入力
サンプルIDファイル
2cc.txt
3 dd.txt
1 ab.txt
2 ee.txt
3 ff.txt

# 重複したサンプル ID を持つ行を削除します (列 1):
$ データマッシュ rmdup 1 < 入力
(または名前付き列を使用)
$ データマッシュ -H rmdup サンプル ID < 入力
サンプルIDファイル
2cc.txt
3 dd.txt
1 ab.txt

各TXTファイルのsha1値を​​計算した後、各TXTファイルのsha1ハッシュ値を計算します。
ファイルの内容:

$ sha1sum *.txt | データマッシュ -Wf sha1 2

付加 情報


GNU Datamash Web サイト (http://www.gnu.org/software/datamash)

onworks.net サービスを使用してオンラインで datamash を使用する


無料のサーバーとワークステーション

Windows と Linux のアプリをダウンロード

Linuxコマンド

Ad