这是可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行的命令 datamash,例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器
程序:
您的姓名
datamash - 命令行计算
概要
数据混杂 [OPTION] op [山坳[op 山坳 ...]
商品描述
对来自 stdin 的输入执行数字/字符串操作。
'op' 是要执行的操作; 对于分组,每行操作'col'是输入
要使用的领域; 'col' 可以是数字(1=第一个字段),也可以是列名 -H or
--标题输入 选项。
文件 操作:
转置,反转
线路滤波 操作:
备份
每行 操作:
base64、debase64、md5、sha1、sha256、sha512
数字 分组 操作:
总和、最小值、最大值、绝对最小值、绝对最大值
文本/数字 分组 操作:
计数,第一个,最后一个,兰特,唯一的,崩溃的,计数的
统计 分组 操作:
均值、中值、q1、q3、iqr、模式、反模式、pstdev、sstdev、pvar svar、mad、madraw、
pskew、sskew、pkurt、skurt、dpo、jarque
配置
分组 选项:
-f, - 满的
在操作结果之前打印整个输入行(默认:仅打印分组的键)
-g, - 团体=X[,Y,Z]
通过字段 X,[Y,Z] 分组
--标题输入
第一个输入行是列标题
--标题输出
将列标题打印为第一行
-H, --标题
与 '--header-in 相同 --标题输出'
-i, --忽略大小写
比较文本时忽略大写/小写; 这会影响分组和字符串
操作
-s, - 种类
分组前对输入进行排序; 这消除了手动管道输入的需要
通过“排序”
文件 操作 选项:
--不严格
允许具有不同字段数的行
- 填料=X
用 X 填充缺失值(默认 %s)
总类 选项:
-t, --字段分隔符=X
使用 X 而不是 TAB 作为字段分隔符
--narm 跳过 NA/NaN 值
-W, --空白
使用空格(一个或多个空格和/或制表符)作为字段分隔符
-z, --以零结尾
以 0 字节结束行,而不是换行符
- 帮帮我 显示此帮助并退出
- 版
输出版本信息并退出
可用 营运
文件 操作:
转 转置输入文件的行、列
反转 每行反转场序
线路滤波 操作:
备份 删除具有重复键值的行
每行 操作:
base64 将字段编码为 base64
贬值64 将字段解码为 base64,如果 base64 字符串无效,则退出并出错
md5/sha1/sha256/sha512
计算字段值的md5/sha1/sha256/sha512 hash
反转 每行反转场序
数字 分组 操作
总和 值的总和
分钟 最小值
最大 最大值
腹水 绝对值的最小值
绝对最大值 绝对值的最大值
文本/数字 分组 操作
数 计算组中元素的数量
第一 组的第一个值
最后 组的最后一个值
兰特 组中的一个随机值
独特 以逗号分隔的唯一值排序列表
崩溃 所有输入值的逗号分隔列表
独特的 唯一/不同值的数量
统计 分组 操作
意味着 值的平均值
中位数 中值
q1 第一个四分位数
q3 第三个四分位数
智商 四分位距
模式 众数(最常见的值)
反模式 反模式值(最小公共值)
开发者 总体标准差
开发 样品标准偏差
无功 人口方差
回答 样本方差
狂 中值绝对偏差,正态分布按常数 1.4826 缩放
马图 中值绝对偏差,未缩放
歪斜 (样本)组的偏度
偏斜 (人口)组的偏度
'sskew' 和 'pskew' 操作报告的 x 值:
x > 0 - 正向偏斜/向右偏斜
0 > x - 负向偏斜/向左偏斜
x > 1 - 高度偏右
1 > x > 0.5 - 适度向右倾斜
0.5 > x > -0.5 - 近似对称
-0.5 > x > -1 - 适度向左倾斜
-1 > x - 向左高度倾斜
短裙 (样本)组的超峰度
库尔特 (人口)组的超峰度
贾克 Jarque-Beta 正态性检验的 p 值
DPO D'Agostino-Pearson Omnibus 正态性检验的 p 值;
对于“jarque”和“dpo”操作:
零假设是正态性;
低 p 值表示非正态数据;
高 p 值表示不能拒绝零假设。
示例
打印第 1 列值的总和和平均值:
$ 序列 10 | 数据混杂 总和 1 等于 1
55 5.5
根据字段 1 对输入进行分组,并在字段 2 上汇总值(每组):
$猫示例.txt
一个10
一个5
乙9
乙11
$ 数据混杂 -g 1 sum 2 <example.txt
一个15
乙20
未排序的输入必须排序(使用“-s”):
$猫示例.txt
一个10
Ç4的
乙9
Ç1的
一个5
乙11
$ 数据混杂 -s -g1 sum 2 <example.txt
一个15
乙20
Ç5的
这相当于:
$ cat 示例.txt | 排序 -k1,1 | 数据混杂 -g 1 和 2
使用 -h (--标题) 如果输入文件有标题行:
# 给定一个包含学生姓名、领域、考试成绩的文件...
$ head -n5 score_h.txt
姓名专业分数
肖恩工程 47
迦勒商业 87
基督教商业 88
德里克艺术 60
# 计算每个专业的均值和标准偏差
$ 数据混杂 --sort --headers --group 2 表示 3 pstdev 3 <score_h.txt
(或使用简写形式)
$ 数据混杂 -sH -g2 表示 3 pstdev 3 <score_h.txt
(或使用命名列)
$ 数据混杂 -sH -g Major mean Score pstdev Score < score_h.txt
GroupBy(主要)平均值(分数)pstdev(分数)
艺术 68.9 10.1
商务87.3 4.9
工程 66.5 19.1
医疗保健 90.6 8.8
生命科学 55.3 19.7
社会科学 60.2 16.6
在每一行中反转字段顺序:
$ seq 6 | 粘贴 - - | 数据混杂 反转
2 1
4 3
6 5
转置行、列:
$ seq 6 | 粘贴 - - | 数据混杂 转
1 3 5
2 4 6
从第 1 列中删除具有重复键值的行(与 第一,最后 操作, 备份
速度要快得多,并且不需要使用 -s 对文件进行排序):
# 给定文件列表和样本 ID:
$猫输入
样品 ID 文件
2cc.txt
3.dd.txt
1 ab.txt
2.ee.txt
3 ff.txt
# 删除具有重复样本 ID 的行(第 1 列):
$ 数据混杂 rmdup 1 < 输入
(或使用命名列)
$ 数据混杂 -H rmdup 样本 ID < 输入
样品 ID 文件
2cc.txt
3.dd.txt
1 ab.txt
计算每个TXT文件的sha1哈希值,在计算每个的sha1值之后
文件内容:
$ sha1sum *.txt | 数据混杂-Wf sha1 2
附加 相关信息
请参阅 GNU Datamash 网站 (http://www.gnu.org/software/datamash)
使用 onworks.net 服务在线使用 datamash