Este es el comando datamash que se puede ejecutar en el proveedor de alojamiento gratuito de OnWorks utilizando una de nuestras múltiples estaciones de trabajo en línea gratuitas, como Ubuntu Online, Fedora Online, emulador en línea de Windows o emulador en línea de MAC OS.
PROGRAMA:
NOMBRE
datamash - cálculos de línea de comandos
SINOPSIS
masa de datos [OPCIÓN] op [columna] [op columna ...]
DESCRIPCIÓN
Realiza operaciones numéricas / de cadena en la entrada de stdin.
'op' es la operación a realizar; Para agrupar, las operaciones por línea 'col' es la entrada
campo a utilizar; 'col' puede ser un número (1 = primer campo), o un nombre de columna cuando se usa -H or
--encabezado en .
Archive operaciones:
transponer, revertir
Filtrado de líneas operaciones:
rmdup
Por línea operaciones:
base64, degradar64, md5, sha1, sha256, sha512
Numérico Agrupamiento operaciones:
suma, mínimo, máximo, absmin, absmax
Textual / Numérico Agrupamiento operaciones:
contar, primero, último, rand, único, colapso, countúnico
Estadístico Agrupamiento operaciones:
media, mediana, q1, q3, iqr, modo, antimodo, pstdev, sstdev, pvar svar, enojado, madraw,
pskew, sskew, pkurt, skurt, dpo, jarque
CAMPUS
Agrupamiento Opciones:
-f, --lleno
imprime toda la línea de entrada antes de los resultados de la operación (predeterminado: imprime solo las claves agrupadas)
-g, --grupo=X[, Y, Z]
agrupar a través de los campos X, [Y, Z]
--encabezado en
la primera línea de entrada son los encabezados de columna
--cabecera de salida
imprimir encabezados de columna como primera línea
-H, --cabeceras
igual que '--header-in --cabecera de salida'
-i, --ignorar caso
ignorar mayúsculas / minúsculas al comparar texto; esto afecta la agrupación y la cadena
operaciones
-s, --clasificar
ordenar la entrada antes de agrupar; esto elimina la necesidad de canalizar manualmente la entrada
a través de 'ordenar'
Archive Operación Opciones:
--no estricto
permitir líneas con un número variable de campos
--relleno=X
rellenar los valores faltantes con X (% s predeterminado)
General Opciones:
-t, - separador de campo=X
use X en lugar de TAB como delimitador de campo
--narmar omitir valores NA / NaN
-W, --espacio en blanco
use espacios en blanco (uno o más espacios y / o pestañas) para los delimitadores de campo
-z, - terminado en cero
líneas finales con 0 bytes, no nueva línea
--ayuda muestra esta ayuda y salir
--versión
salida de información de la versión y salir
DISPONIBLE OPERACIONES
Archive operaciones:
transponer transponer filas, columnas del archivo de entrada
marcha atrás orden inverso de los campos en cada línea
Filtrado de líneas operaciones:
rmdup eliminar líneas con valor clave duplicado
Por línea operaciones:
base64 Codifica el campo como base64
degradar64 Decodifique el campo como base64, salga con error si la cadena base64 no es válida
md5 / sha1 / sha256 / sha512
Calcule el hash md5 / sha1 / sha256 / sha512 del valor del campo
marcha atrás orden inverso de los campos en cada línea
Numérico Agrupamiento operaciones
suma suma de los valores
min valor mínimo
max valor máximo
Absmin mínimo de los valores absolutos
absmax máximo de los valores absolutos
Textual / Numérico Agrupamiento operaciones
contar contar el número de elementos en el grupo
la primera el primer valor del grupo
pasado el último valor del grupo
rand un valor aleatorio del grupo
único lista ordenada y separada por comas de valores únicos
colapso lista separada por comas de todos los valores de entrada
cuenta única número de valores únicos / distintos
Estadístico Agrupamiento operaciones
personalizado media de los valores
media valor madiano
q1 Valor del primer cuartil
q3 Valor del tercer cuartil
iqr rango intercuartil
modo valor de modo (valor más común)
antimodo valor anti-modo (valor mínimo común)
pstdev desviación estándar de población
sstdev muestra desviación estándar
pvar varianza poblacional
respuesta varianza muestra
increíblemente desviación absoluta mediana, escalada por la constante 1.4826 para distribuciones normales
loco desviación absoluta mediana, sin escala
sesgado asimetría del grupo (muestra)
torcido asimetría del grupo (de población)
valores x informados por las operaciones 'sskew' y 'pskew':
x> 0 - positivamente sesgado / sesgado a la derecha
0> x - sesgado negativamente / sesgado a la izquierda
x> 1 - muy sesgado a la derecha
1> x> 0.5 - moderadamente sesgado a la derecha
0.5> x> -0.5 - aproximadamente simétrico
-0.5> x> -1 - moderadamente sesgado a la izquierda
-1> x - muy sesgado a la izquierda
falda exceso de curtosis del grupo (muestra)
kurt exceso de curtosis del grupo (población)
jarque valor p de la prueba de Jarque-Beta para la normalidad
DPO valor p de la prueba de normalidad de D'Agostino-Pearson Omnibus;
para las operaciones 'jarque' y 'dpo':
la hipótesis nula es la normalidad;
Los valores p bajos indican datos no normales;
Los valores p altos indican que la hipótesis nula no puede rechazarse.
EJEMPLOS
Imprima la suma y la media de los valores de la columna 1:
$ secuencia 10 | masa de datos suma 1 significa 1
55 5.5
Entrada de grupo basada en el campo 1 y valores de suma (por grupo) en el campo 2:
$ cat ejemplo.txt
Un reporte de
Un reporte de
B 9
B 11
$ masa de datos -g 1 suma 2 <ejemplo.txt
Un reporte de
B 20
La entrada sin clasificar se debe ordenar (con '-s'):
$ cat ejemplo.txt
Un reporte de
C 4
B 9
C 1
Un reporte de
B 11
$ masa de datos -s -g1 suma 2 <ejemplo.txt
Un reporte de
B 20
C 5
Que es equivalente a:
$ gato ejemplo.txt | ordenar -k1,1 | masa de datos -g 1 suma 2
Uso -h (--cabeceras) si el archivo de entrada tiene una línea de encabezado:
# Dado un archivo con el nombre del estudiante, campo, puntaje de la prueba ...
$ head -n5 puntuaciones_h.txt
Nombre Puntuación principal
Ingeniería Shawn 47
Caleb Negocios 87
Negocio cristiano 88
Derek Artes 60
# Calcule la desviación media y estándar para cada especialidad.
$ masa de datos --ordenar --cabeceras --grupo 2 media 3 pstdev 3 <puntuaciones_h.txt
(o use una forma corta)
$ masa de datos -sH -g2 media 3 pstdev 3 <puntuaciones_h.txt
(o use columnas con nombre)
$ masa de datos -sH -g Puntuación media principal pstdev Puntuación <puntuaciones_h.txt
GroupBy (mayor) media (puntuación) pstdev (puntuación)
Artes 68.9 10.1
Negocios 87.3 4.9
Ingeniería 66.5 19.1
Salud-Medicina 90.6 8.8
Ciencias de la vida 55.3 19.7
Ciencias sociales 60.2 16.6
Orden de campo inverso en cada línea:
$ seq 6 | pasta - - | masa de datos marcha atrás
2 1
4 3
6 5
Transponer filas, columnas:
$ seq 6 | pasta - - | masa de datos transponer
1 3 5
2 4 6
Elimine las líneas con valor de clave duplicado de la columna 1 (a diferencia de la primera,pasado operaciones, rmdup
es mucho más rápido y no requiere ordenar el archivo con -s):
# Dada una lista de archivos e ID de muestra:
$ cat ENTRADA
Archivo SampleID
2 cc.txt
3 dd.txt
1 ab.txt
2 ee.txt
3 y siguientes.txt
# Elimine líneas con ID de muestra duplicado (columna 1):
$ masa de datos rmdup 1 <ENTRADA
(o columna nombrada usada)
$ masa de datos -H rmdup SampleID <ENTRADA
Archivo SampleID
2 cc.txt
3 dd.txt
1 ab.txt
Calcule el valor hash sha1 de cada archivo TXT, después de calcular el valor sha1 de cada
contenido del archivo:
$ sha1sum * .txt | datamash -Wf sha1 2
ADICIONAL INFORMACIÓN:
Consulte el sitio web de GNU Datamash (http://www.gnu.org/software/datamash)
Use datamash en línea usando los servicios de onworks.net