Це команда datamash, яку можна запустити в постачальнику безкоштовного хостингу OnWorks, використовуючи одну з наших численних безкоштовних онлайн-робочих станцій, таких як Ubuntu Online, Fedora Online, онлайн емулятор Windows або онлайн емулятор MAC OS
ПРОГРАМА:
ІМ'Я
datamash - обчислення командного рядка
СИНТАКСИС
datamash [ВАРІАНТ] op [з] [op з ...]
ОПИС
Виконує числові/рядкові операції при введенні зі стандартного входу.
'op' - операція, яку потрібно виконати; Для групування операцій на рядок вхідним є 'col'
поле для використання; 'col' може бути числом (1=перше поле) або назвою стовпця під час використання -H or
--заголовок Варіанти.
філе операції:
транспонувати, реверсувати
Лінійна фільтрація операції:
rmdup
За рядок операції:
base64, debase64, md5, sha1, sha256, sha512
Числовий Групування операції:
сума, min, max, absmin, absmax
Текстові/числові Групування операції:
рахувати, перший, останній, ранд, унікальний, колапс, countunique
Статистичний Групування операції:
середнє, медіана, q1, q3, iqr, режим, антирежим, pstdev, sstdev, pvar svar, mad, madraw,
pskew, skew, pkurt, skurt, dpo, jarque
ВАРІАНТИ
Групування варіанти:
-f, --повний
друкувати весь рядок введення перед результатами операції (за замовчуванням: друкувати лише згруповані ключі)
-g, --група=X[,Y,Z]
групувати через поля X,[Y,Z]
--заголовок
перший рядок введення - це заголовки стовпців
--header-out
друкувати заголовки стовпців як перший рядок
-H, --заголовки
те саме, що '--header-in --header-out'
-i, --ігнорувати регістр
ігноруйте великі/нижні регістри під час порівняння тексту; це впливає на групування та рядок
операції
-s, --сортувати
сортувати введені дані перед групуванням; це усуває необхідність вручну передавати вхідний канал
через "сортування"
філе операція варіанти:
--ні-строгий
дозволяти рядки з різною кількістю полів
--наповнювач=X
заповнити відсутні значення X (за замовчуванням %s)
Загальне варіанти:
-t, --поля-роздільник=X
використовуйте X замість TAB як роздільник поля
--нарм пропустити значення NA/NaN
-W, --пробіл
використовуйте пробіли (один або кілька пробілів та/або табуляції) для роздільників полів
-z, -- закінчені нулем
кінцеві рядки з 0 байт, а не новий рядок
--допомога відобразити цю довідку та вийти
-- версія
вивести інформацію про версію та вийти
В НАЯВНОСТІ ОПЕРАЦІЇ
філе операції:
транспонувати транспонувати рядки, стовпці вхідного файлу
зворотний зворотний порядок полів у кожному рядку
Лінійна фільтрація операції:
rmdup видалити рядки із дубльованим значенням ключа
За рядок операції:
base64 Закодуйте поле як base64
приниження64 Декодувати поле як base64, вийти з помилкою, якщо недійсний рядок base64
md5/sha1/sha256/sha512
Обчисліть хеш md5/sha1/sha256/sha512 значення поля
зворотний зворотний порядок полів у кожному рядку
Числовий Групування операції
сума сума значень
хвилин Мінімальне значення
Макс максимальне значення
абсмін мінімум абсолютних значень
абсмакс максимум абсолютних значень
Текстові/числові Групування операції
вважати підрахувати кількість елементів у групі
перший перше значення групи
останній останнє значення групи
рядок одне випадкове значення з групи
створеного відсортований список унікальних значень, розділених комами
крах розділений комами список усіх введених значень
countunique кількість унікальних/розрізнених значень
Статистичний Групування операції
значити середнє значення
медіана серединне значення
q1 Значення 1-го квартилю
q3 Значення 3-го квартилю
iqr міжквартильний діапазон
режим значення режиму (найбільш поширене значення)
антимод значення anti-mode (найменше поширене значення)
pstdev стандартне відхилення населення
sstdev стандартне відхилення вибірки
пвар дисперсія населення
відповісти дисперсія вибірки
божевільний середнє абсолютне відхилення, масштабований константою 1.4826 для нормальних розподілів
madraw середнє абсолютне відхилення, без масштабу
перекос асигнування (вибіркової) групи
перекос асигнування (населення) групи
значення x, які повідомляються операціями 'sskew' і 'pskew':
x > 0 - позитивно перекошений / перекошений вправо
0 > x - негативно перекошений / перекіс вліво
x > 1 - сильно перекошений вправо
1 > x > 0.5 - помірний перекіс вправо
0.5 > х > -0.5 - приблизно симетрично
-0.5 > x > -1 - помірно перекошений вліво
-1 > x - сильно перекошений вліво
шкур надлишок Ексцес (вибіркової) групи
пкурт надлишок Ексцес (популяції) групи
jarque p-значення тесту Жарка-Бета для нормальності
dpo p-значення тесту D'Agostino-Pearson Omnibus для нормальності;
для операцій "jarque" і "dpo":
нульова гіпотеза — нормальність;
низькі p-значення вказують на ненормальні дані;
високі p-значення вказують, що нульова гіпотеза не може бути відхилена.
ПРИКЛАДИ
Вивести суму та середнє значень із стовпця 1:
$ послідовність 10 | datamash сума 1 означає 1
55 5.5
Групове введення на основі поля 1 і значень суми (на групу) у полі 2:
$ cat example.txt
10
5
У 9
У 11
$ datamash -g 1 сума 2 < example.txt
15
У 20
Невідсортовані вхідні дані повинні бути відсортовані (за допомогою '-s'):
$ cat example.txt
10
C 4
У 9
C 1
5
У 11
$ datamash -s -g1 сума 2 < example.txt
15
У 20
C 5
Що еквівалентно:
$ cat example.txt | сортування -k1,1 | datamash -g 1 сума 2
Скористайтесь -h (--заголовки) якщо вхідний файл має рядок заголовка:
# Надано файл із ім'ям студента, полем, результатом тесту...
$ голова -n5 scores_h.txt
Назва Основний бал
Shawn Engineering 47
Калеб Бізнес 87
Християнський бізнес 88
Дерек Артс 60
# Обчисліть середнє значення та стандартне відхилення для кожної спеціальності
$ datamash --sort --headers --group 2 mean 3 pstdev 3 < scores_h.txt
(або використайте коротку форму)
$ datamash -sH -g2 означає 3 pstdev 3 < scores_h.txt
(або використовуйте іменовані стовпці)
$ datamash -sH -g Основний середній бал pstdev Оцінка < scores_h.txt
GroupBy (основний) середній (оцінка) pstdev (оцінка)
Мистецтво 68.9 10.1
Бізнес 87.3 4.9
Техніка 66.5 19.1
Здоров'я-Медицина 90.6 8.8
Науки про життя 55.3 19.7
Суспільні науки 60.2 16.6
Зворотний порядок полів у кожному рядку:
$ seq 6 | паста - - | datamash зворотний
2 1
4 3
6 5
Транспонувати рядки, стовпці:
$ seq 6 | паста - - | datamash транспонувати
1 3 5
2 4 6
Видаліть рядки з повторюваним значенням ключа зі стовпця 1 (На відміну перший,останній операції, rmdup
набагато швидше і не вимагає сортування файлу за допомогою -s):
# Дано список файлів та зразків ідентифікаторів:
$ cat ВХІД
Файл SampleID
2 cc.txt
3 dd.txt
1 ab.txt
2 ee.txt
3 ff.txt
# Видалити рядки з дубльованим ідентифікатором зразка (стовпець 1):
$ datamash rmdup 1 < INPUT
(або використаний іменований стовпець)
$ datamash -H rmdup SampleID < INPUT
Файл SampleID
2 cc.txt
3 dd.txt
1 ab.txt
Обчисліть хеш-значення sha1 кожного файлу TXT після обчислення значення sha1 кожного
вміст файлу:
$ sha1sum *.txt | datamash -Wf sha1 2
ДОДАТКОВИЙ ІНФОРМАЦІЯ
Дивіться веб-сайт GNU Datamash (http://www.gnu.org/software/datamash)
Використовуйте datamash онлайн за допомогою служб onworks.net