هذا هو أمر datamash الذي يمكن تشغيله في مزود الاستضافة المجانية OnWorks باستخدام إحدى محطات العمل المجانية المتعددة عبر الإنترنت مثل Ubuntu Online أو Fedora Online أو محاكي Windows عبر الإنترنت أو محاكي MAC OS عبر الإنترنت
برنامج:
اسم
datamash - حسابات سطر الأوامر
موجز
داتاماش [OPTION] op [العقيد] [op العقيد ...]
الوصف
ينفذ عمليات رقمية / سلسلة على الإدخال من stdin.
'op' هي العملية المطلوب إجراؤها ؛ للتجميع ، العمليات لكل سطر "col" هي الإدخال
مجال للاستخدام ؛ يمكن أن يكون "col" رقمًا (1 = الحقل الأول) ، أو اسم عمود عند استخدام -H or
- رأس في خيارات.
قم بتقديم عمليات:
تبديل ، عكس
تصفية الخط عمليات:
com.rmdup
في كل سطر عمليات:
base64 ، debase64 ، md5 ، sha1 ، sha256 ، sha512
رقمية تجمع عمليات:
مجموع ، دقيقة ، ماكس ، أبسمين ، أبسماكس
نصي / رقمي تجمع عمليات:
العد الأول ، الأخير ، راند ، فريد ، انهيار ، كونت فريد
إحصائي تجمع عمليات:
يعني ، وسيط ، q1 ، q3 ، iqr ، وضع ، مضاد للوضع ، pstdev ، sstdev ، pvar svar ، جنون ، madraw ،
pskew ، sskew ، pkurt ، skurt ، dpo ، jarque
OPTIONS
تجمع خيارات:
-f, --ممتلىء
اطبع سطر الإدخال بالكامل قبل نتائج العملية (افتراضي: اطبع فقط المفاتيح المجمعة)
-g, --مجموعة=X[، Y ، Z]
تجميع حسب الحقول X ، [Y ، Z]
- رأس في
سطر الإدخال الأول هو رؤوس الأعمدة
- رأسية
رؤوس أعمدة الطباعة كسطر أول
-H, - الرؤساء
مثل "- رأس في - رأسية'
-i, - أقل من حالة
تجاهل الأحرف الكبيرة والصغيرة عند مقارنة النص ؛ هذا يؤثر على التجميع والسلسلة
عمليات
-s, --نوع
رتب المدخلات قبل التجميع ؛ هذا يزيل الحاجة إلى توجيه الإدخال يدويًا
من خلال "الفرز"
قم بتقديم عملية خيارات:
- لا صارم
السماح بالسطور مع عدد متفاوت من الحقول
- حشو=X
تعبئة القيم المفقودة بـ X (الافتراضي٪ s)
العلاجات العامة خيارات:
-t, - فاصل الحقل=X
استخدم X بدلاً من TAB كمحدد للحقل
--نارم تخطي قيم NA / NaN
-W, - مسافة بيضاء
استخدم مسافة بيضاء (مسافة واحدة أو أكثر و / أو علامة تبويب) لمحددات الحقول
-z, - منتهية صفريًا
سطور النهاية 0 بايت وليس سطرًا جديدًا
--مساعدة عرض هذه المساعدة والخروج
--الإصدار
الإخراج معلومات الإصدار والخروج
متاح عمليات
قم بتقديم عمليات:
تبديل موضع تبديل الصفوف والأعمدة من ملف الإدخال
عكس ترتيب المجال العكسي في كل سطر
تصفية الخط عمليات:
com.rmdup إزالة الأسطر ذات القيمة الرئيسية المكررة
في كل سطر عمليات:
base64 قم بتشفير الحقل كـ base64
64 قم بفك تشفير الحقل كـ base64 ، واخرج مع ظهور خطأ إذا كانت سلسلة base64 غير صالحة
md5 / sha1 / sha256 / sha512
احسب تجزئة md5 / sha1 / sha256 / sha512 لقيمة الحقل
عكس ترتيب المجال العكسي في كل سطر
رقمية تجمع عمليات
مجموع جمع القيم
دقيقة قيمة الحد الأدنى
ماكس القيمة القصوى
أبسمين الحد الأدنى من القيم المطلقة
أبسماكس الحد الأقصى من القيم المطلقة
نصي / رقمي تجمع عمليات
عد عد عدد العناصر في المجموعة
أول القيمة الأولى للمجموعة
آخر القيمة الأخيرة للمجموعة
صف قيمة عشوائية واحدة من المجموعة
فريد من نوعه قائمة القيم الفريدة المفصولة بفواصل
انهيار قائمة مفصولة بفواصل لجميع قيم الإدخال
فريدة من نوعها عدد القيم الفريدة / المميزة
إحصائي تجمع عمليات
تعني يعني القيم
متوسط قيمة متوسطة
q1 قيمة الربع الأول
q3 القيمة الربعية الثالثة
iqr النطاق الربيعي
طريقة قيمة الوضع (القيمة الأكثر شيوعًا)
مضاد القيمة المضادة للوضع (أقل قيمة مشتركة)
com.pstdev الانحراف المعياري السكان
com.sstdev الانحراف المعياري للعينة
pvar تباين المجتمع
إجابه تباين العينة
مجنون متوسط الانحراف المطلق ، مقيسًا بمقدار ثابت 1.4826 للتوزيعات العادية
مدرو متوسط الانحراف المطلق ، بدون مقياس
com.sskew انحراف المجموعة (العينة)
بسكو انحراف المجموعة (السكان)
القيم x التي تم الإبلاغ عنها بواسطة عمليتي "sskew" و "pskew":
x> 0 - منحرف بشكل إيجابي / منحرف لليمين
0> x - منحرف سلبيًا / منحرف لليسار
x> 1 - منحرف بدرجة عالية لليمين
1> x> 0.5 - منحرف بشكل معتدل لليمين
0.5> x> -0.5 - متماثل تقريبًا
-0.5> x> -1 - انحراف معتدل لليسار
-1> x - يسار شديد الانحراف
سكورت التفرطح الزائد للمجموعة (العينة)
باكورت التفرطح الزائد للمجموعة (السكان)
جارك قيمة p لاختبار Jarque-Beta للحالة الطبيعية
DPO قيمة p لاختبار D'Agostino-Pearson Omnibus للحالة الطبيعية ؛
لعمليات "jarque" و "dpo":
الفرضية الصفرية طبيعية ؛
تشير قيم p المنخفضة إلى بيانات غير عادية ؛
تشير قيم p العالية إلى عدم إمكانية رفض الفرضية الصفرية.
أمثلة
اطبع مجموع ومتوسط القيم من العمود 1:
$التسلسل 10 | داتاماش مجموع 1 يعني 1
55 5.5
تجميع الإدخال استنادًا إلى الحقل 1 والقيم الإجمالية (لكل مجموعة) في الحقل 2:
القط $ example.txt
و10
و5
ب 9
ب 11
$ داتاماش -g 1 sum 2 <example.txt
و15
ب 20
يجب فرز المدخلات غير المُفرزة (باستخدام "-s"):
القط $ example.txt
و10
C 4
ب 9
C 1
و5
ب 11
$ داتاماش -s -g1 sum 2 <example.txt
و15
ب 20
C 5
وهو ما يعادل:
$ cat example.txt | فرز -k1,1،XNUMX | داتاماش -g 1 مجموع 2
استعمل -h (- الرؤوس) إذا كان ملف الإدخال يحتوي على سطر العنوان:
# إعطاء ملف باسم الطالب ، الحقل ، درجة الاختبار ...
$ head -n5 عشرات_h.txt
اسم الدرجة الرئيسية
شون للهندسة 47
87- نجران
كريستيان بيزنس 88
60- ندى
# احسب المتوسط والمنحرف المعياري لكل تخصص
$ داتاماش --فرز - رؤوس - المجموعة 2 تعني 3 pstdev 3 <scores_h.txt
(أو استخدم صيغة مختصرة)
$ داتاماش -sH -g2 يعني 3 pstdev 3 <scores_h.txt
(أو استخدم الأعمدة المسماة)
$ داتاماش -sH -g متوسط النتيجة pstdev النتيجة <scores_h.txt
GroupBy (الرئيسية) تعني (الدرجة) pstdev (الدرجة)
المادة 68.9 10.1
الأعمال 87.3 4.9
الهندسة 66.5 19.1
صحة-طب 90.6 8.8
علوم الحياة 55.3 19.7
العلوم الاجتماعية 60.2 16.6
ترتيب الحقل العكسي في كل سطر:
$ seq 6 | معجون - - | داتاماش عكس
2 1
4 3
6 5
تبديل الصفوف والأعمدة:
$ seq 6 | معجون - - | داتاماش تبديل موضع
1 3 5
2 4 6
قم بإزالة الأسطر ذات القيمة الأساسية المكررة من العمود 1 (بخلاف أول,آخر العمليات، com.rmdup
أسرع بكثير ولا يتطلب فرز الملف بـ -s):
# بالنظر إلى قائمة الملفات وعينات المعرفات:
قطة $ INPUT
ملف SampleID
2 نسخة
3dd.txt
1 أب
2 إي.txt
3 وما يليها.txt
# إزالة الأسطر التي تحتوي على نموذج معرف مكرر (العمود 1):
$ داتاماش rmdup 1
(أو العمود المسمى المستخدم)
$ داتاماش -H rmdup SampleID <المدخلات
ملف SampleID
2 نسخة
3dd.txt
1 أب
احسب قيمة تجزئة sha1 لكل ملف TXT ، بعد حساب قيمة sha1 لكل ملف
محتوى الملف:
$ sha1sum * .txt | داتاماش-دبليو إف SH1 2
ADDITIONAL معلومات
انظر موقع GNU Datamash (http://www.gnu.org/software/datamash)
استخدم datamash عبر الإنترنت باستخدام خدمات onworks.net