هذا هو تطبيق Linux المسمى apache spark data pipeline osDQ والذي يمكن تنزيل أحدث إصدار له كـ osdq-spark_0.0.1.zip. يمكن تشغيله عبر الإنترنت في مزود الاستضافة المجاني OnWorks لمحطات العمل.
قم بتنزيل وتشغيل هذا التطبيق المسمى osDQ بخط أنابيب بيانات apache spark مع OnWorks مجانًا.
اتبع هذه التعليمات لتشغيل هذا التطبيق:
- 1. قم بتنزيل هذا التطبيق على جهاز الكمبيوتر الخاص بك.
- 2. أدخل في مدير الملفات الخاص بنا https://www.onworks.net/myfiles.php؟username=XXXXX باسم المستخدم الذي تريده.
- 3. تحميل هذا التطبيق في هذا الملف.
- 4. ابدأ تشغيل OnWorks Linux عبر الإنترنت أو محاكي Windows عبر الإنترنت أو محاكي MACOS عبر الإنترنت من هذا الموقع.
- 5. من نظام تشغيل OnWorks Linux الذي بدأته للتو ، انتقل إلى مدير الملفات الخاص بنا https://www.onworks.net/myfiles.php؟username=XXXXX مع اسم المستخدم الذي تريده.
- 6. قم بتنزيل التطبيق وتثبيته وتشغيله.
SCREENSHOTS
Ad
اباتشي شرارة خط أنابيب البيانات osDQ
الوصف
هذا مشروع فرعي لمشروع جودة البيانات مفتوحة المصدر (OSDQ) https://sourceforge.net/projects/dataquality/
سيؤدي هذا المشروع الفرعي إلى إنشاء خط أنابيب بيانات قائم على Apache Spark حيث سيتم استخدام البيانات الوصفية المستندة إلى JSON (ملف) لتشغيل معالجة البيانات وخط أنابيب البيانات وجودة البيانات وإعداد البيانات وميزات نمذجة البيانات للبيانات الضخمة. هذا يستخدم جافا API من اباتشي سبارك. يمكن تشغيله في الوضع المحلي أيضًا.
احصل على مثال json في https://github.com/arrahtech/osdq-spark
كيفية الجري
قم بفك ضغط الملف المضغوط
نظام التشغيل Windows: java -cp. \ lib \ *؛ osdq-spark-0.0.1.jar org.arrah.framework.spark.run.TransformRunner -c. \ example \ samplerun.json
نظام التشغيل Mac UNIX
java -cp ./lib/*:./osdq-spark-0.0.1.jar org.arrah.framework.spark.run.TransformRunner -c ./example/samplerun.json
بالنسبة لأولئك الذين يستخدمون windows ، يجب أن يكون لديك توزيع hadoop غير مضغوط على محرك الأقراص المحلي ومجموعة HADOOP_HOME. انسخ أيضًا winutils.exe من هنا إلى HADOOP_HOME \ bin
المميزات
- قم بإنشاء مسار بيانات مثل استخدام Join و Filter و Aggregate و Case statement
- استخدام جودة البيانات - استبدال ، إسقاط ، انضمام ،
- التنميط البيانات ، العمود قاعدة التنميط
- انضمام غامض - مسافة جيب التمام وغيرها
- التصنيف وأخذ العينات - غابة عشوائية ، شبكة عصبية متعددة الفئات
- تطبيع البيانات - zscore ، الانحراف القياسي ، درجة النسبة ،
- أخذ عينات عشوائي ، طبقي ، قائم على المفتاح
الجمهور
تكنولوجيا المعلومات ، جمهور آخر ، مهندسون معماريون
واجهة المستخدم
وحدة التحكم / المحطة
لغة البرمجة
جافا ، سكالا
الفئات
هذا تطبيق يمكن جلبه أيضًا من https://sourceforge.net/projects/apache-spark-osdq/. تمت استضافته في OnWorks ليتم تشغيله عبر الإنترنت بأسهل طريقة من أحد أنظمتنا التشغيلية المجانية.