এটি অ্যাপাচি স্পার্ক ডেটা পাইপলাইন osDQ নামের লিনাক্স অ্যাপ যার সর্বশেষ প্রকাশ osdq-spark_0.0.1.zip হিসাবে ডাউনলোড করা যেতে পারে। এটি ওয়ার্কস্টেশনের জন্য বিনামূল্যের হোস্টিং প্রদানকারী OnWorks-এ অনলাইনে চালানো যেতে পারে।
ডাউনলোড করুন এবং অনলাইনে চালান অ্যাপাচি স্পার্ক ডেটা পাইপলাইন osDQ নামের এই অ্যাপটি বিনামূল্যে OnWorks সহ।
এই অ্যাপটি চালানোর জন্য এই নির্দেশাবলী অনুসরণ করুন:
- 1. আপনার পিসিতে এই অ্যাপ্লিকেশনটি ডাউনলোড করুন৷
- 2. আমাদের ফাইল ম্যানেজারে প্রবেশ করুন https://www.onworks.net/myfiles.php?username=XXXXX আপনি যে ইউজারনেম চান।
- 3. এই ধরনের ফাইল ম্যানেজারে এই অ্যাপ্লিকেশনটি আপলোড করুন।
- 4. এই ওয়েবসাইট থেকে OnWorks Linux অনলাইন বা Windows অনলাইন এমুলেটর বা MACOS অনলাইন এমুলেটর শুরু করুন।
- 5. OnWorks Linux OS থেকে আপনি এইমাত্র শুরু করেছেন, আমাদের ফাইল ম্যানেজারে যান https://www.onworks.net/myfiles.php?username=XXXXX আপনার পছন্দের ব্যবহারকারীর নাম সহ।
- 6. অ্যাপ্লিকেশনটি ডাউনলোড করুন, এটি ইনস্টল করুন এবং এটি চালান।
স্ক্রীনশটগুলি
Ad
অ্যাপাচি স্পার্ক ডেটা পাইপলাইন ওএসডিকিউ
বর্ণনাঃ
এটি ওপেন সোর্স ডেটা কোয়ালিটি (osDQ) প্রকল্পের একটি অফশুট প্রকল্প https://sourceforge.net/projects/dataquality/
এই উপ-প্রকল্পটি অ্যাপাচি স্পার্ক ভিত্তিক ডেটা পাইপলাইন তৈরি করবে যেখানে JSON ভিত্তিক মেটাডেটা (ফাইল) ডেটা প্রক্রিয়াকরণ, ডেটা পাইপলাইন, ডেটা গুণমান এবং ডেটা প্রস্তুতি এবং বড় ডেটার জন্য ডেটা মডেলিং বৈশিষ্ট্যগুলি চালানোর জন্য ব্যবহার করা হবে। এটি অ্যাপাচি স্পার্কের জাভা API ব্যবহার করে। এটি স্থানীয় মোডেও চলতে পারে।
এ json উদাহরণ পান https://github.com/arrahtech/osdq-spark
কীভাবে চালাবেন
জিপ ফাইলটি আনজিপ করুন
উইন্ডোজ : java -cp .\lib\*;osdq-spark-0.0.1.jar org.arrah.framework.spark.run.TransformRunner -c .\example\samplerun.json
ম্যাক ইউনিক্স
java -cp ./lib/*:./osdq-spark-0.0.1.jar org.arrah.framework.spark.run.TransformRunner -c ./example/samplerun.json
উইন্ডোজের জন্য, আপনার স্থানীয় ড্রাইভ এবং HADOOP_HOME সেটে হ্যাডুপ ডিস্ট্রিবিশন আনজিপ করা দরকার। এছাড়াও winutils.exe এখান থেকে HADOOP_HOME\bin এ কপি করুন
বৈশিষ্ট্য
- যোগদান, ফিল্টার, সমষ্টি, কেস স্টেটমেন্ট ব্যবহার করার মতো ডেটা পাইপলাইন তৈরি করুন
- ডেটা গুণমান ব্যবহার করুন - প্রতিস্থাপন, ড্রপ, যোগদান,
- ডেটা প্রোফাইলিং, কলাম বেস প্রোফাইলিং
- অস্পষ্ট যোগদান - কোসাইন দূরত্ব এবং অন্যান্য
- শ্রেণীবিভাগ এবং নমুনা - এলোমেলো বন, মাল্টি ক্লাস নিউরাল নেটওয়ার্ক
- ডেটা স্বাভাবিককরণ - zscore, std বিচ্যুতি, অনুপাত স্কোর,
- নমুনা র্যান্ডম, স্তরিত, কী ভিত্তিক
পাঠকবর্গ
তথ্য প্রযুক্তি, অন্যান্য শ্রোতা, স্থপতি
ব্যবহারকারী ইন্টারফেস
কনসোল/টার্মিনাল
প্রোগ্রামিং ভাষা
জাভা, স্কালা
বিভাগ
এটি একটি অ্যাপ্লিকেশন যা https://sourceforge.net/projects/apache-spark-osdq/ থেকেও আনা যেতে পারে। আমাদের বিনামূল্যের অপারেটিভ সিস্টেমগুলির মধ্যে একটি থেকে সবচেয়ে সহজ উপায়ে অনলাইনে চালানোর জন্য এটি OnWorks-এ হোস্ট করা হয়েছে।