এটি CC-Net নামের লিনাক্স অ্যাপ যার সর্বশেষ প্রকাশ cc_net1.0.0sourcecode.tar.gz নামে ডাউনলোড করা যেতে পারে। এটি ওয়ার্কস্টেশনের জন্য বিনামূল্যের হোস্টিং প্রদানকারী OnWorks-এ অনলাইনে চালানো যেতে পারে।
CC-Net নামের এই অ্যাপটি OnWorks সহ বিনামূল্যে অনলাইনে ডাউনলোড করুন এবং চালান।
এই অ্যাপটি চালানোর জন্য এই নির্দেশাবলী অনুসরণ করুন:
- 1. আপনার পিসিতে এই অ্যাপ্লিকেশনটি ডাউনলোড করুন৷
- 2. আমাদের ফাইল ম্যানেজারে প্রবেশ করুন https://www.onworks.net/myfiles.php?username=XXXXX আপনি যে ইউজারনেম চান।
- 3. এই ধরনের ফাইল ম্যানেজারে এই অ্যাপ্লিকেশনটি আপলোড করুন।
- 4. এই ওয়েবসাইট থেকে OnWorks Linux অনলাইন বা Windows অনলাইন এমুলেটর বা MACOS অনলাইন এমুলেটর শুরু করুন।
- 5. OnWorks Linux OS থেকে আপনি এইমাত্র শুরু করেছেন, আমাদের ফাইল ম্যানেজারে যান https://www.onworks.net/myfiles.php?username=XXXXX আপনার পছন্দের ব্যবহারকারীর নাম সহ।
- 6. অ্যাপ্লিকেশনটি ডাউনলোড করুন, এটি ইনস্টল করুন এবং এটি চালান।
স্ক্রিনশট:
CC-Net সম্পর্কে
বর্ণনাঃ
cc_net বৃহৎ আকারের টেক্সট কর্পোরা তৈরির জন্য কমন ক্রল ডাউনলোড, সেগমেন্ট, ক্লিন এবং ফিল্টার করার জন্য টুল সরবরাহ করে, যার মধ্যে রয়েছে একভাষিক ডেটাসেট এবং সংশ্লিষ্ট কাগজে প্রবর্তিত বহুভাষিক CC-100 সংগ্রহ। এতে স্ন্যাপশট আনা, টেক্সট এক্সট্র্যাক্ট করা, ডি-ডুপ্লিকেট করা, ভাষা সনাক্ত করা এবং হিউরিস্টিক এবং ভাষা মডেলের উপর ভিত্তি করে মানসম্পন্ন ফিল্টারিং প্রয়োগ করার জন্য পাইপলাইন অন্তর্ভুক্ত রয়েছে। আউটপুটগুলি ভাষা মডেলগুলিকে প্রাক-প্রশিক্ষণ দেওয়ার জন্য এবং নতুন ক্রল দিয়ে পুনরুত্পাদন বা আপডেট করা যেতে পারে এমন মানসম্মত কর্পোরা তৈরি করার উদ্দেশ্যে তৈরি করা হয়েছে। রিপোজিটরিটি HTTP ব্যর্থতা, স্ন্যাপশট পার্থক্য এবং পরিসংখ্যান JSON-এর মতো ব্যবহারিক উদ্বেগগুলি নথিভুক্ত করে, যা অনেক ভাষায় সম্প্রদায়ের ব্যবহার প্রতিফলিত করে। শক্তিশালী হলেও, রেপোটি সংরক্ষণাগারভুক্ত করা হয়েছে এবং শুধুমাত্র পঠনযোগ্য, তাই ব্যবহারকারীদের এটিকে যেমন আছে তেমন চালানো বা রক্ষণাবেক্ষণের জন্য ফর্ক করার আশা করা উচিত। এমনকি সংরক্ষণাগারভুক্ত অবস্থায়ও, সমস্যা এবং প্রকাশের পৃষ্ঠাগুলি বাস্তবায়নের বিবরণ এবং ডেটাসেট বংশের জন্য দরকারী রেফারেন্স হিসাবে রয়ে গেছে।
বৈশিষ্ট্য
- এন্ড-টু-এন্ড কমন ক্রল ডাউনলোড এবং এক্সট্রাকশন
- ভাষা শনাক্তকরণ এবং একভাষিক বিভাজন
- মানসম্পন্ন ফিল্টারিং এবং ডি-ডুপ্লিকেশন পাইপলাইন
- CC-100 এর মতো বহুভাষিক ডেটাসেট তৈরির জন্য সহায়তা
- পুনরুৎপাদনযোগ্য পরিসংখ্যান এবং কর্পাস মেটাডেটা আউটপুট
- স্ন্যাপশট-বাই-স্ন্যাপশট প্রক্রিয়াকরণের জন্য স্ক্রিপ্ট এবং কনফিগারেশন
প্রোগ্রামিং ভাষা
পাইথন
বিভাগ
এটি এমন একটি অ্যাপ্লিকেশন যা https://sourceforge.net/projects/cc-net.mirror/ থেকেও আনা যেতে পারে। আমাদের বিনামূল্যের অপারেটিভ সিস্টেমগুলির মধ্যে একটি থেকে সবচেয়ে সহজ উপায়ে অনলাইনে চালানোর জন্য এটি OnWorks-এ হোস্ট করা হয়েছে।