এটি crawler4j নামের লিনাক্স অ্যাপ যার সর্বশেষ রিলিজটি 4.4.0.zip হিসাবে ডাউনলোড করা যেতে পারে। এটি ওয়ার্কস্টেশনের জন্য বিনামূল্যের হোস্টিং প্রদানকারী OnWorks-এ অনলাইনে চালানো যেতে পারে।
বিনামূল্যের OnWorks-এর সাথে crawler4j নামের এই অ্যাপটি অনলাইনে ডাউনলোড করুন এবং চালান।
এই অ্যাপটি চালানোর জন্য এই নির্দেশাবলী অনুসরণ করুন:
- 1. আপনার পিসিতে এই অ্যাপ্লিকেশনটি ডাউনলোড করুন৷
- 2. আমাদের ফাইল ম্যানেজারে প্রবেশ করুন https://www.onworks.net/myfiles.php?username=XXXXX আপনি যে ইউজারনেম চান।
- 3. এই ধরনের ফাইল ম্যানেজারে এই অ্যাপ্লিকেশনটি আপলোড করুন।
- 4. এই ওয়েবসাইট থেকে OnWorks Linux অনলাইন বা Windows অনলাইন এমুলেটর বা MACOS অনলাইন এমুলেটর শুরু করুন।
- 5. OnWorks Linux OS থেকে আপনি এইমাত্র শুরু করেছেন, আমাদের ফাইল ম্যানেজারে যান https://www.onworks.net/myfiles.php?username=XXXXX আপনার পছন্দের ব্যবহারকারীর নাম সহ।
- 6. অ্যাপ্লিকেশনটি ডাউনলোড করুন, এটি ইনস্টল করুন এবং এটি চালান।
স্ক্রীনশটগুলি
Ad
crawler4j
বর্ণনাঃ
crawler4j জাভার জন্য একটি ওপেন সোর্স ওয়েব ক্রলার যা ওয়েব ক্রল করার জন্য একটি সহজ ইন্টারফেস প্রদান করে। এটি ব্যবহার করে, আপনি কয়েক মিনিটের মধ্যে একটি মাল্টি-থ্রেডেড ওয়েব ক্রলার সেটআপ করতে পারেন। আপনাকে একটি ক্রলার শ্রেণী তৈরি করতে হবে যা WebCrawler প্রসারিত করে। এই ক্লাসটি সিদ্ধান্ত নেয় কোন URLগুলি ক্রল করা উচিত এবং ডাউনলোড করা পৃষ্ঠা পরিচালনা করে৷ shouldVisit ফাংশন প্রদত্ত ইউআরএল ক্রল করা উচিত কিনা তা নির্ধারণ করে। উপরের উদাহরণে, এই উদাহরণটি .css, .js এবং মিডিয়া ফাইলগুলিকে অনুমতি দেয় না এবং শুধুমাত্র ics ডোমেনের মধ্যে থাকা পৃষ্ঠাগুলিকে অনুমতি দেয়৷ একটি URL এর বিষয়বস্তু সফলভাবে ডাউনলোড হওয়ার পরে ভিজিট ফাংশন বলা হয়। আপনি সহজেই ডাউনলোড করা পৃষ্ঠার url, টেক্সট, লিঙ্ক, html এবং অনন্য আইডি পেতে পারেন। আপনার একটি নিয়ামক শ্রেণীও প্রয়োগ করা উচিত যা ক্রলের বীজ, যে ফোল্ডারে মধ্যবর্তী ক্রল ডেটা সংরক্ষণ করা উচিত এবং সমসাময়িক থ্রেডের সংখ্যা নির্দিষ্ট করে।
বৈশিষ্ট্য
- আপনার একটি নিয়ামক শ্রেণীও প্রয়োগ করা উচিত যা ক্রলের বীজ নির্দিষ্ট করে, যে ফোল্ডারে মধ্যবর্তী ক্রল ডেটা সংরক্ষণ করা উচিত এবং সমসাময়িক থ্রেডের সংখ্যা:
- ডিফল্টরূপে ক্রলিংয়ের গভীরতার কোন সীমা নেই
- আপনি SSL সক্ষম করতে পারেন
- বাইনারি সামগ্রী ক্রলিং সক্ষম করুন
- crawler4j খুব দক্ষতার সাথে ডিজাইন করা হয়েছে এবং খুব দ্রুত ডোমেইন ক্রল করার ক্ষমতা রয়েছে
- ব্যবহারকারী-এজেন্ট স্ট্রিং আপনার ক্রলারকে ওয়েব সার্ভারে উপস্থাপন করার জন্য ব্যবহার করা হয়
প্রোগ্রামিং ভাষা
জাভা
বিভাগ
এটি একটি অ্যাপ্লিকেশন যা https://sourceforge.net/projects/crawler4j.mirror/ থেকেও আনা যেতে পারে। আমাদের বিনামূল্যের অপারেটিভ সিস্টেমগুলির মধ্যে একটি থেকে সবচেয়ে সহজ উপায়ে অনলাইনে চালানোর জন্য এটি OnWorks-এ হোস্ট করা হয়েছে।