यह Crawler4j नाम का Linux ऐप है जिसकी नवीनतम रिलीज़ को 4.4.0.zip के रूप में डाउनलोड किया जा सकता है। इसे वर्कस्टेशन के लिए मुफ्त होस्टिंग प्रदाता ऑनवर्क्स में ऑनलाइन चलाया जा सकता है।
Crawler4j नाम के इस ऐप को OnWorks के साथ मुफ्त में ऑनलाइन डाउनलोड करें और चलाएं।
इस ऐप को चलाने के लिए इन निर्देशों का पालन करें:
- 1. इस एप्लिकेशन को अपने पीसी में डाउनलोड करें।
- 2. हमारे फ़ाइल प्रबंधक में https://www.onworks.net/myfiles.php?username=XXXXX उस उपयोगकर्ता नाम के साथ दर्ज करें जो आप चाहते हैं।
- 3. इस एप्लिकेशन को ऐसे फाइल मैनेजर में अपलोड करें।
- 4. इस वेबसाइट से ऑनवर्क्स लिनक्स ऑनलाइन या विंडोज ऑनलाइन एमुलेटर या मैकोज़ ऑनलाइन एमुलेटर शुरू करें।
- 5. ऑनवर्क्स लिनक्स ओएस से आपने अभी शुरुआत की है, हमारे फाइल मैनेजर को https://www.onworks.net/myfiles.php?username=XXXXX उस यूजरनेम के साथ जाएं जो आप चाहते हैं।
- 6. एप्लिकेशन डाउनलोड करें, इसे इंस्टॉल करें और इसे चलाएं।
स्क्रीनशॉट
Ad
क्रॉलर4j
वर्णन
Crawler4j जावा के लिए एक ओपन सोर्स वेब क्रॉलर है जो वेब को क्रॉल करने के लिए एक सरल इंटरफ़ेस प्रदान करता है। इसका उपयोग करके, आप कुछ ही मिनटों में एक मल्टी-थ्रेडेड वेब क्रॉलर सेटअप कर सकते हैं। आपको एक क्रॉलर क्लास बनाने की आवश्यकता है जो वेबक्रॉलर का विस्तार करे। यह वर्ग तय करता है कि कौन से यूआरएल को क्रॉल किया जाना चाहिए और डाउनलोड किए गए पेज को संभालता है। shudVisit फ़ंक्शन यह तय करता है कि दिए गए URL को क्रॉल किया जाना चाहिए या नहीं। उपरोक्त उदाहरण में, यह उदाहरण .css, .js और मीडिया फ़ाइलों की अनुमति नहीं दे रहा है और केवल ics डोमेन के पृष्ठों को अनुमति देता है। URL की सामग्री सफलतापूर्वक डाउनलोड होने के बाद विज़िट फ़ंक्शन को कॉल किया जाता है। आप डाउनलोड किए गए पेज का यूआरएल, टेक्स्ट, लिंक, एचटीएमएल और यूनिक आईडी आसानी से प्राप्त कर सकते हैं। आपको एक नियंत्रक वर्ग भी लागू करना चाहिए जो क्रॉल के बीज, फ़ोल्डर जिसमें मध्यवर्ती क्रॉल डेटा संग्रहीत किया जाना चाहिए और समवर्ती थ्रेड की संख्या निर्दिष्ट करता है।
विशेषताएं
- आपको एक नियंत्रक वर्ग भी लागू करना चाहिए जो क्रॉल के बीज, फ़ोल्डर जिसमें मध्यवर्ती क्रॉल डेटा संग्रहीत किया जाना चाहिए और समवर्ती थ्रेड की संख्या निर्दिष्ट करता है:
- डिफ़ॉल्ट रूप से क्रॉलिंग की गहराई की कोई सीमा नहीं है
- आप एसएसएल सक्षम कर सकते हैं
- बाइनरी सामग्री क्रॉलिंग सक्षम करें
- Crawler4j को बहुत कुशलता से डिज़ाइन किया गया है और इसमें डोमेन को बहुत तेज़ी से क्रॉल करने की क्षमता है
- उपयोगकर्ता-एजेंट स्ट्रिंग का उपयोग आपके क्रॉलर को वेब सर्वर पर प्रस्तुत करने के लिए किया जाता है
प्रोग्रामिंग भाषा
जावा
श्रेणियाँ
यह एक एप्लिकेशन है जिसे https://sourceforge.net/projects/crawler4j.mirror/ से भी प्राप्त किया जा सकता है। हमारे निःशुल्क ऑपरेटिव सिस्टमों में से एक से सबसे आसान तरीके से ऑनलाइन चलाने के लिए इसे ऑनवर्क्स में होस्ट किया गया है।