این برنامه لینوکس به نام crwlr است که آخرین نسخه آن را می توان با عنوان v1.2.2.zip دانلود کرد. می توان آن را به صورت آنلاین در ارائه دهنده میزبانی رایگان OnWorks برای ایستگاه های کاری اجرا کرد.
این اپلیکیشن به نام crwlr را با OnWorks به صورت آنلاین دانلود و اجرا کنید.
برای اجرای این برنامه این دستورالعمل ها را دنبال کنید:
- 1. این برنامه را در رایانه شخصی خود دانلود کنید.
- 2. در فایل منیجر ما https://www.onworks.net/myfiles.php?username=XXXXX نام کاربری مورد نظر خود را وارد کنید.
- 3. این برنامه را در چنین فایل منیجر آپلود کنید.
- 4. OnWorks Linux آنلاین یا شبیه ساز آنلاین ویندوز یا شبیه ساز آنلاین MACOS را از این وب سایت راه اندازی کنید.
- 5. از سیستم عامل لینوکس OnWorks که به تازگی راه اندازی کرده اید، به مدیر فایل ما https://www.onworks.net/myfiles.php?username=XXXXX با نام کاربری که می خواهید بروید.
- 6. اپلیکیشن را دانلود کرده، نصب و اجرا کنید.
عکس ها
Ad
crwlr
شرح
این کتابخانه نوعی چارچوب و تعداد زیادی به اصطلاح مراحل آماده برای استفاده را ارائه می دهد که می توانید از آنها به عنوان بلوک های ساختمانی برای ساختن خزنده ها و اسکراپرهای خود استفاده کنید. قبل از شیرجه زدن به کتابخانه، بیایید نگاهی به اصطلاحات خزیدن و خراش بیاندازیم. برای اکثر موارد استفاده در دنیای واقعی، این دو چیز دست به دست هم می دهند، به همین دلیل است که این کتابخانه به کمک می کند و هر دو را ترکیب می کند. خزنده (وب) برنامه ای است که اسناد را بارگیری می کند و پیوندهای موجود در آن را دنبال می کند تا آنها را نیز بارگیری کند. یک خزنده فقط میتواند تمام پیوندهایی را که پیدا میکند بارگیری کند (و مجاز است طبق فایل robots.txt بارگذاری شود)، سپس کل اینترنت را بارگیری میکند (اگر URL(های)ی که با آن شروع میشود، بنبست نباشد. یا میتوان آن را محدود کرد که فقط پیوندهایی را که با معیارهای خاصی مطابقت دارند بارگیری کند (در همان دامنه/میزبان، مسیر URL با "/foo" شروع میشود...) یا فقط به یک عمق خاص. عمق 3 به معنای عمق 3 سطح است. لینک های موجود در URL های اولیه ارائه شده به خزنده سطح 1 و غیره هستند.
امکانات
- ادب خزنده (با احترام به robots.txt، throttling،...)
- پیوندهای مطلق را از اسناد HTML دریافت کنید
- نقشه های سایت را از robots.txt دریافت کنید و همه URL ها را از آن نقشه های سایت دریافت کنید
- خزیدن (بارگیری) تمام صفحات یک وب سایت
- از هر روش HTTP (GET، POST،...) استفاده کنید و هر سرصفحه یا متنی را ارسال کنید
- تکرار بر روی صفحات فهرست صفحه بندی شده
زبان برنامه نویسی
پی اچ پی
دسته بندی ها
این برنامه ای است که می تواند از https://sourceforge.net/projects/crwlr.mirror/ نیز دریافت شود. در OnWorks میزبانی شده است تا به آسانی از یکی از سیستم عامل های رایگان ما به صورت آنلاین اجرا شود.