این یک برنامه لینوکس به نام unfluff است که آخرین نسخه آن را میتوانید با عنوان node-unfluffv3.2.0sourcecode.tar.gz دانلود کنید. این برنامه را میتوان به صورت آنلاین در ارائه دهنده هاست رایگان OnWorks برای ایستگاههای کاری اجرا کرد.
این برنامه با نام unfluff with OnWorks را به صورت رایگان دانلود و اجرا کنید.
برای اجرای این برنامه این دستورالعمل ها را دنبال کنید:
- 1. این برنامه را در رایانه شخصی خود دانلود کنید.
- 2. در فایل منیجر ما https://www.onworks.net/myfiles.php?username=XXXXX نام کاربری مورد نظر خود را وارد کنید.
- 3. این برنامه را در چنین فایل منیجر آپلود کنید.
- 4. OnWorks Linux آنلاین یا شبیه ساز آنلاین ویندوز یا شبیه ساز آنلاین MACOS را از این وب سایت راه اندازی کنید.
- 5. از سیستم عامل لینوکس OnWorks که به تازگی راه اندازی کرده اید، به مدیر فایل ما https://www.onworks.net/myfiles.php?username=XXXXX با نام کاربری که می خواهید بروید.
- 6. اپلیکیشن را دانلود کرده، نصب و اجرا کنید.
اسکرین شات ها:
از حالت پف کردن خارج کردن
DESCRIPTION:
unfluff یک کتابخانه Node.js است که برای استخراج خودکار محتوای اصلی از یک سند HTML طراحی شده است - نوارهای ناوبری، تبلیغات، پاورقیها و سایر اطلاعات تکراری را حذف میکند تا "محتوای بدنه"، ابرداده (عنوان، نویسنده، تاریخ) و سایر فیلدهای مفید را برای شما باقی بگذارد. این ابزاری است که هدف آن تجزیه و تحلیل محتوا، وب اسکرپینگ، ساخت مجموعه دادهها یا استفاده مجدد از متن مقاله برای پردازشهای بعدی (مانند یادگیری ماشین یا خلاصهسازی) است. API آن ساده است: شما HTML خام را وارد میکنید و یک شیء ساختاریافته با متن استخراج شده و سایر فیلدها را برمیگرداند. این ابزار از ذخیرهسازی نمایشهای داخلی برای سرعت بخشیدن به استخراجهای مکرر پشتیبانی میکند. در حالی که پشتیبانی زبانی آن برای انگلیسی بهترین است، هنوز هم به طور گسترده در خطوط لوله پردازش محتوای وب استفاده میشود. مخزن به برخی محدودیتها اشاره میکند (به عنوان مثال، زبانهایی مانند چینی/عربی/کرهای ممکن است به خوبی پشتیبانی نشوند). به دلیل سادگی و هدف متمرکز آن، میتواند یک بلوک سازنده قابل اعتماد در سرویسهای backend یا ابزارهای CLI باشد.
امکانات
- محتوای متنی اصلی (body) را از یک سند HTML استخراج میکند.
- فرادادهها (عنوان، نویسنده، تاریخ، تشخیص زبان و غیره) را تجزیه و تحلیل کرده و برمیگرداند.
- نمایشهای میانی را برای افزایش کارایی هنگام استخراج چندین فیلد، ذخیره میکند.
- پشتیبانی از رابط خط فرمان / ماژول: میتواند به صورت سراسری نصب شود یا به صورت برنامهنویسی شده مورد استفاده قرار گیرد
- مناسب برای ساخت مجموعه دادهها، استخراج مقاله، و انتشار مجدد گردشهای کاری
- متنباز تحت لیسانس Apache-2.0، به راحتی در پشتههای Node.js ادغام میشود.
دسته بندی ها
این برنامهای است که میتوان آن را از https://sourceforge.net/projects/unfluff.mirror/ نیز دریافت کرد. این برنامه در OnWorks میزبانی شده است تا بتوان آن را به سادهترین روش از یکی از سیستمهای عامل رایگان ما به صورت آنلاین اجرا کرد.