این برنامه ویندوزی OmniParser نام دارد که آخرین نسخه آن را میتوانید با فرمت v.2.0.1sourcecode.zip دانلود کنید. میتوانید آن را به صورت آنلاین در ارائه دهنده خدمات میزبانی رایگان OnWorks برای ایستگاههای کاری اجرا کنید.
این برنامه با نام OmniParser with OnWorks را به صورت رایگان دانلود و اجرا کنید.
برای اجرای این برنامه این دستورالعمل ها را دنبال کنید:
- 1. این برنامه را در رایانه شخصی خود دانلود کنید.
- 2. در فایل منیجر ما https://www.onworks.net/myfiles.php?username=XXXXX نام کاربری مورد نظر خود را وارد کنید.
- 3. این برنامه را در چنین فایل منیجر آپلود کنید.
- 4. هر شبیه ساز آنلاین OS OnWorks را از این وب سایت راه اندازی کنید، اما شبیه ساز آنلاین ویندوز بهتر است.
- 5. از OnWorks Windows OS که به تازگی راه اندازی کرده اید، به مدیر فایل ما https://www.onworks.net/myfiles.php?username=XXXXX با نام کاربری که می خواهید بروید.
- 6. برنامه را دانلود و نصب کنید.
- 7. Wine را از مخازن نرم افزار توزیع لینوکس خود دانلود کنید. پس از نصب، می توانید روی برنامه دوبار کلیک کنید تا آنها را با Wine اجرا کنید. همچنین می توانید PlayOnLinux را امتحان کنید، یک رابط کاربری فانتزی بر روی Wine که به شما کمک می کند برنامه ها و بازی های محبوب ویندوز را نصب کنید.
Wine راهی برای اجرای نرم افزار ویندوز بر روی لینوکس است، اما بدون نیاز به ویندوز. Wine یک لایه سازگار با ویندوز منبع باز است که می تواند برنامه های ویندوز را مستقیماً بر روی هر دسکتاپ لینوکس اجرا کند. اساساً، Wine در تلاش است تا به اندازه کافی از ویندوز را از ابتدا مجدداً پیاده سازی کند تا بتواند همه آن برنامه های ویندوز را بدون نیاز به ویندوز اجرا کند.
اسکرین شات ها:
اومنیپارسر
DESCRIPTION:
OmniParser روشی جامع برای تجزیه اسکرینشاتهای رابط کاربری به عناصر ساختاریافته است که به طور قابل توجهی توانایی مدلهای چندوجهی مانند GPT-4 را برای تولید اقدامات دقیق مبتنی بر مناطق مربوطه از رابط افزایش میدهد. این روش به طور قابل اعتمادی آیکونهای قابل تعامل را در رابطهای کاربری شناسایی میکند و معنای عناصر مختلف در یک اسکرینشات را درک میکند و اقدامات مورد نظر را با مناطق صحیح صفحه نمایش مرتبط میسازد. برای دستیابی به این هدف، OmniParser یک مجموعه داده تشخیص آیکون قابل تعامل حاوی ۶۷۰۰۰ تصویر اسکرینشات منحصر به فرد را که با جعبههای محصورکننده آیکونهای قابل تعامل مشتق شده از درختهای DOM برچسبگذاری شدهاند، گردآوری میکند. علاوه بر این، مجموعهای از ۷۰۰۰ جفت توصیف آیکون برای تنظیم دقیق یک مدل زیرنویس که معنای عملکردی عناصر شناسایی شده را استخراج میکند، استفاده میشود. ارزیابیها در معیارهایی مانند SeeClick، Mind2Web و AITW نشان میدهد که OmniParser حتی هنگام استفاده از تنها ورودیهای اسکرینشات بدون اطلاعات اضافی، از خطوط پایه GPT-4V بهتر عمل میکند.
امکانات
- تصاویر رابط کاربری را به عناصر ساختار یافته و قابل فهم تجزیه کنید
- نمونه های موجود
- توانایی GPT-4V را در ایجاد اقداماتی که میتوانند به طور دقیق در مناطق مربوطه رابط کاربری زمین شوند، افزایش میدهد.
- مطمئن شوید که وزنههای V2 را در پوشه weights دانلود کردهاید.
- مجوز وزن مدل
زبان برنامه نویسی
پــایتــون
دسته بندی ها
این برنامهای است که میتوان آن را از آدرس https://sourceforge.net/projects/omniparser-microsoft.mirror/ نیز دریافت کرد. این برنامه در OnWorks میزبانی شده است تا بتوان آن را به سادهترین روش به صورت آنلاین از یکی از سیستمهای عامل رایگان ما اجرا کرد.