OmniParser라는 Windows 앱으로, 최신 릴리스는 v.2.0.1sourcecode.zip 파일로 다운로드할 수 있습니다. 워크스테이션용 무료 호스팅 제공업체인 OnWorks에서 온라인으로 실행할 수 있습니다.
OnWorks와 함께 OmniParser라는 앱을 무료로 다운로드하여 온라인에서 실행해보세요.
이 앱을 실행하려면 다음 지침을 따르세요.
- 1. 이 애플리케이션을 PC에 다운로드했습니다.
- 2. 파일 관리자 https://www.onworks.net/myfiles.php?username=XXXXX에 원하는 사용자 이름을 입력합니다.
- 3. 이러한 파일 관리자에서 이 응용 프로그램을 업로드합니다.
- 4. 이 웹사이트에서 모든 OS OnWorks 온라인 에뮬레이터를 시작하지만 더 나은 Windows 온라인 에뮬레이터를 시작합니다.
- 5. 방금 시작한 OnWorks Windows OS에서 원하는 사용자 이름으로 파일 관리자 https://www.onworks.net/myfiles.php?username=XXXXX로 이동합니다.
- 6. 애플리케이션을 다운로드하여 설치합니다.
- 7. Linux 배포 소프트웨어 저장소에서 Wine을 다운로드합니다. 설치가 완료되면 앱을 두 번 클릭하여 Wine과 함께 실행할 수 있습니다. 인기 있는 Windows 프로그램 및 게임을 설치하는 데 도움이 되는 Wine을 통한 멋진 인터페이스인 PlayOnLinux를 사용해 볼 수도 있습니다.
Wine은 Linux에서 Windows 소프트웨어를 실행하는 방법이지만 Windows가 필요하지 않습니다. Wine은 모든 Linux 데스크탑에서 직접 Windows 프로그램을 실행할 수 있는 오픈 소스 Windows 호환성 계층입니다. 본질적으로 Wine은 Windows가 필요하지 않고 모든 Windows 응용 프로그램을 실행할 수 있도록 Windows를 처음부터 충분히 다시 구현하려고 합니다.
스크린 샷
Ad
옴니파서
기술
OmniParser는 사용자 인터페이스 스크린샷을 구조화된 요소로 파싱하는 포괄적인 방법으로, GPT-4와 같은 멀티모달 모델이 인터페이스의 해당 영역에 정확하게 기반한 동작을 생성하는 능력을 크게 향상시킵니다. 사용자 인터페이스 내에서 상호작용 가능한 아이콘을 안정적으로 식별하고 스크린샷에 있는 다양한 요소의 의미를 이해하여 의도된 동작을 올바른 화면 영역과 연결합니다. 이를 위해 OmniParser는 DOM 트리에서 파생된 상호작용 가능한 아이콘의 경계 상자로 레이블이 지정된 67,000개의 고유한 스크린샷 이미지를 포함하는 상호작용 가능한 아이콘 감지 데이터 세트를 큐레이션합니다. 또한, 7,000개의 아이콘-설명 쌍을 사용하여 감지된 요소의 기능적 의미를 추출하는 캡션 모델을 미세 조정합니다. SeeClick, Mind2Web, AITW와 같은 벤치마크 평가 결과, 추가 정보 없이 스크린샷 입력만 사용하더라도 OmniParser가 GPT-4V 기준선보다 우수한 성능을 나타냄을 보여줍니다.
기능
- 사용자 인터페이스 스크린샷을 구조화되고 이해하기 쉬운 요소로 분석합니다.
- 사용 가능한 예시
- 인터페이스의 해당 영역에 정확하게 접지될 수 있는 동작을 생성하는 GPT-4V의 기능을 향상시킵니다.
- V2 가중치가 가중치 폴더에 다운로드되었는지 확인하세요.
- 모델 가중치 라이센스
프로그래밍 언어
Python
카테고리
이 애플리케이션은 https://sourceforge.net/projects/omniparser-microsoft.mirror/에서도 다운로드할 수 있습니다. OnWorks에 호스팅되어 무료 운영 체제 중 하나에서 가장 쉽게 온라인에서 실행할 수 있도록 설계되었습니다.