Il s'agit de l'application Windows OmniParser, dont la dernière version est téléchargeable sous le nom v.2.0.1sourcecode.zip. Elle peut être exécutée en ligne sur l'hébergeur gratuit OnWorks pour postes de travail.
Téléchargez et exécutez en ligne cette application nommée OmniParser avec OnWorks gratuitement.
Suivez ces instructions pour exécuter cette application :
- 1. Téléchargé cette application sur votre PC.
- 2. Entrez dans notre gestionnaire de fichiers https://www.onworks.net/myfiles.php?username=XXXXX avec le nom d'utilisateur que vous voulez.
- 3. Téléchargez cette application dans ce gestionnaire de fichiers.
- 4. Démarrez n'importe quel émulateur en ligne OS OnWorks à partir de ce site Web, mais un meilleur émulateur en ligne Windows.
- 5. Depuis le système d'exploitation OnWorks Windows que vous venez de démarrer, accédez à notre gestionnaire de fichiers https://www.onworks.net/myfiles.php?username=XXXXX avec le nom d'utilisateur que vous souhaitez.
- 6. Téléchargez l'application et installez-la.
- 7. Téléchargez Wine depuis les dépôts de logiciels de vos distributions Linux. Une fois installé, vous pouvez ensuite double-cliquer sur l'application pour les exécuter avec Wine. Vous pouvez également essayer PlayOnLinux, une interface sophistiquée sur Wine qui vous aidera à installer des programmes et des jeux Windows populaires.
Wine est un moyen d'exécuter un logiciel Windows sur Linux, mais sans Windows requis. Wine est une couche de compatibilité Windows open source qui peut exécuter des programmes Windows directement sur n'importe quel bureau Linux. Essentiellement, Wine essaie de ré-implémenter suffisamment de Windows à partir de zéro pour qu'il puisse exécuter toutes ces applications Windows sans avoir réellement besoin de Windows.
CAPTURES D'ÉCRAN
Ad
OmniParser
DESCRIPTION
OmniParser est une méthode complète d'analyse des captures d'écran d'interface utilisateur en éléments structurés, améliorant considérablement la capacité des modèles multimodaux comme GPT-4 à générer des actions précisément ancrées dans les zones correspondantes de l'interface. Il identifie de manière fiable les icônes interactives au sein des interfaces utilisateur et comprend la sémantique des différents éléments d'une capture d'écran, associant les actions prévues aux zones d'écran appropriées. Pour ce faire, OmniParser gère un jeu de données de détection d'icônes interactives contenant 67 000 images de capture d'écran uniques, étiquetées avec des cadres de délimitation d'icônes interactives issues d'arbres DOM. De plus, une collection de 7 000 paires icône-description est utilisée pour affiner un modèle de légende qui extrait la sémantique fonctionnelle des éléments détectés. Des évaluations sur des benchmarks tels que SeeClick, Mind2Web et AITW démontrent qu'OmniParser surpasse les valeurs de référence de GPT-4V, même en utilisant uniquement des captures d'écran sans informations supplémentaires.
Caractéristiques
- Analyser les captures d'écran de l'interface utilisateur en éléments structurés et faciles à comprendre
- Exemples disponibles
- Améliore la capacité du GPT-4V à générer des actions qui peuvent être mises à la terre avec précision dans les régions correspondantes de l'interface
- Assurez-vous d'avoir téléchargé les poids V2 dans le dossier des poids
- Licence de poids de modèle
Langage de programmation
Python
Catégories
Cette application peut également être téléchargée depuis https://sourceforge.net/projects/omniparser-microsoft.mirror/. Elle est hébergée sur OnWorks afin de pouvoir être exécutée en ligne plus facilement depuis l'un de nos systèmes d'exploitation gratuits.