Este é o aplicativo Linux chamado CogVLM, cuja versão mais recente pode ser baixada como CogVLMsourcecode.tar.gz. Ele pode ser executado online no provedor de hospedagem gratuita OnWorks para estações de trabalho.
Baixe e execute online este aplicativo chamado CogVLM com OnWorks gratuitamente.
Siga estas instruções para executar este aplicativo:
- 1. Baixe este aplicativo em seu PC.
- 2. Entre em nosso gerenciador de arquivos https://www.onworks.net/myfiles.php?username=XXXXX com o nome de usuário que você deseja.
- 3. Carregue este aplicativo em tal gerenciador de arquivos.
- 4. Inicie o emulador OnWorks Linux online ou Windows online ou emulador MACOS online a partir deste site.
- 5. No sistema operacional OnWorks Linux que você acabou de iniciar, acesse nosso gerenciador de arquivos https://www.onworks.net/myfiles.php?username=XXXXX com o nome de usuário que deseja.
- 6. Baixe o aplicativo, instale-o e execute-o.
SCREENSHOTS
Ad
CogVLM
DESCRIÇÃO
CogVLM é um conjunto de modelos de linguagem visual de código aberto — e seu irmão orientado a GUI, CogAgent — voltado para compreensão de imagens, aterramento e diálogo multi-turno, com ações de agente opcionais em capturas de tela reais da IU. O principal CogVLM-17B combina ~10B de parâmetros visuais com ~7B de parâmetros de linguagem e suporta entradas de 490×490; o CogAgent-18B estende isso para 1120×1120 e adiciona saídas de plano/próxima ação, além de coordenadas de operação aterradas para tarefas de GUI. O repositório oferece várias maneiras de executar modelos (CLI, demonstração web e APIs no estilo OpenAI-Vision), juntamente com opções de quantização que reduzem as necessidades de VRAM (por exemplo, 4 bits). Inclui pontos de verificação para variantes de bate-papo, base e aterramento, além de receitas para inferência paralela a modelos e ajuste fino de LoRA. A documentação abrange prompts de tarefas para diálogo geral, fundamentação visual (caixa→legenda, legenda→caixa, legenda+caixas) e fluxos de trabalho de agentes de GUI que produzem ações estruturadas com caixas delimitadoras.
Recursos
- VLMs pré-treinados (CogVLM-17B) e CogAgent-18B com capacidade de GUI
- Diálogo de imagem multi-turno, aterramento visual e planejamento de ação da GUI
- Demonstrações prontas para uso: CLI (SAT/HF), interface de usuário da web Gradio e API estilo OpenAI-Vision
- Pontos de verificação para variantes de bate-papo/base/aterramento com modelos de prompt
- Suporte de quantização (4 bits/8 bits) e inferência paralela de modelo em multi-GPU
- Exemplos de ajuste fino (por exemplo, CAPTCHA) e scripts de avaliação
Linguagem de Programação
Python, Shell Unix
Categorias
Este é um aplicativo que também pode ser obtido em https://sourceforge.net/projects/cogvlm.mirror/. Ele foi hospedado no OnWorks para ser executado online da maneira mais fácil em um de nossos sistemas operacionais gratuitos.
