This is the Windows app named FastVLM whose latest release can be downloaded as ml-fastvlmsourcecode.tar.gz. It can be run online in the free hosting provider OnWorks for workstations.
Baixe e execute online este aplicativo chamado FastVLM com OnWorks gratuitamente.
Siga estas instruções para executar este aplicativo:
- 1. Baixe este aplicativo em seu PC.
- 2. Entre em nosso gerenciador de arquivos https://www.onworks.net/myfiles.php?username=XXXXX com o nome de usuário que você deseja.
- 3. Carregue este aplicativo em tal gerenciador de arquivos.
- 4. Inicie qualquer emulador on-line OS OnWorks a partir deste site, mas um emulador on-line melhor do Windows.
- 5. No sistema operacional OnWorks Windows que você acabou de iniciar, acesse nosso gerenciador de arquivos https://www.onworks.net/myfiles.php?username=XXXXX com o nome de usuário que deseja.
- 6. Baixe o aplicativo e instale-o.
- 7. Baixe o Wine de seus repositórios de software de distribuição Linux. Depois de instalado, você pode clicar duas vezes no aplicativo para executá-lo com o Wine. Você também pode experimentar o PlayOnLinux, uma interface sofisticada do Wine que o ajudará a instalar programas e jogos populares do Windows.
Wine é uma forma de executar software Windows no Linux, mas sem a necessidade de Windows. Wine é uma camada de compatibilidade do Windows de código aberto que pode executar programas do Windows diretamente em qualquer desktop Linux. Essencialmente, o Wine está tentando reimplementar o suficiente do Windows do zero para que possa executar todos os aplicativos do Windows sem realmente precisar do Windows.
SCREENSHOTS
Ad
FastVLM
DESCRIÇÃO
O FastVLM é um conjunto de modelagem de linguagem de visão focado em eficiência que apresenta o FastViTHD, um codificador de visão híbrido projetado para emitir menos tokens visuais e reduzir o tempo de codificação, especialmente para imagens de alta resolução. Em vez de etapas elaboradas de poda, o projeto compensa a resolução e a contagem de tokens por meio do escalonamento de entrada, simplificando o pipeline e mantendo alta precisão. Os resultados relatados destacam acelerações drásticas no tempo até o primeiro token e na qualidade competitiva em relação aos VLMs abertos contemporâneos, incluindo comparações entre variantes pequenas e grandes. O repositório documenta variantes do modelo, apresenta números comparativos com linhas de base conhecidas e explica como o codificador se integra a backbones comuns de LLM. O resumo da pesquisa da Apple descreve o FastVLM como voltado para cenários em tempo real ou sensíveis à latência, onde a redução da pressão do token visual é fundamental para a UX interativa. Em resumo, é uma receita prática para tornar os VLMs rápidos sem heurísticas exóticas de seleção de tokens.
Recursos
- Codificador de visão híbrido FastViTHD com menos tokens visuais
- Reduções significativas na latência de codificação e TTFT
- Compensação entre resolução e token por meio de escalonamento de entrada simples
- Compatibilidade com backbones LLM padrão em pilhas VLM
- Relatou resultados superiores às linhas de base a um custo muito menor
- Variantes ajustadas para regimes de modelos pequenos e maiores
Linguagem de Programação
Python
Categorias
Este é um aplicativo que também pode ser obtido em https://sourceforge.net/projects/fastvlm.mirror/. Ele foi hospedado no OnWorks para ser executado online da maneira mais fácil em um de nossos sistemas operacionais gratuitos.