Este é o aplicativo Linux DeepSeek-V3, cuja versão mais recente pode ser baixada como v1.0.0sourcecode.tar.gz. Ele pode ser executado online no provedor de hospedagem gratuita OnWorks para estações de trabalho.
Baixe e execute on-line este aplicativo chamado DeepSeek-V3 com OnWorks gratuitamente.
Siga estas instruções para executar este aplicativo:
- 1. Baixe este aplicativo em seu PC.
- 2. Entre em nosso gerenciador de arquivos https://www.onworks.net/myfiles.php?username=XXXXX com o nome de usuário que você deseja.
- 3. Carregue este aplicativo em tal gerenciador de arquivos.
- 4. Inicie o emulador OnWorks Linux online ou Windows online ou emulador MACOS online a partir deste site.
- 5. No sistema operacional OnWorks Linux que você acabou de iniciar, acesse nosso gerenciador de arquivos https://www.onworks.net/myfiles.php?username=XXXXX com o nome de usuário que deseja.
- 6. Baixe o aplicativo, instale-o e execute-o.
SCREENSHOTS
Ad
DeepSeek-V3
DESCRIÇÃO
O DeepSeek-V3 é um robusto modelo de linguagem Mixture-of-Experts (MoE) desenvolvido pela DeepSeek, com um total de 671 bilhões de parâmetros, com 37 bilhões ativados por token. Ele emprega a Atenção Latente Multicabeça (MLA) e a arquitetura DeepSeekMoE para aprimorar a eficiência computacional. O modelo introduz uma estratégia de balanceamento de carga sem perdas auxiliares e um objetivo de treinamento de predição multitoken para impulsionar o desempenho. Treinado em 14.8 trilhões de tokens diversos e de alta qualidade, o DeepSeek-V3 passou por ajustes finos supervisionados e aprendizado por reforço para atingir plenamente seus recursos. As avaliações indicam que ele supera outros modelos de código aberto e rivaliza com os principais modelos de código fechado, alcançando esse desempenho com uma duração de treinamento de 55 dias em 2,048 GPUs Nvidia H800, a um custo aproximado de US$ 5.58 milhões.
Recursos
- 671 bilhões de parâmetros com 37 bilhões ativados por token, garantindo modelagem de linguagem robusta.
- Arquitetura de Atenção Latente Multicabeça (MLA) e DeepSeekMoE para computação eficiente.
- Estratégia de balanceamento de carga sem perdas auxiliares para melhorar o desempenho sem perdas adicionais.
- Objetivo de treinamento de previsão de múltiplos tokens para capacidades preditivas aprimoradas.
- Pré-treinado em 14.8 trilhões de tokens diversos, garantindo compreensão abrangente da linguagem.
- Ajuste fino supervisionado e aprendizado por reforço para aproveitar totalmente o potencial do modelo.
- Supera outros modelos de código aberto, comparável aos principais modelos de código fechado.
- Treinamento econômico, concluído em 55 dias usando 2,048 GPUs Nvidia H800 por aproximadamente US$ 5.58 milhões.
Linguagem de Programação
Python
Categorias
Este é um aplicativo que também pode ser obtido em https://sourceforge.net/projects/deepseek-v3.mirror/. Ele foi hospedado no OnWorks para ser executado online da maneira mais fácil em um de nossos sistemas operacionais gratuitos.