Это Linux-приложение DeepSeek-V3, последнюю версию которого можно скачать как v1.0.0sourcecode.tar.gz. Его можно запустить онлайн на бесплатном хостинг-провайдере OnWorks для рабочих станций.
Бесплатно скачайте и запустите онлайн это приложение под названием DeepSeek-V3 с OnWorks.
Следуйте этим инструкциям, чтобы запустить это приложение:
- 1. Загрузил это приложение на свой компьютер.
- 2. Введите в нашем файловом менеджере https://www.onworks.net/myfiles.php?username=XXXXX с желаемым именем пользователя.
- 3. Загрузите это приложение в такой файловый менеджер.
- 4. Запустите онлайн-эмулятор OnWorks Linux или Windows или онлайн-эмулятор MACOS с этого веб-сайта.
- 5. В только что запущенной ОС OnWorks Linux перейдите в наш файловый менеджер https://www.onworks.net/myfiles.php?username=XXXXX с желаемым именем пользователя.
- 6. Скачайте приложение, установите его и запустите.
СКРИНШОТЫ
Ad
DeepSeek-V3
ОПИСАНИЕ
DeepSeek-V3 — это мощная языковая модель «смесь экспертов» (MoE), разработанная DeepSeek. Она содержит в общей сложности 671 миллиард параметров, из которых 37 миллиардов активируются на каждый токен. Она использует технологию Multi-head Latent Attention (MLA) и архитектуру DeepSeekMoE для повышения вычислительной эффективности. В модели реализована стратегия балансировки нагрузки без дополнительных потерь и цель обучения с многотокенным прогнозированием для повышения производительности. DeepSeek-V14.8, обученная на 3 триллионах разнообразных высококачественных токенов, прошла контролируемую тонкую настройку и обучение с подкреплением для полной реализации своих возможностей. Оценки показывают, что она превосходит другие модели с открытым исходным кодом и соперничает с ведущими моделями с закрытым исходным кодом, достигнув этого при продолжительности обучения 55 дней на 2,048 графических процессорах Nvidia H800, стоимостью около 5.58 миллиона долларов США.
Особенности
- 671 миллиард параметров, из которых 37 миллиардов активируются на токен, что обеспечивает надежное языковое моделирование.
- Архитектура Multi-head Latent Attention (MLA) и DeepSeekMoE для эффективных вычислений.
- Стратегия балансировки нагрузки без дополнительных потерь для повышения производительности.
- Цель обучения многотокеновому прогнозированию для улучшения прогностических возможностей.
- Предварительно обучен на 14.8 триллионах разнообразных токенов, что обеспечивает всестороннее понимание языка.
- Контролируемая тонкая настройка и обучение с подкреплением для полного раскрытия потенциала модели.
- Превосходит другие модели с открытым исходным кодом и сопоставима с ведущими аналогами с закрытым исходным кодом.
- Экономически эффективное обучение, проведенное в течение 55 дней с использованием 2,048 графических процессоров Nvidia H800 и стоимостью около 5.58 млн долларов США.
Язык программирования
Питон
Категории
Это приложение также можно скачать по адресу https://sourceforge.net/projects/deepseek-v3.mirror/. Оно размещено на OnWorks для максимально удобного запуска онлайн через одну из наших бесплатных операционных систем.