DeepSeek-V3라는 이름의 리눅스 앱으로, 최신 버전은 v1.0.0sourcecode.tar.gz 형식으로 다운로드할 수 있습니다. 워크스테이션용 무료 호스팅 제공업체인 OnWorks에서 온라인으로 실행할 수 있습니다.
DeepSeek-V3 with OnWorks라는 앱을 무료로 다운로드하여 온라인에서 실행해보세요.
이 앱을 실행하려면 다음 지침을 따르세요.
- 1. 이 애플리케이션을 PC에 다운로드했습니다.
- 2. 파일 관리자 https://www.onworks.net/myfiles.php?username=XXXXX에 원하는 사용자 이름을 입력합니다.
- 3. 이러한 파일 관리자에서 이 응용 프로그램을 업로드합니다.
- 4. 이 웹사이트에서 OnWorks Linux 온라인 또는 Windows 온라인 에뮬레이터 또는 MACOS 온라인 에뮬레이터를 시작합니다.
- 5. 방금 시작한 OnWorks Linux OS에서 원하는 사용자 이름으로 파일 관리자 https://www.onworks.net/myfiles.php?username=XXXXX로 이동합니다.
- 6. 응용 프로그램을 다운로드하여 설치하고 실행합니다.
스크린 샷
Ad
딥시크-V3
기술
DeepSeek-V3는 DeepSeek에서 개발한 강력한 전문가 혼합(MoE) 언어 모델로, 총 671억 개의 매개변수를 포함하고 있으며, 토큰당 37억 개의 매개변수가 활성화됩니다. 멀티헤드 잠재 주의(MLA)와 DeepSeekMoE 아키텍처를 활용하여 계산 효율성을 향상시킵니다. 이 모델은 보조 손실 없는 부하 분산 전략과 다중 토큰 예측 학습 목표를 도입하여 성능을 향상시킵니다. 14.8조 3억 개의 다양하고 고품질 토큰을 기반으로 학습된 DeepSeek-V55는 지도 미세 조정 및 강화 학습을 통해 성능을 완벽하게 구현했습니다. 평가 결과, 다른 오픈 소스 모델과 주요 클로즈드 소스 모델보다 우수한 성능을 보였으며, 2,048개의 Nvidia H800 GPU에서 5.58일 동안 학습에 소요된 비용(약 XNUMX만 달러)을 통해 이러한 성과를 달성했습니다.
기능
- 토큰당 671억 개가 활성화된 37억 개의 매개변수를 통해 강력한 언어 모델링이 보장됩니다.
- 효율적인 계산을 위한 멀티 헤드 잠재 주의(MLA) 및 DeepSeekMoE 아키텍처.
- 추가 손실 없이 성능을 향상시키기 위한 보조 손실 없는 부하 분산 전략입니다.
- 예측 능력 향상을 위한 다중 토큰 예측 교육 목표입니다.
- 14.8조 XNUMX천억 개의 다양한 토큰을 사전 훈련하여 포괄적인 언어 이해를 보장합니다.
- 모델의 잠재력을 최대한 활용하기 위해 감독된 미세 조정 및 강화 학습을 실시합니다.
- 다른 오픈소스 모델보다 성능이 뛰어나며, 주요 폐쇄형 소스 모델과 비교 가능합니다.
- 약 55만 달러의 비용으로 2,048개의 Nvidia H800 GPU를 사용하여 5.58일 만에 완료된 비용 효율적인 교육입니다.
프로그래밍 언어
Python
카테고리
이 애플리케이션은 https://sourceforge.net/projects/deepseek-v3.mirror/에서도 다운로드할 수 있습니다. OnWorks에 호스팅되어 무료 운영 체제 중 하나에서 가장 쉽게 온라인에서 실행할 수 있습니다.