Qwen2.5-Omni라는 Windows 앱이며, 최신 릴리스는 Qwen2.5-Omnisourcecode.tar.gz로 다운로드할 수 있습니다. 워크스테이션용 무료 호스팅 제공업체인 OnWorks에서 온라인으로 실행할 수 있습니다.
OnWorks가 포함된 Qwen2.5-Omni라는 앱을 무료로 다운로드하여 온라인에서 실행해보세요.
이 앱을 실행하려면 다음 지침을 따르세요.
- 1. 이 애플리케이션을 PC에 다운로드했습니다.
- 2. 파일 관리자 https://www.onworks.net/myfiles.php?username=XXXXX에 원하는 사용자 이름을 입력합니다.
- 3. 이러한 파일 관리자에서 이 응용 프로그램을 업로드합니다.
- 4. 이 웹사이트에서 모든 OS OnWorks 온라인 에뮬레이터를 시작하지만 더 나은 Windows 온라인 에뮬레이터를 시작합니다.
- 5. 방금 시작한 OnWorks Windows OS에서 원하는 사용자 이름으로 파일 관리자 https://www.onworks.net/myfiles.php?username=XXXXX로 이동합니다.
- 6. 애플리케이션을 다운로드하여 설치합니다.
- 7. Linux 배포 소프트웨어 저장소에서 Wine을 다운로드합니다. 설치가 완료되면 앱을 두 번 클릭하여 Wine과 함께 실행할 수 있습니다. 인기 있는 Windows 프로그램 및 게임을 설치하는 데 도움이 되는 Wine을 통한 멋진 인터페이스인 PlayOnLinux를 사용해 볼 수도 있습니다.
Wine은 Linux에서 Windows 소프트웨어를 실행하는 방법이지만 Windows가 필요하지 않습니다. Wine은 모든 Linux 데스크탑에서 직접 Windows 프로그램을 실행할 수 있는 오픈 소스 Windows 호환성 계층입니다. 본질적으로 Wine은 Windows가 필요하지 않고 모든 Windows 응용 프로그램을 실행할 수 있도록 Windows를 처음부터 충분히 다시 구현하려고 합니다.
스크린 샷
Ad
Qwen2.5-옴니
기술
Qwen2.5-Omni는 Alibaba Cloud의 Qwen 시리즈 중 엔드 투 엔드 멀티모달 플래그십 모델로, 텍스트, 이미지, 오디오, 비디오 등 다양한 모달리티를 처리하고 실시간 스트리밍을 통해 텍스트 및 자연어 음성으로 응답을 생성하도록 설계되었습니다. "Thinker-Talker" 아키텍처를 지원하며, 시간 경과에 따른 모달리티 정렬(예: 비디오/오디오 동기화), 강력한 음성 생성, 그리고 저용량 VRAM/양자화 버전을 통해 사용 편의성을 높이는 혁신적인 기술을 도입했습니다. 특히 음성 언어 이해, 오디오 추론, 이미지/비디오 이해 등 다양한 멀티모달 벤치마크에서 최첨단 성능을 자랑합니다.
기능
- 다양한 입력 방식(텍스트, 이미지, 오디오, 비디오)을 처리합니다.
- 자연스러운 음성 합성(텍스트-음성) 및 저지연 상호 작용을 위한 청크 입력을 포함한 실시간 스트리밍 응답
- 멀티모달 평가에서 비슷한 성능을 유지하면서 GPU 메모리 요구 사항을 50% 이상 줄이는 양자화된 모델 버전(4비트 GPTQ/AWQ)
- 모달리티(오디오 이해, 음성 인식, 이미지/비디오 추론) 전반에 걸쳐 매우 강력한 벤치마크 성능을 보였으며 유사한 규모에서 단일 모달리티 모델보다 성능이 더 좋거나 비슷한 성능을 보였습니다.
- 비디오 및 오디오와 같은 모달리티 간 타임스탬프를 정렬하기 위한 TMRoPE(Time-aligned Multimodal RoPE)와 같은 새로운 아키텍처 요소
- 요리책, 예제, Docker/웹 데모 지원, 저 VRAM 모드, ModelScope를 통한 배포, Hugging Face 등.
프로그래밍 언어
Python
카테고리
이 애플리케이션은 https://sourceforge.net/projects/qwen2-5-omni.mirror/에서도 다운로드할 수 있습니다. OnWorks에 호스팅되어 무료 운영 체제 중 하나에서 가장 쉽게 온라인에서 실행할 수 있도록 설계되었습니다.