Multimodal이라는 이름의 Linux 앱으로, 최신 릴리스는 multimodalv2025.10.06.00sourcecode.tar.gz 형식으로 다운로드할 수 있습니다. 워크스테이션용 무료 호스팅 제공업체인 OnWorks에서 온라인으로 실행할 수 있습니다.
Multimodal with OnWorks라는 앱을 무료로 다운로드하여 온라인에서 실행해보세요.
이 앱을 실행하려면 다음 지침을 따르세요.
- 1. 이 애플리케이션을 PC에 다운로드했습니다.
- 2. 파일 관리자 https://www.onworks.net/myfiles.php?username=XXXXX에 원하는 사용자 이름을 입력합니다.
- 3. 이러한 파일 관리자에서 이 응용 프로그램을 업로드합니다.
- 4. 이 웹사이트에서 OnWorks Linux 온라인 또는 Windows 온라인 에뮬레이터 또는 MACOS 온라인 에뮬레이터를 시작합니다.
- 5. 방금 시작한 OnWorks Linux OS에서 원하는 사용자 이름으로 파일 관리자 https://www.onworks.net/myfiles.php?username=XXXXX로 이동합니다.
- 6. 응용 프로그램을 다운로드하여 설치하고 실행합니다.
스크린샷:
멀티 모달
설명 :
TorchMultimodal이라고도 하는 이 프로젝트는 대규모 멀티모달, 멀티태스크 모델을 구축, 학습 및 실험하기 위한 PyTorch 라이브러리입니다. 이 라이브러리는 인코더, 퓨전 모듈, 손실 함수, 변환과 같은 모듈식 구성 요소를 제공하여 통합 아키텍처에서 모달리티(비전, 텍스트, 오디오 등)를 결합할 수 있도록 지원합니다. ALBEF, CLIP, BLIP-2, COCA, FLAVA, MDETR, Omnivore와 같은 기존 모델 클래스 모음이 포함되어 있으며, 이는 채택 또는 수정 가능한 참조 구현으로 활용됩니다. 설계는 구성 가능성을 강조합니다. 즉, 모놀리식 모델에서 시작하는 대신 인코더, 퓨전, 디코더 구성 요소를 혼합하고 일치시킬 수 있습니다. 또한 저장소에는 일반적인 멀티모달 작업(예: 검색, 시각적 질의응답, 접지)에 대한 예제 스크립트와 데이터세트가 포함되어 있어 모델을 처음부터 끝까지 테스트하고 비교할 수 있습니다. 설치는 CPU와 CUDA를 모두 지원하며, 코드베이스는 버전 관리, 테스트 및 유지 관리됩니다.
기능
- 멀티모달 아키텍처를 위한 모듈형 인코더, 퓨전 레이어 및 손실 모듈
- 참조 모델 구현(ALBEF, CLIP, BLIP-2, FLAVA, MDETR 등)
- VQA, 검색, 접지 및 멀티태스크 학습과 같은 작업을 위한 파이프라인 예시
- 유연한 융합 전략: 조기, 후기, 교차 주의 등
- 모달리티 전처리 및 정렬을 위한 변환 유틸리티
- 버전이 지정되고 테스트된 코드베이스를 사용하여 CPU 및 GPU 설정 지원
프로그래밍 언어
Python
카테고리
이 애플리케이션은 https://sourceforge.net/projects/multimodal.mirror/에서도 다운로드할 수 있습니다. OnWorks에 호스팅되어 무료 운영 체제 중 하나에서 가장 쉽게 온라인에서 실행할 수 있도록 설계되었습니다.