ນີ້ແມ່ນແອັບ Linux ທີ່ມີຊື່ວ່າ Perception Models ເຊິ່ງລຸ້ນຫຼ້າສຸດສາມາດດາວໂຫຼດໄດ້ໃນນາມ perception_modelssourcecode.tar.gz. ມັນສາມາດດໍາເນີນການອອນໄລນ໌ຢູ່ໃນຜູ້ໃຫ້ບໍລິການໂຮດຕິ້ງຟຣີ OnWorks ສໍາລັບສະຖານີບ່ອນເຮັດວຽກ.
ດາວນ໌ໂຫລດແລະດໍາເນີນການອອນໄລນ໌ app ນີ້ມີຊື່ Perception Models ກັບ OnWorks ໄດ້ຟຣີ.
ປະຕິບັດຕາມຄໍາແນະນໍາເຫຼົ່ານີ້ເພື່ອດໍາເນີນການ app ນີ້:
- 1. ດາວໂຫຼດຄໍາຮ້ອງສະຫມັກນີ້ໃນ PC ຂອງທ່ານ.
- 2. ໃສ່ໃນຕົວຈັດການໄຟລ໌ຂອງພວກເຮົາ https://www.onworks.net/myfiles.php?username=XXXXX ດ້ວຍຊື່ຜູ້ໃຊ້ທີ່ທ່ານຕ້ອງການ.
- 3. ອັບໂຫລດແອັບພລິເຄຊັນນີ້ຢູ່ໃນຕົວຈັດການໄຟລ໌ດັ່ງກ່າວ.
- 4. ເລີ່ມ OnWorks Linux ອອນລາຍ ຫຼື Windows online emulator ຫຼື MACOS online emulator ຈາກເວັບໄຊທ໌ນີ້.
- 5. ຈາກ OnWorks Linux OS ທີ່ເຈົ້າຫາກໍ່ເລີ່ມຕົ້ນ, ໄປທີ່ຕົວຈັດການໄຟລ໌ຂອງພວກເຮົາ https://www.onworks.net/myfiles.php?username=XXXXX ດ້ວຍຊື່ຜູ້ໃຊ້ທີ່ທ່ານຕ້ອງການ.
- 6. ດາວນ໌ໂຫລດຄໍາຮ້ອງສະຫມັກ, ຕິດຕັ້ງມັນແລະດໍາເນີນການ.
ພາບຫນ້າຈໍ:
ຮູບແບບການຮັບຮູ້
DESCRIPTION:
Perception Models ແມ່ນໂຄງຮ່າງການທີ່ທັນສະໃໝທີ່ພັດທະນາໂດຍ Facebook Research ສໍາລັບວຽກງານການຮັບຮູ້ຮູບພາບ ແລະວິດີໂອທີ່ກ້າວໜ້າ. ມັນແນະນໍາສອງອົງປະກອບຕົ້ນຕໍ: Perception Encoder (PE) ສໍາລັບການສະກັດເອົາລັກສະນະທາງສາຍຕາແລະ Perception Language Model (PLM) ສໍາລັບການຖອດລະຫັດ multimodal ແລະການສົມເຫດສົມຜົນ. ໂມດູນ PE ແມ່ນຄອບຄົວຂອງຕົວເຂົ້າລະຫັດວິໄສທັດທີ່ອອກແບບມາເພື່ອເຂົ້າໃຈພາບ ແລະວິດີໂອໄດ້ດີ, ເໜືອກວ່າຕົວແບບເຊັ່ນ SigLIP2, InternVideo2, ແລະ DINOv2 ໃນທົ່ວຫຼາຍມາດຕະຖານ. ໃນຂະນະດຽວກັນ, PLM ປະສົມປະສານກັບ PE ເພື່ອສ້າງແບບຈໍາລອງພາສາວິໄສທັດ, ບັນລຸຜົນໄດ້ຮັບທີ່ມີການແຂ່ງຂັນກັບລະບົບ multimodal ຊັ້ນນໍາເຊັ່ນ QwenVL2.5 ແລະ InternVL3, ທັງຫມົດໃນຂະນະທີ່ສາມາດແຜ່ພັນໄດ້ຢ່າງເຕັມສ່ວນກັບຂໍ້ມູນເປີດ. ໂຄງການດັ່ງກ່າວສະຫນັບສະຫນູນເປັນລະດັບຄວາມກ້ວາງຂອງຄໍາຮ້ອງສະຫມັກການຄົ້ນຄວ້າ, ຈາກການຮັບຮູ້ທາງຕາແລະການຄາດຄະເນທີ່ດົກຫນາກັບຄວາມເຂົ້າໃຈ multimodal ທີ່ດີ. ນອກຈາກນັ້ນ, ມັນປະກອບມີຊຸດຂໍ້ມູນເປີດຂະຫນາດໃຫຍ່ຈໍານວນຫນຶ່ງສໍາລັບການຮັບຮູ້ຮູບພາບແລະວິດີໂອ.
ຄຸນລັກສະນະ
- ຮວມຕົວເຂົ້າລະຫັດການຮັບຮູ້ (PE) ສຳລັບການເຂົ້າລະຫັດວິໄສທັດ ແລະຕົວແບບພາສາການຮັບຮູ້ (PLM) ສຳລັບການຖອດລະຫັດຫຼາຍຮູບແບບ
- ປະສິດທິພາບສູງສຸດໃນຮູບພາບ, ວິດີໂອ, ແລະມາດຕະຖານພາສາວິໄສທັດ
- ແບບເປີດ, ສາມາດແຜ່ພັນໄດ້ໂດຍໃຊ້ຊຸດຂໍ້ມູນທີ່ມີຢູ່ຢ່າງເສລີເພື່ອຄວາມໂປ່ງໃສ
- ຫຼາຍຕົວແປ PE ສະເພາະສຳລັບວຽກຫຼັກ, ການຈັດຮຽງພາສາ ແລະ ພື້ນທີ່
- PLM ມີຢູ່ໃນຂະຫນາດພາລາມິເຕີ 1B, 3B, ແລະ 8B ສໍາລັບຄວາມຕ້ອງການການຄົ້ນຄວ້າທີ່ມີຄວາມຍືດຫຍຸ່ນ
- ປະສົມປະສານກັບເຄື່ອງມືທີ່ນິຍົມເຊັ່ນ Hugging Face Transformers, timm, ແລະ lmms-eval
ພາສາການຂຽນໂປຣແກຣມ
Python
ປະເພດ
ນີ້ແມ່ນແອັບພລິເຄຊັນທີ່ຍັງສາມາດເອົາມາຈາກ https://sourceforge.net/projects/perception-models.mirror/. ມັນໄດ້ຖືກຈັດຢູ່ໃນ OnWorks ເພື່ອໃຫ້ດໍາເນີນການອອນໄລນ໌ດ້ວຍວິທີທີ່ງ່າຍທີ່ສຸດຈາກຫນຶ່ງໃນລະບົບປະຕິບັດງານຟຣີຂອງພວກເຮົາ.