GoGPT Best VPN GoSearch

OnWorks favicon

murasaki - ອອນ​ໄລ​ນ​໌​ໃນ​ຟັງ​ໄດ້​

ແລ່ນ murasaki ໃນ OnWorks ຜູ້ໃຫ້ບໍລິການໂຮດຟຣີຜ່ານ Ubuntu Online, Fedora Online, Windows online emulator ຫຼື MAC OS online emulator

ນີ້ແມ່ນຄໍາສັ່ງ murasaki ທີ່ສາມາດດໍາເນີນການໄດ້ໃນ OnWorks ຜູ້ໃຫ້ບໍລິການໂຮດຕິ້ງຟຣີໂດຍໃຊ້ຫນຶ່ງໃນສະຖານີເຮັດວຽກອອນໄລນ໌ຟຣີຫຼາຍອັນຂອງພວກເຮົາເຊັ່ນ Ubuntu Online, Fedora Online, Windows online emulator ຫຼື MAC OS online emulator

ໂຄງການ:

NAME


murasaki - ສະມໍຄຳນວນລະຫວ່າງຫຼາຍລຳດັບ

ສະຫຼຸບສັງລວມ


murasaki [ຕົວເລືອກ] -p[ຮູບແບບ] seq1.fa seq2.gbk [seq3.raw ...] #compute anchors ລະຫວ່າງ seq1.fa ແລະ seq2.gbk ໂດຍໃຊ້ [ຮູບແບບ]
mpirun murasaki [ຕົວເລືອກ] -p[ຮູບແບບ] seq1.fa seq2.gbk [seq3.raw ...] #compute anchors ລະຫວ່າງ seq1.fa ແລະ seq2.gbk ໂດຍໃຊ້ [ຮູບແບບ] ໃນຂະຫນານຜ່ານ MPI

ລາຍລະອຽດ


Murasaki ສ້າງສະມໍໂດຍອີງໃສ່ລໍາດັບທີ່ສະຫນອງທັງຫມົດໂດຍອີງໃສ່ຜູ້ໃຊ້ທີ່ສະຫນອງໃຫ້
ຮູບແບບ ແລະຕາຕະລາງ hash. ໂດຍ​ພື້ນ​ຖານ​ຂອງ​ແຕ່​ລະ​ລໍາ​ດັບ​ແມ່ນ​ເປັນ​ຫນ້າ​ກາກ​ໂດຍ​ຮູບ​ແບບ​,
ກອບເປັນຈໍານວນກ ແກ່ນ ທີ່ຖືກນໍາໃຊ້ເພື່ອສ້າງ hash. ສະຖານທີ່ຂອງແກ່ນແມ່ນເກັບຮັກສາໄວ້ໃນ
hash ຕາຕະລາງ. ເມື່ອເມັດທັງຫມົດໄດ້ຖືກຂູດແລະເກັບຮັກສາໄວ້, Murasaki ຈະສະແກນຕາຕະລາງ hash,
ການສ້າງສະມໍສໍາລັບທຸກເມັດທີ່ກົງກັນ. ສະມໍໝາຍເຖິງໄລຍະຫ່າງທີ່ກຳນົດໄວ້ໃນທົ່ວ ກ
ຊຸດຍ່ອຍຂອງລຳດັບການປ້ອນຂໍ້ມູນ. ສິ່ງເຫຼົ່ານີ້ຖືກເກັບໄວ້ໃນ ຊື່ໄຟລ໌ .anchors, ແລະອະທິບາຍໃນ
"ຮູບແບບໄຟລ໌". ໂດຍຄ່າເລີ່ມຕົ້ນສະມໍແມ່ນຂະຫຍາຍໄດ້ສູງສຸດຈົນຮອດຄູ່ຂັ້ນຕໍ່າສຸດຂອງພວກມັນ
ຄະແນນການຈັດຕຳແໜ່ງທີ່ບໍ່ຖືກນຳໃຊ້ຫຼຸດລົງຕໍ່າກວ່າເກນໜຶ່ງໃນແບບດຽວກັນກັບພາຣາມິເຕີ X-drop
ໃນການຄົ້ນຫາຄ້າຍຄື BLAST ແລະ BLAST.

ຕາຕະລາງ
Murasaki ໃຊ້ ຫ່າງໆ ແກ່ນ ຮູບແບບການ ໃນ​ການ​ພິ​ຈາ​ລະ​ນາ​ເມັດ​. ກ ຫ່າງໆ ແກ່ນ ຮູບແບບ is
ໂດຍທົ່ວໄປແລ້ວສະແດງອອກເປັນສະຕຣິງຂອງ 1s ແລະ 0s ຈໍາເປັນຕ້ອງເລີ່ມຕົ້ນ ແລະສິ້ນສຸດດ້ວຍ 1. 1s.
ຊີ້ບອກວ່າຖານນີ້ຖືວ່າເປັນສ່ວນໜຶ່ງຂອງແກ່ນ, ໃນຂະນະທີ່ຖານຢູ່ 0 ຕຳແໜ່ງ
ບໍ່. ຕົວຢ່າງດ້ວຍຮູບແບບ "1011" ລໍາດັບ "ACGT" ຈະກົງກັບລໍາດັບ "AGGT"
ແລະ "ATGT" ແຕ່ບໍ່ແມ່ນ "ACTT". ຈໍານວນຂອງ 1s ໃນຮູບແບບແມ່ນເປັນທີ່ຮູ້ຈັກເປັນ "ນ້ໍາຫນັກ" ຂອງ
ຮູບແບບ, ແລະຈໍານວນຂອງ 1s ແລະ 0s ປະສົມປະສານແມ່ນ "ຄວາມຍາວ" ຂອງຮູບແບບ. ມູຣາຊາກິ
ອະ​ນຸ​ຍາດ​ໃຫ້​ການ​ນໍາ​ໃຊ້​ຮູບ​ແບບ​ທີ່​ຕົນ​ເອງ​ທີ່​ສະ​ແດງ​ອອກ​ເປັນ string ຂອງ 1s ແລະ 0s​, ແລະ​ຍັງ
ແປຮູບແບບຂອງຮູບແບບ "x:y" ເພື່ອຫມາຍຄວາມວ່າ "ຮູບແບບຂອງນ້ໍາຫນັກແບບສຸ່ມ x ແລະຄວາມຍາວ y."

ການເລືອກຮູບແບບແນ່ນອນມີຜົນກະທົບທີ່ລະອຽດອ່ອນແລະສະເພາະ, ແຕ່ວ່າ
ຮູບແບບຫນຶ່ງແມ່ນ "ດີ" ກ່ວາຮູບແບບອື່ນແມ່ນຂຶ້ນກັບຄໍາຮ້ອງສະຫມັກແລະລໍາດັບການປ້ອນຂໍ້ມູນ
ພາຍ​ໃຕ້​ການ​ພິ​ຈາ​ລະ​ນາ. ການຄິດໄລ່ "ຮູບແບບເມັດທີ່ມີໄລຍະຫ່າງທີ່ລະອຽດອ່ອນສູງສຸດ" ແມ່ນ a
ບັນ​ຫາ​ທີ່​ຍາກ​ໃນ​ການ​ຄິດ​ໄລ່​ແລະ​ມີ​ຈໍາ​ນວນ​ຂອງ​ເອ​ກະ​ສານ​ການ​ຄົ້ນ​ຄວ້າ​ອະ​ທິ​ບາຍ​
ວິທີການຕ່າງໆສໍາລັບການປະມານ ("ການອ່ານທີ່ກ່ຽວຂ້ອງ"). ໂດຍທົ່ວໄປ, ຢ່າງໃດກໍຕາມ, "ຫນັກກວ່າ"
ຮູບ​ແບບ​ເມັດ​ທີ່​ຫ່າງ​ໄກ​ສອກ​ຫຼີກ​ແມ່ນ​ມີ​ຄວາມ​ອ່ອນ​ໄຫວ​ຫນ້ອຍ, ແຕ່​ສະ​ເພາະ​ຫຼາຍ​ກ​່​ວາ​ເມັດ​ສີ​ມ້ານ​.
ໂດຍວິທີທາງການ, ພວກເຮົາພົບວ່າເມັດທີ່ມີນ້ໍາຫນັກປະມານ 60% ຫາ 75% (ມີຄວາມຍາວປະມານ
24 ສໍາລັບເຊື້ອແບັກທີເຣັຍ, ແລະ 36 ຫາ 48 ສໍາລັບສັດລ້ຽງລູກດ້ວຍນົມ) ແມ່ນດີສໍາລັບການນໍາໃຊ້ຫຼາຍທີ່ສຸດ. ທີ່ສຸດ
ຊະນິດພັນທີ່ຄ້າຍຄືກັນ (ຕົວຢ່າງມະນຸດແລະ chimp) ໄດ້ຮັບຜົນປະໂຫຍດຈາກເມັດທີ່ຍາວກວ່າ, ຫນັກກວ່າ.

Hash FUNCTIONS
ຟັງຊັນ hash (ເຊັ່ນດຽວກັນກັບຕົວກໍານົດການ hash) ແມ່ນຖືກສ້າງຂຶ້ນໂດຍອັດຕະໂນມັດໂດຍອີງໃສ່ລະບົບ
ສະພາບແວດລ້ອມແລະລໍາດັບການປ້ອນຂໍ້ມູນ. ມັນເປັນສິ່ງຈໍາເປັນສອງປະເພດຂອງຫນ້າທີ່ hash
ມີຢູ່ໃນ Murasaki: ການປັບຕົວແລະລະຫັດ cryptoraphic. ເຄື່ອງໝາຍການປັບຕົວແມ່ນ XOR
ການ​ປະ​ສົມ​ຂອງ​ການ​ປ່ຽນ​ແປງ bitwise ຕ່າງໆ​ຂອງ​ເມັດ​ອອກ​ແບບ​ໂດຍ​ການ​ວິ​ເຄາະ​ ຫ່າງໆ ແກ່ນ
ຮູບແບບ ເພື່ອເພີ່ມ entropy ຂອງ hash ຜົນໄດ້ຮັບ. ມີການເຂົ້າລະຫັດລັບ
ຜ່ານຫ້ອງສະຫມຸດ CryptoPP ແລະນໍາໃຊ້ ທັງຫມົດ ຮູບແບບເມັດທີ່ມີໄລຍະຫ່າງເພື່ອສ້າງ hash ໂດຍໃຊ້
ນຶ່ງໃນລະຫັດການເຂົ້າລະຫັດລັບທົ່ວໄປເຊັ່ນ MD5 ຫຼື SHA-1. ຫນ້າທີ່ປັບຕົວ hash ແມ່ນ
ເກືອບສະເຫມີໄວແລະມີປະສິດທິພາບຫຼາຍກ່ວາ MD5 ແລະ SHA-1, ແຕ່ການເຂົ້າລະຫັດລັບ
ຫນ້າທີ່ສາມາດໃຊ້ໄດ້ສໍາລັບການອ້າງອິງແລະອາດຈະເປັນປະໂຫຍດເປັນທາງເລືອກໃນການບໍ່ເປັນໄປໄດ້
ເຫດການທີ່ທ່ານກໍາລັງຈັດການກັບສະພາບແວດລ້ອມທີ່ hasher ການປັບຕົວແມ່ນບໍ່ເຫມາະສົມ (ສໍາລັບ
ຍົກ​ຕົວ​ຢ່າງ​ລໍາ​ດັບ​ປະ​ກອບ​ດ້ວຍ​ພຽງ​ແຕ່ A ແລະ T (ປະ​ໄວ້ 1 ໃນ​ທຸກໆ 2 bits unitilized​)​.

ຫນ່ວຍຄວາມຈໍາ ຂະໜາດ
Murasaki ສາມາດເອົາຄວາມຊົງຈໍາໄດ້ຫຼາຍ. ການເກັບຮັກສາສະຖານທີ່ຂອງແຕ່ລະເມັດໃນຕາຕະລາງ hash ແມ່ນ
ສ່ວນ​ທີ່​ມີ​ຄ່າ​ໃຊ້​ຈ່າຍ​ຫຼາຍ​ທີ່​ສຸດ​ຂອງ​ການ​ດໍາ​ເນີນ​ງານ​, ຮຽກ​ຮ້ອງ​ໃຫ້​ມີ​ປະ​ມານ "ceil(log_2(N))" bits ຕໍ່
ແກ່ນທີ່ "N" ແມ່ນຄວາມຍາວຂອງລໍາດັບທັງຫມົດ. ສະຖານທີ່ແມ່ນ, ໂດຍຄ່າເລີ່ມຕົ້ນ, ເກັບໄວ້ໃນ a
ຮູບແບບ bitpacked ເພື່ອເຂົ້າຫາຂັ້ນຕ່ໍາທາງທິດສະດີ. ອົງປະກອບທີ່ສອງລາຄາຖືກທີ່ສຸດແມ່ນ
ໂຄງສ້າງຕາຕະລາງ hash, ບ່ອນທີ່ແຕ່ລະຖັງມີສ່ວນເກີນຂະຫນາດນ້ອຍແລະບໍ່ໄດ້ໃຊ້ແມ່ນງ່າຍດາຍ
ເສຍພື້ນທີ່. ຖັງຕາຕະລາງ hash ຫຼາຍ (ເຊັ່ນ: ຕາຕະລາງ hash ຍາວກວ່າ) ຫຼຸດລົງຕາມທີ່ຄາດໄວ້
ຈໍາ​ນວນ​ຂອງ​ການ​ປະ​ທະ​ກັນ​, ເຮັດ​ໃຫ້​ເວ​ລາ​ປະ​ຕິ​ບັດ​ໄວ​ຂຶ້ນ​. ເພາະສະນັ້ນ Murasaki ພະຍາຍາມໃຊ້
buckets ຫຼາຍເທົ່າທີ່ເປັນໄປໄດ້ໂດຍການກວດສອບຄວາມຊົງຈໍາຂອງລະບົບທີ່ມີຢູ່ແລະນໍາໃຊ້ຫຼາຍເທົ່າທີ່
ມັນສາມາດເຮັດໄດ້ໃນຂະນະທີ່ຍັງເກັບຮັກສາແກ່ນທັງຫມົດສະຖານທີ່. ຖ້າການປັບຂະຫນາດອັດຕະໂນມັດນີ້ແມ່ນ
ບໍ່ມີປະສິດຕິຜົນ, ການຕັ້ງຄ່າຂະຫນາດຕາຕະລາງ hash ໂດຍກົງຜ່ານທາງເລືອກ --hashbits|-b ສາມາດບັງຄັບ
ຂະຫນາດຕາຕະລາງ hash ສະເພາະ. ຖ້າໜ່ວຍຄວາມຈຳຂອງຄອມພິວເຕີໜ່ວຍໜຶ່ງບໍ່ພຽງພໍໃນການເກັບຮັກສາ
ຕາຕະລາງ hash ທີ່ຕ້ອງການ, PARALLELIZATION ສາມາດຖືກນໍາໃຊ້ເພື່ອແຈກຢາຍຕາຕະລາງ hash ໃນທົ່ວ
ຄອມພິວເຕີຫຼາຍເຄື່ອງ.

ການປຽບທຽບ
Murasaki ຖືກອອກແບບມາເພື່ອແລ່ນແບບຂະໜານກັນໂດຍໃຊ້ MPI. ປຶກສາຫາລືເອກະສານສໍາລັບການ
ການປ່ຽນແປງສະເພາະຂອງການປະຕິບັດ MPI ຂອງທ່ານ, ແນວໃດກໍ່ຕາມໂດຍທົ່ວໄປວິທີການປະຕິບັດ
ເບິ່ງ​ຄື:

mpirun [ຕົວເລືອກ MPI] murasaki [ຕົວເລືອກ murasaki] -p[ຮູບແບບ] [seq1 ...]

Murasaki ໃນຂະຫນານແບ່ງຈໍານວນຂອງໂປເຊດເຊີທີ່ມີຢູ່ (NP) ເປັນສອງກຸ່ມ:
nodes hasher ແລະ nodes ການເກັບຮັກສາ. nodes ການເກັບຮັກສາແບ່ງຕາຕະລາງ hash ລະຫວ່າງແຕ່ລະ
ຕົນເອງ, ແຕ່ລະຄົນຮັບຜິດຊອບສໍາລັບສ່ວນທີ່ແຕກຕ່າງກັນຂອງຕາຕະລາງ. ແຍກ Hasher nodes
ລໍາດັບການປ້ອນຂໍ້ມູນລະຫວ່າງຕົວຂອງມັນເອງ, ແຕ່ລະຄົນ hashing ສ່ວນແຍກຕ່າງຫາກຂອງການປ້ອນຂໍ້ມູນ
ລໍາດັບ, ແລະການຖ່າຍທອດສະຖານທີ່ຂອງແກ່ນໄປຫາບ່ອນເກັບຮັກສາທີ່ເຫມາະສົມສໍາລັບການເກັບຮັກສາ. ເມື່ອ​ໃດ​
nodes hasher ທັງ​ຫມົດ​ແມ່ນ​ສໍາ​ເລັດ hashing​, nodes ການ​ເກັບ​ຮັກ​ສາ​ສະ​ແກນ​ສ່ວນ​ຂອງ hash ຂອງ​ເຂົາ​ເຈົ້າ​
ຕາ​ຕະ​ລາງ​ແລະ​ຜ່ານ​ການ​ຈັບ​ຄູ່​ຊຸດ​ຂອງ​ເມັດ​ເພື່ອ​ຂໍ້ hasher ບ່ອນ​ທີ່​ພວກ​ເຂົາ​ເຈົ້າ​ໄດ້​ຖືກ​ປະ​ກອບ​ເປັນ​
ສະມໍແລະຂະຫຍາຍ. ສຸດທ້າຍທັງຫມົດ nodes hasher ສົມທົບຊຸດສະມໍເອກະລາດຂອງເຂົາເຈົ້າ
ເຂົ້າໄປໃນຊຸດສຸດທ້າຍໃນ "ceil(log_2(H))" iterations (ບ່ອນທີ່ "H" ແມ່ນຈໍານວນຂອງ hasher.
nodes), ໂດຍແຕ່ລະ hasher node number 2h ຜ່ານສະມໍຂອງມັນໄປຫາ hasher number 2h-1 ໃນແຕ່ລະ.
ຊ້ຳ.

ເນື່ອງຈາກວ່າເກືອບບໍ່ມີຂັ້ນຕອນການຂະຫນານຮຽກຮ້ອງໃຫ້ມີການສື່ສານລະຫວ່າງ ທັງຫມົດ ຂໍ້,
ແລະແຕ່ລະເມັດແລະແຕ່ລະສະມໍສາມາດໄດ້ຮັບການປຸງແຕ່ງໃນຂະຫນານ, Murasaki scales ໄດ້ດີຫຼາຍໃນ
ຂະຫນານ, ແລ່ນປະມານສອງເທົ່າໄວເມື່ອມີສອງເທົ່າຂອງ nodes.
ນອກຈາກນັ້ນ, ຕາຕະລາງ hash ແມ່ນການຂະຫຍາຍຕົວໂດຍອັດຕະໂນມັດເພື່ອໃຊ້ປະໂຫຍດຈາກການລວມກັນ
ຫນ່ວຍຄວາມຈໍາຈາກຫຼາຍເຄື່ອງ.

OPTIONS


ຕົວເລືອກສ່ວນໃຫຍ່ສາມາດຖືກລະບຸໄວ້ໃນແບບຟອມຍາວຂອງພວກເຂົາ (ຕົວຢ່າງ "--directory out" ຫຼື
"--directory=out") ຫຼືຮູບແບບສັ້ນ (ເຊັ່ນ: "-dout"). ທາງ​ເລືອກ​ທີ່​ຫມາຍ​ໂດຍ ​ຄາດ​ວ່າ​ຈະ​ເປັນ​ສາຍ​,
ຈຳນວນເຕັມ, float, ແລະ ຄ່າ boolean ("yes/on/true/1" ສໍາລັບ true,
"no/off/false/0" ສໍາລັບຜິດ). boolean ສ່ວນໃຫຍ່ສາມາດຍົກເລີກຄ່າ, ສະຫຼັບຄ່າຈາກ
ໃດກໍ່ຕາມມັນແມ່ນກົງກັນຂ້າມ.

Murasaki ມີຫຼາຍທາງເລືອກ. ໃນທີ່ນີ້ພວກເຮົາໄດ້ແຍກພວກມັນອອກເປັນປະເພດເພື່ອຊ່ວຍ
ຈໍາແນກຂອບເຂດຂອງທາງເລືອກຕ່າງໆ, ຢ່າງໃດກໍຕາມໃນສະຖານະການສະເພາະໃດຫນຶ່ງທາງເລືອກທີ່ແນ່ນອນ
ທາງເລືອກອາດມີຜົນສະທ້ອນທີ່ຄາດໄວ້, ແລະແນ່ນອນທີ່ສຸດຖ້າຜົນຜະລິດທີ່ລະບຸໄວ້
is huge, runtime ທີ່ກໍານົດໄວ້ຈະຈໍາເປັນ ຍາວ. ມັນເປັນຄວາມຜິດພາດທີ່ຄິດວ່າ
ທຸກສິ່ງທຸກຢ່າງທີ່ຢູ່ນອກ "ຕົວເລືອກການປັບ" ໃນພາກປະສິດທິພາບບໍ່ມີຜົນຕໍ່
ການປະຕິບັດງານ.

Anchor ພາລາມິເຕີ ທີ່ກ່ຽວຂ້ອງ ທາງເລືອກໃນການ
ທາງເລືອກເຫຼົ່ານີ້ສ້າງສິ່ງທີ່ຖືວ່າເປັນ "ສະມໍ".

--ຮູບແບບ|-p
ກໍານົດຮູບແບບເມັດ (ຕົວຢ່າງ. 11101001010011011). ການ​ນໍາ​ໃຊ້​ຮູບ​ແບບ​
C<[ : ]> ອັດຕະໂນມັດສ້າງຮູບແບບການສຸ່ມຂອງນ້ໍາຫນັກ
ແລະຄວາມຍາວ

--repeatmask|-r
ຂ້າມຂໍ້ມູນໜ້າກາກຊ້ຳໆ (ເຊັ່ນ: atgc ໂຕພິມນ້ອຍ). ຈົ່ງຮູ້ວ່າບາງໄຟລ໌ລໍາດັບແມ່ນ
ແຈກຢາຍຢ່າງດຽວໃນກໍລະນີຕ່ໍາ.

--seedfilter|-f
ຂ້າມເມັດທີ່ເກີດຂື້ນຫຼາຍກວ່າ N ເທົ່າ. ຊ້າເປັນພິເສດ. ເບິ່ງ --hashfilter ສໍາລັບ a
ການ​ປະ​ມານ​ໄວ​ຂຶ້ນ​.

--hashfilter|-m
ເຊັ່ນດຽວກັນກັບ --seedfilter ແຕ່ເຮັດວຽກກ່ຽວກັບປຸ່ມ hash ແທນທີ່ຈະເປັນແກ່ນ. ອາດ​ຈະ​ເຮັດ​ໃຫ້​ມີ​ຄ້ຳ​ປະ​ກັນ​ບາງ​ຢ່າງ
ທໍາລາຍເມັດທີ່ເປັນເອກະລັກ, ແຕ່ວ່າມັນໄວກວ່າ.

--skipfwd|-F
ຫ້າມຈັບ/ຈັບຄູ່ເສັ້ນຂ້າງໜ້າ.

--skiprev|-R
ຢ່າ hash/match strands reverse complement.

--skip1to1|-1
ຂ້າມການແຂ່ງຂັນຕາມເສັ້ນ 1:1 (ດີສຳລັບການປຽບທຽບກັບຕົນເອງ).

--hashonly|- ຖາມ
Hash ເທົ່ານັ້ນ. ບໍ່ມີຜົນຜະລິດສະມໍ, ພຽງແຕ່ສະຖິຕິ.

--hashskip|-S
Hashes ທຸກ n ຖານ. ຄ່າເລີ່ມຕົ້ນແມ່ນ 1 (ie hashing all positions). ບໍ່ໄດ້ສະຫນອງໃດໆ
argument ເພີ່ມຈຳນວນຂ້າມໂດຍ 1.

--ເຂົ້າຮ່ວມ|-j
ເຂົ້າຮ່ວມສະມໍພາຍໃນ n ຖານຂອງກັນແລະກັນ (ຄ່າເລີ່ມຕົ້ນ: 0). ການລະບຸທາງລົບ D ຫມາຍເຖິງ
-D* ຄວາມ​ຍາວ​ຮູບ​ແບບ​.

--bitscore|-B
ສະຫຼັບການຄຳນວນຂອງ bitscore ສໍາລັບທຸກສະມໍ (ຄ່າເລີ່ມຕົ້ນເປີດຢູ່).

-- seedterms|-T
ສະຫຼັບການເກັບຮັກສາເງື່ອນໄຂຂອງແກ່ນ (ຄ່າເລີ່ມຕົ້ນເປັນປິດ). ເຫຼົ່ານີ້ແມ່ນມີຄວາມຈໍາເປັນສໍາລັບການຄອມພິວເຕີ
ຄະແນນ TF-IDF).

--sectime|-e
ສະແດງເວລາເປັນວິນາທີສະເໝີ ເຊິ່ງກົງກັນຂ້າມກັບຮູບແບບ "1d 3h 45m 5s" ທີ່ມະນຸດອ່ານໄດ້.
ເວລາ.

--mergefilter|-Y
ກັ່ນ​ຕອງ​ການ​ແຂ່ງ​ຂັນ​ທີ່​ຈະ​ເຮັດ​ໃຫ້​ຫຼາຍ​ກ​່​ວາ​ D ສະມໍຫຼາຍທີ່ຈະຖືກສ້າງຂຶ້ນ
ຈາກ 1 ເມັດ (ຄ່າເລີ່ມຕົ້ນ -Y100). ໃຊ້ -Y0 ເພື່ອປິດການໃຊ້ງານ.

-- ການກັ່ນຕອງຄະແນນ
ກໍາ​ນົດ​ຄະ​ແນນ​ທີ່​ບໍ່​ໄດ້​ຮັບ​ຕໍາ​່​ສຸດ​ທີ່​ສໍາ​ລັບ​ເມັດ​.

--rifts|-/
ອະນຸຍາດໃຫ້ສະມໍຂ້າມລໍາດັບ D (ຄ່າເລີ່ມຕົ້ນ 0).

--ເກາະ |-%
ຄືກັນກັບ --rifts=SD (ບ່ອນທີ່ S ແມ່ນຈໍານວນຂອງ input seqs).

--fuzzyextend|-z
ເປີດໃຊ້ (ຄ່າເລີ່ມຕົ້ນ) ຫຼືປິດການໃຊ້ງານການຂະຫຍາຍ fuzzy (ເຊັ່ນ: ການຈັດຕໍາແໜ່ງທີ່ບໍ່ໄດ້ນຳໃຊ້) ຂອງສະມໍ.

--fuzzyextendlosslimit|-Z
ກໍານົດການຕັດເພື່ອຢຸດການຂະຫຍາຍ hits fuzzy (ເຊັ່ນ: ພາລາມິເຕີ BLAST X).

--gappedanchors
ໃຊ້ gapped (ຈິງ) ຫຼື ungapped (false (ຄ່າເລີ່ມຕົ້ນ)) anchors.

--scorebyminimumpair
ເຮັດຄະແນນສະມໍໂດຍຄູ່ຕໍາ່ສຸດທີ່ເມື່ອເຫມາະສົມ (ຄ່າເລີ່ມຕົ້ນ). ທາງເລືອກແມ່ນ
ຄ່າສະເລ່ຍເລກຄະນິດ (ບໍ່ຄ່ອຍມີປະໂຫຍດ, ແຕ່ທາງທິດສະດີໄວກວ່າ). =ລາຍການ --rifts|-/

ອະນຸຍາດໃຫ້ສະມໍຂ້າມລໍາດັບ D (ຄ່າເລີ່ມຕົ້ນ 0).

--ເກາະ |-%
ຄືກັນກັບ --rifts=SD (ບ່ອນທີ່ S ແມ່ນຈໍານວນຂອງ input seqs).

--fuzzyextend|-z
ເປີດໃຊ້ (ຄ່າເລີ່ມຕົ້ນ) ຫຼືປິດການໃຊ້ງານການຂະຫຍາຍ fuzzy (ເຊັ່ນ: ການຈັດຕໍາແໜ່ງທີ່ບໍ່ໄດ້ນຳໃຊ້) ຂອງສະມໍ.

--fuzzyextendlosslimit|-Z
ກໍານົດການຕັດເພື່ອຢຸດການຂະຫຍາຍ hits fuzzy (ເຊັ່ນ: ພາລາມິເຕີ BLAST X).

--gappedanchors
ໃຊ້ gapped (ຈິງ) ຫຼື ungapped (false (ຄ່າເລີ່ມຕົ້ນ)) anchors.

--scorebyminimumpair
ເຮັດຄະແນນສະມໍໂດຍຄູ່ຕໍາ່ສຸດທີ່ເມື່ອເຫມາະສົມ (ຄ່າເລີ່ມຕົ້ນ). ທາງເລືອກແມ່ນ
ຄ່າສະເລ່ຍເລກຄະນິດ (ບໍ່ຄ່ອຍມີປະໂຫຍດ, ແຕ່ທາງທິດສະດີໄວກວ່າ).

ຜົນຜະລິດ ທາງເລືອກໃນການ
ທາງເລືອກເຫຼົ່ານີ້ຕົ້ນຕໍຜົນກະທົບຕໍ່ສິ່ງທີ່ຂໍ້ມູນແມ່ນຜົນຜະລິດຢູ່ໃສ.

--directory|-d
ລາຍການຜົນຜະລິດ (ຄ່າເລີ່ມຕົ້ນ: ຜົນຜະລິດ)

--ຊື່|-ນ
ຊື່ການຈັດຮຽງ (ຄ່າເລີ່ມຕົ້ນ: ການທົດສອບ)

--repeatmap|-i
ສະຫຼັບການຮັກສາແຜນທີ່ຊ້ຳໆເມື່ອ --mergefilter ຖືກໃຊ້ (ຄ່າເລີ່ມຕົ້ນເປັນແມ່ນ).

--Histogram|-H
ລະດັບການຄຳນວນຂອງຮິສໂຕແກຣມ: (-H ເທົ່ານັ້ນໝາຍເຖິງ -H1)

0 - ບໍ່ມີ histogram (ຄ່າເລີ່ມຕົ້ນ)
1 - ຂໍ້ມູນ histogram ຂະໜາດ buckets/bucketcount ພື້ນຖານ
2 - ຄະແນນທີ່ອີງໃສ່ bucket ກັບ anchors.detils
3 - ຂໍ້ມູນການນັບ perbucket
4 - perbucket + perpattern count data

ຄ່າໃດນຶ່ງຂ້າງເທິງ 2 ແມ່ນເປັນການສຳຫຼວດຢ່າງດຽວ ແລະສາມາດສົ່ງຜົນໃຫ້ມີໄຟລ໌ຜົນຜະລິດຂະໜາດໃຫຍ່ໄດ້.

--tfidf|-k
ປະຕິບັດການໃຫ້ຄະແນນ tfidf ທີ່ຖືກຕ້ອງຈາກພາຍໃນ murasaki (ຕ້ອງການຄວາມຊົງຈໍາພິເສດຢູ່ທີ່ສະມໍ
ເວລາການຜະລິດ). ຄ່າເລີ່ມຕົ້ນແມ່ນບໍ່ມີ.

ປະສິດທິພາບ / ການປັບ ທາງເລືອກໃນການ
ທາງເລືອກເຫຼົ່ານີ້ຕົ້ນຕໍຜົນກະທົບຕໍ່ການປະຕິບັດ, ແລະບໍ່ (ໂດຍທົ່ວໄປ) ຜົນກະທົບຕໍ່ຜົນຜະລິດ.

--quickhash|-q
ລະ​ບຸ​ຫນ້າ​ທີ່ hashing​:

0 - ປັບຕົວດ້ວຍກ່ອງ S (ຄ່າເລີ່ມຕົ້ນເມື່ອມີຕາຕະລາງ hash ພໍສົມຄວນ)
1 - ຢ່າຫຸ້ມຫໍ່ບິດເພື່ອເຮັດໃຫ້ hash (ໃຊ້ຄໍາທໍາອິດເທົ່ານັ້ນ)
2 - naively ໃຊ້ hashbits ທໍາອິດມູນຄ່າຂອງຮູບແບບ
3 - ປັບຕົວຊອກຫາ hash ທີ່ດີ (ຄ່າເລີ່ມຕົ້ນ)
** ການ​ທົດ​ລອງ hash CryptoPP **
4 - MD5
5 - SHA1
6 - ວັງສະຫງວນ
7 - CRC-32
8 - Adler-32

ຫມາຍເຫດ: 3 ແລະ 0 ແມ່ນຫນ້າທີ່ hash "ແນະນໍາ", ແລະອັນດຽວເທົ່ານັ້ນ
ເລືອກອັດຕະໂນມັດ. ອື່ນໆແມ່ນສະຫນອງໃຫ້ພຽງແຕ່ສໍາລັບການອ້າງອິງ. 1, 7, ແລະ 8
ບໍ່ໄດ້ຄາດຫວັງວ່າຈະໃຊ້ພື້ນທີ່ hash ທັງໝົດ.

--hashbits|-b
ໃຊ້ D bit hashes (ສຳລັບ n ຂອງ 1 ຫາ WORDSIZE. ຄ່າເລີ່ມຕົ້ນ 26)

--hashtype|-t
ເລືອກໂຄງສ້າງຂໍ້ມູນຕາຕະລາງ hash ເພື່ອໃຊ້:

OpenHash - ເປີດການຫຸ້ມຫໍ່ຄໍາຍ່ອຍຂອງ hashbits (ຄ່າເລີ່ມຕົ້ນເມື່ອມີ hash ຫຼາຍ
ຕາ​ຕະ​ລາງ​ທີ່​ຈະ​ເກັບ​ໄວ້​)
EcoHash - ການຫຸ້ມຫໍ່ຄໍາຍ່ອຍແບບຕ່ອງໂສ້ຂອງ hashbits (ຄ່າເລີ່ມຕົ້ນ)
ArrayHash - malloc/realloc (ໄວ​ແຕ່​ການ​ແຕກ​ແຍກ​ງ່າຍ​)
MsetHash - ຫນ່ວຍຄວາມ ຈຳ ຫຼາຍເກີນໄປ, ເກືອບບໍ່ມີຈຸດ ໝາຍ.
-- ການ​ທົດ​ສອບ​
0 - linear, 1 - quadratic (ຄ່າເລີ່ມຕົ້ນ). ໃຊ້ໄດ້ສະເພາະກັບ --hashtype=OpenHash.

--hitfilter|-ຊ
ຈໍານວນ hits ຕໍາ່ສຸດທີ່ຈະອອກເປັນສະມໍ (ຄ່າເລີ່ມຕົ້ນ 1). ໃນ PatternHunter ນີ້
ແມ່ນ 2.

--rseed|-s
ແກ່ນຈຳນວນແບບສຸ່ມສຳລັບສູດການຄິດໄລ່ທີ່ບໍ່ແມ່ນການກຳນົດ (ເຊັ່ນ: ຟັງຊັນແທັບ adative
ລຸ້ນ). ຖ້າທ່ານກໍາລັງເຮັດການປຽບທຽບການປະຕິບັດໃດໆ, ມັນອາດຈະເປັນສິ່ງຈໍາເປັນ
ທີ່ທ່ານໃຊ້ເມັດດຽວກັນສໍາລັບແຕ່ລະໄລຍະຂອງການຕັ້ງຄ່າດຽວກັນ. ໄດ້ຮັບຄ່າເລີ່ມຕົ້ນ
ຈາກ ເວລາ() (ເຊັ່ນ: ວິນາທີນັບຕັ້ງແຕ່ປີ 1970).

--ຄວາມ​ຈໍາ|-M [ | ]
ກໍານົດຈໍານວນເປົ້າຫມາຍຂອງຫນ່ວຍຄວາມຈໍາທັງຫມົດ (ບໍ່ວ່າຈະເປັນ gb ຫຼືເປັນ % ຫນ່ວຍຄວາມຈໍາທັງຫມົດ).

--reverseotf|-o
ສ້າງການເຕີມເຕັມແບບປີ້ນກັບກັນໃນທັນທີ (ຄ່າເລີ່ມຕົ້ນເປັນເປີດ). ການປິດເຄື່ອງ precomputes ນີ້
strands ເສີມທັງຫມົດ reverse ແລະເກັບຮັກສາໃຫ້ເຂົາເຈົ້າຢູ່ໃນຄວາມຊົງຈໍາ, ເຊິ່ງບໍ່ຄ່ອຍຈະສະຫນອງການ
ການປັບປຸງປະສິດທິພາບທີ່ສາມາດວັດແທກໄດ້.

--binaryseq
ເປີດໃຊ້ (ຄ່າເລີ່ມຕົ້ນ) ຫຼືປິດການອ່ານ/ຂຽນ ລຳດັບຄູ່

ປັບຕົວໄດ້ hash ຫນ້າທີ່ ທີ່ກ່ຽວຂ້ອງ:

ຕົວເລືອກປະສິດທິພາບທີ່ກ່ຽວຂ້ອງກັບການຜະລິດຟັງຊັນ hash ທີ່ສາມາດປັບຕົວໄດ້.

--hasherFairEntropy
ໃຊ້ການປະເມີນ entropy ທີ່ສົມດູນກວ່າ (ຄ່າເລີ່ມຕົ້ນ: ແມ່ນ).

--hasher Correlation ປັບ
ປັບ​ການ​ຄາດ​ຄະ​ເນ entropy ສໍາ​ລັບ​ແຫຼ່ງ​ທີ່​ໃກ້​ຄຽງ​ໂດຍ​ສົມ​ມຸດ​ວ່າ​ການ​ພົວ​ພັນ​ບາງ​ຢ່າງ (ຄ່າ​ເລີ່ມ​ຕົ້ນ​: ແມ່ນ​)​.

--hasherTargetGACycles
ການປັບແຕ່ງການທໍາງານຂອງ hash ການຜະລິດພັນທຸກໍາ algorithm ຕັດວົງຈອນ.

--hasherEntropyAgro
ມີຄວາມຮຸກຮານແນວໃດກ່ຽວກັບການຕິດຕາມຟັງຊັນ entropy hash ສູງສຸດ (ໃຊ້ເວລາທີ່ແທ້ຈິງ.
ຄ່າເລີ່ມຕົ້ນແມ່ນ 1).

ໂຄມໄຟ ເສພາະ:
--hashers|-A [ | ]
ລະບຸຈໍານວນຂອງຂະບວນການທີ່ຈະໃຊ້ເປັນ hashers (ໃຊ້ກັບ MPI ເທົ່ານັ້ນ. ຖ້າ a
ຕົວເລກລະຫວ່າງ 0 ແລະ 1 ມັນຫມາຍເຖິງອັດຕາສ່ວນຂອງ np).

--localhash|-K
ດໍາເນີນການ hashing ຢູ່ໃນທ້ອງຖິ່ນໃນແຕ່ລະ node ການເກັບຮັກສາແທນທີ່ຈະສົ່ງມັນຜ່ານເຄືອຂ່າຍ
(ເປັນປະໂຫຍດສໍາລັບເຄືອຂ່າຍຊ້າ).

--mpidistro|-L
ສະຫຼັບການໃຊ້ MPI ເພື່ອແຈກຢາຍຂໍ້ມູນລໍາດັບ (ຖ້າລໍາດັບມີຢູ່ໃນ
ແຜ່ນທ້ອງຖິ່ນຢູ່ໃນແຕ່ລະ node ຫຼັງຈາກນັ້ນການປິດນີ້ອາດຈະເຮັດໃຫ້ການເລັ່ງເບື້ອງຕົ້ນ
ການ​ໂຫຼດ​ລໍາ​ດັບ​)​.

--waittoanchor|-w
ເລື່ອນ​ການ​ຄິດ​ໄລ່​ສະ​ມໍ​ຕົວ​ຈິງ​ຈົນ​ກ​່​ວາ​ໄດ້​ຮັບ​ການ​ຕັ້ງ​ຄ່າ​ທີ່​ຕັ້ງ​ທັງ​ຫມົດ (ເປັນ
ກົງກັນຂ້າມກັບການພະຍາຍາມເຮັດວຽກລະຫວ່າງການໄດ້ຮັບຊອງເມັດ).

--buffers|-u
ຈໍາ​ນວນ​ສູງ​ສຸດ​ຂອງ buffers ທີ່​ຍັງ​ບໍ່​ສໍາ​ເລັດ​ເພື່ອ​ອະ​ນຸ​ຍາດ​ໃຫ້​ໃນ​ຂະ​ນະ​ທີ່​ຂໍ້​ຄວາມ​ຜ່ານ (0 ຫມາຍ​ຄວາມ​ວ່າ​
ບໍ່​ຈໍາ​ກັດ). ຄ່າເລີ່ມຕົ້ນແມ່ນຖືກກໍານົດໂດຍອີງໃສ່ຈໍານວນຂອງ nodes ເຂົ້າຮ່ວມ. MPI ສາມາດຂັດຂ້ອງ
ຫຼືສະແດງ ຫຼາຍ ບໍ່ດີຖ້າມູນຄ່ານີ້ສູງເກີນໄປ.

--nobuffers|-U
ຄືກັນກັບ --buffers=1.

--ໃຫຍ່ທຳອິດ|-I
ກໍານົດ hashers ໃຫ້ກັບ nodes ຫນ່ວຍຄວາມຈໍາຂະຫນາດໃຫຍ່ກ່ອນ.

--hostbalance|-l
ຖ້າແມ່ນ (ຄ່າເລີ່ມຕົ້ນ): ແຜ່ອອກ hashers ເທົ່າທຽມກັນໃນບັນດາ nodes.
ຖ້າບໍ່: ບໍ່ສົນໃຈຊື່ເຈົ້າພາບໃນເວລາມອບໝາຍວຽກ.
--memorybalance|-a
ຖ້າແມ່ນ (ຄ່າເລີ່ມຕົ້ນ): ດຸ່ນດ່ຽງການເກັບຮັກສາ hash ລະຫວ່າງ nodes ໂດຍອີງໃສ່ຈໍານວນທີ່ມີຢູ່
RAM.
ຖ້າບໍ່: ແຈກຢາຍບ່ອນເກັບມ້ຽນໃນທີ່ສຸດ. ນີ້ມັກຈະບັນລຸເວລາແລ່ນທີ່ດີທີ່ສຸດ, ແຕ່
ອາດຈະບໍ່ໃຊ້ຄວາມຊົງຈໍາຢ່າງມີປະສິດທິພາບ.
--dmerge|-<
ຖ້າແມ່ນ (ຄ່າເລີ່ມຕົ້ນ): ໃນລະຫວ່າງຂັ້ນຕອນການລວມກັນ, ກ່ອງເກັບຂໍ້ມູນຈະສົ່ງແກ່ນໄປຫາບ່ອນໃດກໍໄດ້
hasher.
ຖ້າບໍ່: ສົ່ງແກ່ນທັງໝົດໄປຫາໜຶ່ງຂໍ້ເທົ່ານັ້ນ.
-- distcollect|->
ຖ້າແມ່ນ (ຄ່າເລີ່ມຕົ້ນ): ເກັບກໍາຂໍ້ມູນສະມໍຈາກ hashers ທັງຫມົດ.
ຖ້າບໍ່: ສົ່ງເມັດທັງໝົດໄປຫາຂໍ້ປະກອບສຸດທ້າຍເທົ່ານັ້ນ.
--mpiredirectoutput
ຖ້າແມ່ນ (ຄ່າເລີ່ມຕົ້ນ): ແຕ່ລະອັນດັບປ່ຽນເສັ້ນທາງ stdout/stderr ຂອງມັນໄປຫາໄຟລ໌ແຍກຕ່າງຫາກ
(murasaki-mpiout-N).
ຖ້າບໍ່: ເຮັດສິ່ງທີ່ມາຕາມທໍາມະຊາດ (ເຊັ່ນ: ຄຸ້ມຄອງໂດຍ mpirun (ສໍາລັບ OpenMPI ເບິ່ງ
--output-filename ແລະ --tag-output ໃນ ໄພຣຸນ(1))).
--ຮັກສາ
ຢ່າລຶບໄຟລ໌ murasaki-mpiout ໃນຄວາມສຳເລັດ.

--sysvipc|-V
ໃຊ້ System V IPC ເພື່ອເຈລະຈາພາກພື້ນຫນ່ວຍຄວາມຈໍາທີ່ໃຊ້ຮ່ວມກັນ (ຊ່ວຍປະຢັດຫນ່ວຍຄວາມຈໍາເມື່ອໂຮດຫນຶ່ງແລ່ນ
ຫຼາຍ nodes). ຄ່າເລີ່ມຕົ້ນແມ່ນຄວາມຈິງ.

ວິທະຍາໄລ ຕົວເລືອກ:
--verbose|-v
ເພີ່ມທະວີການ verbosity.

--ລຸ້ນ|-V
ພິມຂໍ້ມູນສະບັບແລະອອກ.

--ຊ່ວຍ|-?
ພິມຂໍ້ຄວາມຊ່ວຍເຫຼືອ ແລະອອກ.

ເອກະສານ ຮູບແບບ


Murasaki ມີ​ເອ​ກະ​ສານ​ຜົນ​ຜະ​ລິດ​ກວ້າງ​ຂວາງ​, ຮູບ​ແບບ​ຂອງ​ຫຼາຍ​ທີ່​ສຸດ​ແມ່ນ​ມີ​ຈຸດ​ປະ​ສົງ​
intuitive. ໄຟລ໌ຜົນຜະລິດທັງໝົດຖືກນຳໜ້າດ້ວຍຄ່າຂອງພາລາມິເຕີ --name. ປະຖົມ
ຮູບແບບໄຟລ໌ຜົນຜະລິດໄດ້ຖືກອະທິບາຍຢູ່ທີ່ນີ້. ໄຟລ໌ແມ່ນອີງໃສ່ແຖວແລະແຖບ delimited ເວັ້ນເສຍແຕ່
ລະບຸໄວ້ເປັນຢ່າງອື່ນ.

.seqs
The .seqs ສະແດງໃຫ້ເຫັນສິ່ງທີ່ລໍາດັບຖືກນໍາໃຊ້ເປັນ input, 1 ຕໍ່ແຖວ. ໄຟລ໌ນີ້ຖືກໃຊ້ໂດຍ
ໂຄງການຕ່າງໆໂດຍສົມທົບກັບໄຟລ໌ .anchors, ດັ່ງນັ້ນໂດຍທົ່ວໄປແລ້ວມັນເປັນສິ່ງສໍາຄັນ
ເນື້ອໃນສະທ້ອນເຖິງໄຟລ໌ລໍາດັບທີ່ຖືກຕ້ອງ. ຍ້າຍຜົນໄດ້ຮັບສະມໍລະຫວ່າງຄອມພິວເຕີ
ອາດຈະສົ່ງຜົນໃຫ້ມີການປ່ຽນແປງເສັ້ນທາງ, ຮຽກຮ້ອງໃຫ້ຜູ້ໃຊ້ປັບປຸງໄຟລ໌ .seqs. ເປັນ
ທາງເລືອກ, ການນໍາໃຊ້ເສັ້ນທາງພີ່ນ້ອງສະເຫມີສາມາດຫຼຸດຜ່ອນບັນຫານີ້.

.ສະມໍ ໄຟ
ໄຟລ໌ເຫຼົ່ານີ້ແມ່ນ 1 ສະມໍຕໍ່ແຖວ, ມີ 3-tuple ຕໍ່ລໍາດັບ. ແຕ່ລະ touple ເປັນຕົວແທນຂອງ
ເລີ່ມ ແລະຢຸດຈຸດປະສານງານ ແລະສາຍຂອງໄລຍະຫ່າງທີ່ຍຶດໄວ້ໃນແຕ່ລະລໍາດັບ. ໄດ້
ລໍາດັບລໍາດັບກົງກັບຄໍາສັ່ງໃນໄຟລ໌ .seqs. ຈຸດປະສານງານມີໂຄງສ້າງ
ເຊັ່ນວ່າ 1 ຫມາຍເຖິງພື້ນຖານທໍາອິດໃນລໍາດັບ, 2 ຫາທີສອງ, ແລະອື່ນໆ
ຄ່າໝາຍເຖິງລຳດັບການເຕີມເຕັມປີ້ນກັບທີ່ -1 ແມ່ນ ສຸດທ້າຍ ພື້ນຖານຂອງປີ້ນກັບກັນ
ລໍາດັບທີ່ສົມບູນ (ເຊັ່ນ: ພື້ນຖານທໍາອິດທີ່ສົມບູນໃນລໍາດັບຕໍ່ຫນ້າ). "ສາຍ"
ອົງປະກອບແມ່ນ '+' ຫຼື '-' ທີ່ກົງກັບສັນຍາລັກຂອງພິກັດ (ອັນນີ້ແມ່ນຊໍ້າຊ້ອນ.
ຂໍ້ມູນ, ແຕ່ເກັບຮັກສາໄວ້ເພື່ອເຮັດໃຫ້ການວິເຄາະຫຼືການກັ່ນຕອງງ່າຍກວ່າ).

ຕົວຢ່າງ:

1 18 + -1 -18 -

ເສັ້ນນີ້ອະທິບາຍສະມໍທີ່ 18 ພື້ນຖານທໍາອິດຂອງລໍາດັບທໍາອິດກົງກັບ
ພື້ນຖານ 18 ອັນທຳອິດຂອງການເສີມແບບປີ້ນກັບກັນຂອງລຳດັບທີສອງ.

.anchors.ລາຍລະອຽດ
ນີ້ແມ່ນຮູບແບບໄຟລ໌ເກົ່າແກ່, ແຕ່ໃຊ້ໂດຍ GMV ເພື່ອຄິດໄລ່ສະຖິຕິເຊັ່ນ TF-IDF
ຄະແນນ, ແລະໄດ້ຖືກເກັບຮັກສາໄວ້ປະມານສໍາລັບເຫດຜົນນັ້ນ. ໄຟລ໌ .anchors.details ມີອັນດຽວກັນ
ຮູບແບບແລະຂໍ້ມູນເປັນໄຟລ໌ .anchors, ແນວໃດກໍ່ຕາມຫຼັງຈາກ touples ສະມໍແມ່ນອີກສອງອັນ
ຂໍ້​ກໍາ​ນົດ​: ຄະ​ແນນ​, ແລະ​ເຄື່ອງ​ຫມາຍ​ຈຸດ (,​) ລາຍ​ການ delimited ຂອງ​ຄໍາ​ສັບ​ແລະ​ການ​ນັບ​ຄູ່ (ຂຽນ
"ໄລຍະ: ນັບ"). ຂໍ້​ມູນ​ຄະ​ແນນ​ແລະ​ການ​ນັບ​ອາດ​ຈະ​ແຕກ​ຕ່າງ​ກັນ​ຂຶ້ນ​ກັບ "--histogram​"
ທາງເລືອກທາງເລືອກ.

.anchors.bitscore
ຄໍາວ່າ "bitscore" ນີ້ແມ່ນຊື່ທີ່ບໍ່ຖືກຕ້ອງ, ແຕ່ຖືກຮັກສາໄວ້ສໍາລັບເຫດຜົນທາງປະຫວັດສາດ. ໃນ​ຄວາມ​ເປັນ​ຈິງ,
ໄຟລ໌ນີ້ມີຈໍານວນຖານທີ່ກົງກັນ ແລະຄວາມຍາວຂອງແຕ່ລະສະມໍ
(ເສັ້ນທີ່ສອດຄ້ອງກັນໂດຍແຖວໄປຫາໄຟລ໌ .anchors).

.stats.tfidf
ມີຄະແນນສະມໍ TF-IDF (ແຖວຕໍ່ແຖວທີ່ສອດຄ້ອງກັນກັບໄຟລ໌ .anchors).

.ຮິສໂຕແກຣມ
ປະກອບມີ histogram ງ່າຍໆຂອງການໃຊ້ຕາຕະລາງ hash. ພາກສະຫນາມທໍາອິດແມ່ນຂະຫນາດຂອງຖັງ,
ແລະອັນທີສອງແມ່ນຄວາມຖີ່. ຕົວຢ່າງໄຟລ໌ .histogram ແບບນີ້:

1 24
2 1

ຈະຊີ້ໃຫ້ເຫັນວ່າມີ 24 ຖັງ hash ທີ່ເກັບຮັກສາໄວ້ພຽງແຕ່ 1 ສະຖານທີ່ (ເຊັ່ນ: 24 ທີ່ບໍ່ຊໍ້າກັນ
ແກ່ນພືດ), ແລະ 1 ຖັງເກັບມ້ຽນ 2 ສະຖານທີ່ (ເຊັ່ນ: 1 ເມັດທີ່ກົງກັນ 2 ສະຖານທີ່ (ຫຼື 2).
ແກ່ນບໍ່ກົງກັນທີ່ສົ່ງຜົນໃຫ້ມີການຂັດກັນ hash).

.ທາງເລືອກ
ຮັກສາບັນທຶກຂອງທາງເລືອກທີ່ໃຊ້ໃນເວລາແລ່ນ Murasaki.

.ຊ້ຳ
ໄຟລ໌ .repeats ເກັບຮັກສາບັນທຶກຂອງ "repeats" ຕາມທີ່ກໍານົດໂດຍທາງເລືອກ --mergefilter
(ເຊັ່ນ: ເມັດພືດທີ່ເຮັດໃຫ້ເກີດມີສະມໍຫຼາຍກວ່າທີ່ອະນຸຍາດ). ໃນເອກະສານນີ້, ແຕ່ລະຄົນ
ການບັນທຶກການຊໍ້າຄືນແມ່ນແຍກອອກດ້ວຍເສັ້ນເປົ່າ. ບັນທຶກຊໍ້າຄືນເບິ່ງຄືດັ່ງນີ້:

R: G.GCCTTTT.T.ACT.CACAA..AT
0:2145540494 -425039256 -113794380 1998323403
1:2480929222 -1874514626 2543723555 -2550045172

ແຖວທຳອິດ (ຄຳນຳໜ້າສະເໝີ "R:") ສະແດງໃຫ້ເຫັນເມັດທີ່ຊ້ຳກັນເອງ (ບ່ອນທີ່ . ແມ່ນ
ຖານທີ່ masked ໂດຍຮູບແບບ). ສາຍຕໍ່ມາສະແດງໃຫ້ເຫັນບ່ອນທີ່ເມັດເຫຼົ່ານີ້ເກີດຂຶ້ນໃນ
ລໍາດັບການປ້ອນຂໍ້ມູນ (ໃນລໍາດັບທໍາອິດ (0) ແລະທີສອງ (1) ລໍາດັບ). ໃຫ້ສັງເກດວ່າຖ້າບໍ່ມີ
hits ໃນລໍາດັບໂດຍສະເພາະ, ມັນບໍ່ໄດ້ລວມເອົາເສັ້ນເປົ່າສໍາລັບລໍາດັບນັ້ນ. ສໍາລັບ
ຍົກຕົວຢ່າງ:

R: G.GCCTTTT.T.ACT.CACAA..AT
0:2145540494 -425039256 -113794380 1998323403
2:2480929222 -1874514626 2543723555 -2550045172

ຍັງເປັນໄຟລ໌ .repeats ທີ່ຖືກຕ້ອງ.

ໃຊ້ murasaki ອອນໄລນ໌ໂດຍໃຊ້ບໍລິການ onworks.net


ເຊີບເວີ ແລະສະຖານີເຮັດວຽກຟຣີ

ດາວໂຫຼດແອັບ Windows ແລະ Linux

Linux ຄຳ ສັ່ງ

Ad




×
ການ​ໂຄ​ສະ​ນາ
?ຊື້ເຄື່ອງ, ຈອງ, ຫຼືຊື້ທີ່ນີ້ — ບໍ່ມີຄ່າໃຊ້ຈ່າຍ, ຊ່ວຍໃຫ້ການບໍລິການຟຣີ.