ນີ້ແມ່ນຄໍາສັ່ງ autoclass ທີ່ສາມາດດໍາເນີນການໄດ້ໃນ OnWorks ຜູ້ໃຫ້ບໍລິການໂຮດຕິ້ງຟຣີໂດຍໃຊ້ຫນຶ່ງໃນຫຼາຍໆບ່ອນເຮັດວຽກອອນໄລນ໌ຂອງພວກເຮົາເຊັ່ນ Ubuntu Online, Fedora Online, Windows online emulator ຫຼື MAC OS online emulator
ໂຄງການ:
NAME
autoclass - ຄົ້ນພົບຊັ້ນຮຽນໂດຍອັດຕະໂນມັດໃນຂໍ້ມູນ
ສະຫຼຸບສັງລວມ
autoclass - ຄົ້ນຫາ data_file header_file model_file s_param_file
autoclass - ລາຍງານ results_file search_file r_params_file
autoclass - ຄາດຄະເນ results_file search_file results_file
ລາຍລະອຽດ
AutoClass ແກ້ໄຂບັນຫາການຄົ້ນພົບອັດຕະໂນມັດຂອງຫ້ອງຮຽນໃນຂໍ້ມູນ (ບາງຄັ້ງເອີ້ນວ່າ
clustering, ຫຼື unsupervised ການຮຽນຮູ້), ທີ່ແຕກຕ່າງຈາກການຜະລິດຂອງຫ້ອງຮຽນ
ຄໍາອະທິບາຍຈາກຕົວຢ່າງທີ່ມີປ້າຍຊື່ (ເອີ້ນວ່າການຮຽນຮູ້ທີ່ມີການຄວບຄຸມ). ມັນມີຈຸດປະສົງເພື່ອຄົ້ນພົບ
ຫ້ອງຮຽນ "ທໍາມະຊາດ" ໃນຂໍ້ມູນ. AutoClass ແມ່ນໃຊ້ໄດ້ກັບການສັງເກດຂອງສິ່ງທີ່ສາມາດເຮັດໄດ້
ຖືກອະທິບາຍໂດຍຊຸດຂອງຄຸນລັກສະນະ, ໂດຍບໍ່ມີການອ້າງອີງເຖິງສິ່ງອື່ນໆ. ຄຸນຄ່າຂອງຂໍ້ມູນ
ທີ່ສອດຄ້ອງກັນກັບຄຸນລັກສະນະຂອງແຕ່ລະແມ່ນຈໍາກັດເປັນຕົວເລກຫຼືອົງປະກອບຂອງ a
ຊຸດສັນຍາລັກຄົງທີ່. ດ້ວຍຂໍ້ມູນຕົວເລກ, ຕ້ອງມີຂໍ້ຜິດພາດໃນການວັດແທກ.
AutoClass ກໍາລັງຊອກຫາການຈັດປະເພດທີ່ດີທີ່ສຸດຂອງຂໍ້ມູນທີ່ມັນສາມາດຊອກຫາໄດ້. ກ
ການຈັດປະເພດແມ່ນປະກອບດ້ວຍ:
1) ຊຸດຂອງຫ້ອງຮຽນ, ແຕ່ລະຄົນໄດ້ຖືກອະທິບາຍໂດຍຊຸດຂອງຕົວກໍານົດການຫ້ອງຮຽນ, ເຊິ່ງ
ລະບຸວິທີການແຈກຢາຍຫ້ອງຮຽນຕາມຄຸນລັກສະນະຕ່າງໆ. ຍົກຕົວຢ່າງ,
"ຄວາມສູງປົກກະຕິແຈກຢາຍໂດຍສະເລ່ຍ 4.67 ຟຸດແລະມາດຕະຖານ deviation .32 ft",
2) ຊຸດນ້ໍາຫນັກຂອງຊັ້ນຮຽນ, ອະທິບາຍເຖິງອັດຕາສ່ວນຂອງກໍລະນີທີ່ອາດຈະຢູ່ໃນ
ແຕ່ລະຫ້ອງຮຽນ.
3) ການມອບໝາຍຄວາມເປັນໄປໄດ້ຂອງກໍລະນີໃນຂໍ້ມູນໃຫ້ກັບຫ້ອງຮຽນເຫຼົ່ານີ້. Ie ສໍາລັບແຕ່ລະຄົນ
ກໍລະນີ, ຄວາມເປັນໄປໄດ້ທີ່ເປັນສະມາຊິກຂອງແຕ່ລະຫ້ອງ.
ໃນຖານະເປັນລະບົບ Bayesian ຢ່າງເຂັ້ມງວດ (ຍອມຮັບບໍ່ມີການທົດແທນ!), ການວັດແທກຄຸນນະພາບ AutoClass ການນໍາໃຊ້
ແມ່ນຄວາມເປັນໄປໄດ້ທັງ ໝົດ ທີ່ເຈົ້າບໍ່ຮູ້ຫຍັງກ່ຽວກັບຂໍ້ມູນຂອງທ່ານຫຼືໂດເມນຂອງມັນ, ເຈົ້າ
ຈະພົບເຫັນຊຸດຂໍ້ມູນນີ້ທີ່ສ້າງຂຶ້ນໂດຍຕົວແບບພື້ນຖານນີ້. ນີ້ປະກອບມີ
ຄວາມເປັນໄປໄດ້ກ່ອນຫນ້າທີ່ວ່າ "ໂລກ" ຈະເລືອກເອົາຈໍານວນຫ້ອງຮຽນນີ້, ຊຸດນີ້
ນ້ ຳ ໜັກ ຂອງຫ້ອງຮຽນທີ່ກ່ຽວຂ້ອງ, ແລະຊຸດຂອງຕົວ ກຳ ນົດນີ້ ສຳ ລັບແຕ່ລະຊັ້ນຮຽນ, ແລະຄວາມເປັນໄປໄດ້ນັ້ນ
ຊຸດຂອງຫ້ອງຮຽນດັ່ງກ່າວຈະສ້າງຊຸດຂອງຄ່ານີ້ສໍາລັບຄຸນລັກສະນະໃນ
ກໍລະນີຂໍ້ມູນ.
ຄວາມເປັນໄປໄດ້ເຫຼົ່ານີ້ແມ່ນມີຫນ້ອຍຫຼາຍ, ຢູ່ໃນຂອບເຂດຂອງ e^-30000, ແລະດັ່ງນັ້ນແມ່ນປົກກະຕິແລ້ວ.
ສະແດງອອກໃນຫມາຍເຫດ exponential.
ໃນເວລາທີ່ດໍາເນີນການກັບ - ຄົ້ນຫາ ຄໍາສັ່ງ, AutoClass ຄົ້ນຫາສໍາລັບການຈັດປະເພດ. ທີ່ຕ້ອງການ
ການໂຕ້ຖຽງແມ່ນເສັ້ນທາງໄປສູ່ສີ່ໄຟລ໌ປ້ອນຂໍ້ມູນ, ເຊິ່ງສະຫນອງຂໍ້ມູນ, ຮູບແບບຂໍ້ມູນ,
ຮູບແບບການຈັດປະເພດທີ່ຕ້ອງການ, ແລະຕົວກໍານົດການຊອກຫາ, ຕາມລໍາດັບ.
ໂດຍຕົວຢ່າງ, AutoClass ຂຽນຜົນໄດ້ຮັບລະດັບປານກາງໃນໄຟລ໌ຖານສອງ. ກັບ - ລາຍງານ
ຄໍາສັ່ງ, AutoClass ສ້າງບົດລາຍງານ ASCII. ການໂຕ້ຖຽງແມ່ນຊື່ເສັ້ນທາງເຕັມຂອງ
ໄຟລ໌ .results, .search, ແລະ .r-params.
ໃນເວລາທີ່ດໍາເນີນການກັບ - ຄາດຄະເນ ຄໍາສັ່ງ, AutoClass ຄາດຄະເນການເປັນສະມາຊິກຫ້ອງຮຽນຂອງ "ການທົດສອບ"
ຊຸດຂໍ້ມູນໂດຍອີງໃສ່ຊັ້ນຮຽນທີ່ພົບເຫັນຢູ່ໃນຊຸດຂໍ້ມູນ "ການຝຶກອົບຮົມ" (ເບິ່ງ "PREDICTIONS" ຂ້າງລຸ່ມນີ້).
ປັດໄຈນໍາເຂົ້າ ເອກະສານ
ຊຸດຂໍ້ມູນ AutoClass ຢູ່ໃນສອງໄຟລ໌. ມີໄຟລ໌ header (ປະເພດໄຟລ໌ "hd2") ທີ່
ອະທິບາຍຮູບແບບຂໍ້ມູນສະເພາະ ແລະຄຳນິຍາມຄຸນສົມບັດ. ມູນຄ່າຂໍ້ມູນຕົວຈິງແມ່ນ
ໃນໄຟລ໌ຂໍ້ມູນ (ປະເພດໄຟລ໌ "db2"). ພວກເຮົາໃຊ້ສອງໄຟລ໌ເພື່ອອະນຸຍາດໃຫ້ແກ້ໄຂຄໍາອະທິບາຍຂໍ້ມູນ
ໂດຍບໍ່ມີການຈັດການກັບຊຸດຂໍ້ມູນທັງຫມົດ. ນີ້ເຮັດໃຫ້ມັນງ່າຍຕໍ່ການທົດລອງ
ຄໍາອະທິບາຍທີ່ແຕກຕ່າງກັນຂອງຖານຂໍ້ມູນໂດຍບໍ່ຈໍາເປັນຕ້ອງຜະລິດຊຸດຂໍ້ມູນ.
ພາຍໃນ, ໂຄງສ້າງຖານຂໍ້ມູນ AutoClass ຖືກລະບຸໂດຍສ່ວນຫົວແລະໄຟລ໌ຂໍ້ມູນ,
ແລະຈໍານວນຂໍ້ມູນທີ່ຖືກໂຫລດ.
ສໍາລັບລາຍລະອຽດເພີ່ມເຕີມກ່ຽວກັບຮູບແບບຂອງໄຟລ໌ເຫຼົ່ານີ້, ເບິ່ງ
/usr/share/doc/autoclass/preparation-c.text.
ຂໍ້ມູນ ເອກະສານ
ໄຟລ໌ຂໍ້ມູນປະກອບດ້ວຍລໍາດັບຂອງວັດຖຸຂໍ້ມູນ (datum ຫຼືກໍລະນີ) ສິ້ນສຸດລົງຂອງ
ໄຟລ໌. ຈຳນວນຂອງຄ່າສຳລັບແຕ່ລະວັດຖຸຂໍ້ມູນຕ້ອງເທົ່າກັບຈຳນວນຂອງ
ຄຸນລັກສະນະທີ່ຖືກກໍານົດໄວ້ໃນໄຟລ໌ສ່ວນຫົວ. ວັດຖຸຂໍ້ມູນຕ້ອງເປັນກຸ່ມຂອງໂທເຄັນທີ່ຂັ້ນດ້ວຍ
"ສາຍໃຫມ່". ຄຸນສົມບັດຖືກພິມເປັນ REAL, DISCRETE, ຫຼື DUMMY. ຄຸນລັກສະນະທີ່ແທ້ຈິງແມ່ນ
ຕົວເລກ, ຈໍານວນເຕັມຫຼືຈຸດລອຍ. ຄຸນຄ່າຄຸນສົມບັດທີ່ແຕກຕ່າງກັນສາມາດເປັນສະຕຣິງ,
ສັນຍາລັກ, ຫຼືຈໍານວນເຕັມ. ຄ່າຄຸນສົມບັດ dummy ສາມາດເປັນປະເພດໃດກໍໄດ້. dummys ແມ່ນອ່ານ
ໃນແຕ່ຖືກລະເລີຍ - ພວກມັນຈະຖືກຕັ້ງເປັນສູນໃນຖານຂໍ້ມູນພາຍໃນ. ດັ່ງນັ້ນ
ມູນຄ່າຕົວຈິງຈະບໍ່ສາມາດໃຊ້ໄດ້ສໍາລັບການລາຍງານຜົນໄດ້ຮັບ. ເພື່ອໃຫ້ມີຄຸນລັກສະນະເຫຼົ່ານີ້
ຄ່າທີ່ມີຢູ່, ໃຊ້ປະເພດ REAL ຫຼືປະເພດ DISCRETE, ແລະກໍານົດປະເພດຕົວແບບຂອງພວກເຂົາເປັນ
ບໍ່ສົນໃຈໃນໄຟລ໌ .model. ຄ່າທີ່ຂາດຫາຍໄປສໍາລັບປະເພດຄຸນລັກສະນະໃດນຶ່ງອາດຈະຖືກສະແດງໂດຍ
ທັງ "?", ຫຼື token ອື່ນໆທີ່ລະບຸໄວ້ໃນໄຟລ໌ສ່ວນຫົວ. ທັງຫມົດແມ່ນແປເປັນພິເສດ
ມູນຄ່າທີ່ເປັນເອກະລັກຫຼັງຈາກການອ່ານ, ດັ່ງນັ້ນສັນຍາລັກນີ້ຖືກສະຫງວນໄວ້ຢ່າງມີປະສິດທິພາບສໍາລັບການບໍ່ຮູ້ / ຫາຍໄປ
ຄ່າ.
ຍົກຕົວຢ່າງ:
ຂາວ 38.991306 0.54248405 2 2 1
ສີແດງ 25.254923 0.5010235 9 2 1
ສີເຫຼືອງ 32.407973 ? 8 2 1
all_white 28.953982 0.5267696 0 1 1
ຫົວ ໜ້າ ເອກະສານ
ໄຟລ໌ header ກໍານົດຮູບແບບໄຟລ໌ຂໍ້ມູນ, ແລະຄໍານິຍາມຂອງຂໍ້ມູນ
ຄຸນລັກສະນະ. ຂໍ້ມູນສະເພາະຂອງ header file ປະກອບມີສອງພາກສ່ວນ -- ຂໍ້ມູນ
ກໍານົດການກໍານົດຮູບແບບສະເພາະ, ແລະຕົວອະທິບາຍຄຸນລັກສະນະ. ";" ໃນຖັນ 1
ກໍານົດຄໍາເຫັນ.
ໄຟລ໌ສ່ວນຫົວປະຕິບັດຕາມຮູບແບບທົ່ວໄປນີ້:
;; num_db2_format_defs ຄ່າ (ຈໍານວນຂອງເສັ້ນ def ຮູບແບບ
;; ທີ່ປະຕິບັດຕາມ), ຊ່ວງຂອງ n ແມ່ນ 1 -> 5
num_db2_format_defs ນ
;; number_of_attributes token ແລະຄ່າທີ່ຕ້ອງການ
number_of_attributes
;; ຕໍ່ໄປນີ້ແມ່ນເປັນທາງເລືອກ - ຄ່າເລີ່ມຕົ້ນແມ່ນລະບຸໄວ້
separator_char ' '
comment_char ';'
unknown_token '?'
separator_char ','
;; ຕົວອະທິບາຍຄຸນລັກສະນະ
;;
;;
ແຕ່ລະຕົວອະທິບາຍຄຸນລັກສະນະແມ່ນແຖວຂອງ:
ດັດຊະນີຄຸນສົມບັດ (ຕາມສູນ, ເລີ່ມຕົ້ນໃນຖັນ 1)
ປະເພດຄຸນສົມບັດ. ເບິ່ງຂ້າງລຸ່ມນີ້.
ລັກສະນະຍ່ອຍ. ເບິ່ງຂ້າງລຸ່ມນີ້
ລາຍລະອຽດຄຸນສົມບັດ: ສັນຍາລັກ (ບໍ່ມີຊ່ອງຫວ່າງຝັງ) ຫຼື
ຊ່ອຍແນ່; <= 40 ຕົວອັກສອນ
ຊັບສິນສະເພາະ ແລະຄູ່ມູນຄ່າ.
ການປະສົມປະສານທີ່ມີຢູ່ໃນປັດຈຸບັນ:
ປະເພດຊັບສິນປະເພດຍ່ອຍ
------------------------------------
dummy none/nil --
ຂອບເຂດນາມສະກຸນ
ຄວາມຜິດພາດສະຖານທີ່ທີ່ແທ້ຈິງ
ຕົວຈິງ scalar zero_point rel_error
ຄຸນສົມບັດ ERROR ຄວນເປັນຕົວແທນຂອງການຄາດຄະເນທີ່ດີທີ່ສຸດຂອງທ່ານກ່ຽວກັບຄວາມຜິດພາດສະເລ່ຍທີ່ຄາດໄວ້
ການວັດແທກ ແລະການບັນທຶກຄຸນສົມບັດທີ່ແທ້ຈິງນັ້ນ. ຂາດຂໍ້ມູນທີ່ດີກວ່າ, ໄດ້
ຄວາມຜິດພາດສາມາດໄດ້ຮັບການປະຕິບັດເປັນ 1/2 ຄວາມແຕກຕ່າງທີ່ເປັນໄປໄດ້ຕໍາ່ສຸດທີ່ລະຫວ່າງຄ່າວັດແທກ. ມັນສາມາດ
ມີການໂຕ້ຖຽງວ່າຄຸນຄ່າທີ່ແທ້ຈິງມັກຈະຖືກຕັດອອກ, ດັ່ງນັ້ນຄວາມຜິດພາດທີ່ນ້ອຍກວ່າອາດຈະເປັນເຫດຜົນ,
ໂດຍສະເພາະສໍາລັບຂໍ້ມູນທີ່ສ້າງຂຶ້ນ. ແຕ່ AutoClass ພຽງແຕ່ເຫັນຄ່າທີ່ບັນທຶກໄວ້. ສະນັ້ນມັນ
ຕ້ອງການຄວາມຜິດພາດໃນຄ່າທີ່ບັນທຶກໄວ້, ແທນທີ່ຈະເປັນຄວາມຜິດພາດການວັດແທກຕົວຈິງ. ການຕັ້ງຄ່າ
ຄວາມຜິດພາດນີ້ຫຼາຍຂະຫນາດນ້ອຍກ່ວາຄວາມແຕກຕ່າງສະແດງອອກຕໍາ່ສຸດທີ່ຫມາຍຄວາມເປັນໄປໄດ້ຂອງ
ຄ່າທີ່ບໍ່ສາມາດສະແດງອອກໃນຂໍ້ມູນ. ຮ້າຍແຮງໄປກວ່ານັ້ນ, ມັນຫມາຍຄວາມວ່າສອງຄ່າດຽວກັນ
ຕ້ອງສະແດງເຖິງການວັດແທກທີ່ໃກ້ຊິດກວ່າທີ່ຕົວຈິງແລ້ວ.
ນີ້ນໍາໄປສູ່ການ over-fitting ຂອງການຈັດປະເພດ.
ຄຸນສົມບັດ REL_ERROR ຖືກນໍາໃຊ້ສໍາລັບ SCALAR reals ເມື່ອຄວາມຜິດພາດແມ່ນອັດຕາສ່ວນກັບ
ມູນຄ່າການວັດແທກ. ບໍ່ຮອງຮັບຄຸນສົມບັດ ERROR.
AutoClass ໃຊ້ຄວາມຜິດພາດເປັນຂອບເຂດຕ່ໍາກ່ຽວກັບຄວາມກວ້າງຂອງການແຈກຢາຍປົກກະຕິ. ດັ່ງນັ້ນ
ການຄາດຄະເນຄວາມຜິດພາດຂະຫນາດນ້ອຍມີແນວໂນ້ມທີ່ຈະໃຫ້ຈຸດສູງສຸດແຄບແລະເພີ່ມຂຶ້ນທັງສອງຈໍານວນຂອງ
ຫ້ອງຮຽນແລະຄວາມເປັນໄປໄດ້ການຈັດປະເພດ. ການຄາດຄະເນຄວາມຜິດພາດຢ່າງກວ້າງຂວາງມີແນວໂນ້ມທີ່ຈະຈໍາກັດການ
ຈໍານວນຂອງຫ້ອງຮຽນ.
ຄຸນສົມບັດ ZERO_POINT scalar ແມ່ນຄ່ານ້ອຍທີ່ສຸດທີ່ຂະບວນການວັດແທກສາມາດເຮັດໄດ້
ໄດ້ຜະລິດ. ນີ້ມັກຈະເປັນ 0.0, ຫຼືຫນ້ອຍລົງໂດຍບາງຂອບເຂດຄວາມຜິດພາດ. ເຊັ່ນດຽວກັນ, ຂອບເຂດ
ຄຸນສົມບັດຂັ້ນຕ່ຳ ແລະສູງສຸດຂອງແທ້ແມ່ນເປັນຂອບເຂດສະເພາະໃນຂະບວນການສ້າງຄຸນສົມບັດ.
ສໍາລັບອັດຕາສ່ວນການຄິດໄລ່ເຫຼົ່ານີ້ຈະເປັນ 0-e ແລະ 100+e, ບ່ອນທີ່ e ເປັນຄ່າຄວາມຜິດພາດ. ໄດ້
ຊ່ວງຂອງຄຸນລັກສະນະແຍກແມ່ນຈຳນວນຂອງຄ່າທີ່ເປັນໄປໄດ້ທີ່ຄຸນສົມບັດສາມາດນຳໃຊ້ໄດ້.
ໄລຍະນີ້ຕ້ອງລວມເຖິງຄ່າທີ່ບໍ່ຮູ້ຈັກເມື່ອຄ່າດັ່ງກ່າວເກີດຂຶ້ນ.
ຕົວຢ່າງໄຟລ໌ສ່ວນຫົວ:
!#; ໄຟລ໌ສ່ວນຫົວ AutoClass C -- extension .hd2
!#; ຕົວອັກສອນຕໍ່ໄປນີ້ໃນຖັນທີ 1 ເຮັດໃຫ້ເສັ້ນສະແດງຄວາມຄິດເຫັນ:
!#; '!', '#', ';', ' ', ແລະ '\n' (ແຖວຫວ່າງເປົ່າ)
;#! num_db2_format_defs
num_db2_format_defs 2
;; ຕ້ອງການ
number_of_attributes 7
;; ທາງເລືອກ - ຄ່າເລີ່ມຕົ້ນແມ່ນລະບຸໄວ້
;; separator_char ' '
;; comment_char ';'
;; unknown_token '?'
separator_char ','
;;
0 dummy nil "ຊັ້ນທີ່ແທ້ຈິງ, ໄລຍະ = 1 - 3"
1 ສະຖານທີ່ທີ່ແທ້ຈິງ "ສະຖານທີ່ X, m. ໃນລະຫວ່າງ 25.0 - 40.0" ຄວາມຜິດພາດ .25
2 ສະຖານທີ່ທີ່ແທ້ຈິງ "Y ສະຖານທີ່, m. ໃນລະຫວ່າງ 0.5 - 0.7" ຄວາມຜິດພາດ .05
3 ສະເກັດຕົວຈິງ "ນ້ຳໜັກ, ກິໂລ. ໃນລະດັບ 5.0 - 10.0" zero_point 0.0
rel_error .001
4 discrete nominal "ຄ່າຄວາມຈິງ, range = 1 - 2" range 2
5 ນາມສະກຸນ "ສີຂອງ foobar, 10 ຄ່າ" ຊ່ວງ 10
6 ໄລຍະກຸ່ມ Spectral_color_group ສະເພາະ 6
MODEL ເອກະສານ
ການຈັດປະເພດຂອງຊຸດຂໍ້ມູນແມ່ນເຮັດກ່ຽວກັບຕົວແບບທີ່ລະບຸຮູບແບບຂອງ
ຟັງຊັນການແຈກຢາຍຄວາມເປັນໄປໄດ້ສໍາລັບຊັ້ນຮຽນໃນຊຸດຂໍ້ມູນນັ້ນ. ປົກກະຕິຮູບແບບ
ໂຄງສ້າງແມ່ນຖືກກໍານົດໄວ້ໃນໄຟລ໌ແບບຈໍາລອງ (ປະເພດໄຟລ໌ "ຮູບແບບ"), ເຊິ່ງປະກອບດ້ວຍຫນຶ່ງຫຼືຫຼາຍແບບ.
ພາຍໃນ, ຮູບແບບແມ່ນຖືກກໍານົດທີ່ກ່ຽວຂ້ອງກັບຖານຂໍ້ມູນສະເພາະ. ດັ່ງນັ້ນຈຶ່ງໄດ້ຖືກກໍານົດ
ໂດຍຖານຂໍ້ມູນທີ່ສອດຄ້ອງກັນ, ໄຟລ໌ຕົວແບບຂອງຕົວແບບແລະຕໍາແຫນ່ງລໍາດັບຂອງມັນຢູ່ໃນ
ຍື່ນ.
ແຕ່ລະແບບຈໍາລອງຖືກລະບຸໄວ້ໂດຍສາຍຄໍານິຍາມກຸ່ມແບບຈໍາລອງໜຶ່ງ ຫຼືຫຼາຍກວ່ານັ້ນ. ແຕ່ລະກຸ່ມຕົວແບບ
line associates attribute indices with a model term type.
ນີ້ແມ່ນຕົວຢ່າງໄຟລ໌ຕົວຢ່າງ:
# ໄຟລ໌ຕົວແບບ AutoClass C -- extension .model
model_index 0 7
ບໍ່ສົນໃຈ 0
single_normal_cn 3
single_normal_cn 17 18 21
multi_normal_cn 1 2
multi_normal_cn 8 9 10
multi_normal_cn 11 12 13
single_multinomial ຄ່າເລີ່ມຕົ້ນ
ນີ້, ແຖວທໍາອິດແມ່ນຄໍາເຫັນ. ຕົວອັກສອນຕໍ່ໄປນີ້ຢູ່ໃນຖັນທີ 1 ເຮັດໃຫ້ເສັ້ນ a
ຄໍາເຫັນ: `!', `#', ` ', `;', ແລະ `\n' (ແຖວຫວ່າງເປົ່າ).
ໂທເຄັນ "model_index n m" ຕ້ອງປາກົດຢູ່ໃນແຖວທີ່ບໍ່ແມ່ນຄໍາເຫັນທໍາອິດ, ແລະນໍາຫນ້າ
ສາຍຄຳນິຍາມຂອງຕົວແບບ. n ແມ່ນດັດຊະນີຕົວແບບທີ່ອີງໃສ່ສູນ, ໂດຍປົກກະຕິແມ່ນ 0 ບ່ອນທີ່ມີ
ຮູບແບບດຽວເທົ່ານັ້ນ - ສ່ວນໃຫຍ່ຂອງສະຖານະການຄົ້ນຫາ. m ແມ່ນຈໍານວນຂອງໄລຍະຕົວແບບ
ເສັ້ນຄໍານິຍາມທີ່ປະຕິບັດຕາມ.
ເຈັດສາຍສຸດທ້າຍແມ່ນສາຍກຸ່ມຕົວແບບ. ແຕ່ລະສາຍກຸ່ມແບບຈໍາລອງປະກອບດ້ວຍ:
ປະເພດຄໍາສັບແບບຈໍາລອງ (ຫນຶ່ງໃນ single_multinomial, single_normal_cm, single_normal_cn,
multi_normal_cn, ຫຼື ບໍ່ສົນໃຈ).
ບັນຊີລາຍຊື່ຂອງຕົວຊີ້ວັດຄຸນລັກສະນະ (ບັນຊີລາຍຊື່ທີ່ກໍານົດໄວ້ຄຸນລັກສະນະ), ຫຼືສັນຍາລັກ Default. ຄຸນລັກສະນະ
ດັດຊະນີແມ່ນອີງໃສ່ສູນ. ຂໍ້ກໍານົດຂອງຕົວແບບດຽວອາດມີຕົວຊີ້ວັດຄຸນສົມບັດໜຶ່ງ ຫຼືຫຼາຍອັນ
ແຕ່ລະແຖວ, ໃນຂະນະທີ່ຂໍ້ກໍານົດຕົວແບບຫຼາຍຮຽກຮ້ອງໃຫ້ມີສອງຫຼືຫຼາຍດັດຊະນີຄຸນສົມບັດຕໍ່ແຖວ. ອັນ
ດັດຊະນີຄຸນລັກສະນະຕ້ອງບໍ່ປາກົດຫຼາຍກວ່າຫນຶ່ງຄັ້ງໃນລາຍການແບບຈໍາລອງ.
ຫມາຍເຫດ:
1) ຕ້ອງມີນິຍາມຕົວແບບຢ່າງໜ້ອຍໜຶ່ງອັນ (model_index token).
2) ອາດຈະມີຫຼາຍລາຍການຢູ່ໃນຕົວແບບສໍາລັບປະເພດຄໍາທີ່ໃຊ້ແບບຈໍາລອງໃດໜຶ່ງ.
3) ປະເພດຄໍາສັບຕົວແບບປະຈຸບັນປະກອບດ້ວຍ:
single_multinomial
ແບບຈໍາລອງແຍກຄຸນລັກສະນະເປັນ multinomials, ທີ່ມີຄ່າທີ່ຂາດຫາຍໄປ.
single_normal_cn
ແບບຈໍາລອງຄຸນລັກສະນະທີ່ມີຄຸນຄ່າທີ່ແທ້ຈິງຕາມປົກກະຕິ; ບໍ່ມີຄ່າທີ່ຂາດຫາຍໄປ.
single_normal_cm
ແບບຈໍາລອງຄຸນລັກສະນະທີ່ມີຄຸນຄ່າທີ່ແທ້ຈິງທີ່ມີຄ່າທີ່ຂາດຫາຍໄປ.
multi_normal_cn
ແມ່ນຕົວແບບປົກກະຕິຂອງ covariant ໂດຍບໍ່ມີຄ່າທີ່ຂາດຫາຍໄປ.
ບໍ່ສົນໃຈ ອະນຸຍາດໃຫ້ຕົວແບບບໍ່ສົນໃຈໜຶ່ງ ຫຼືຫຼາຍຄຸນສົມບັດ. ບໍ່ສົນໃຈ ບໍ່ຖືກຕ້ອງ
ປະເພດໄລຍະຕົວແບບເລີ່ມຕົ້ນ.
ເບິ່ງເອກະສານໃນ model-c.text ສໍາລັບຂໍ້ມູນເພີ່ມເຕີມກ່ຽວກັບຕົວແບບສະເພາະ
ຂໍ້ ກຳ ນົດ.
4) Single_normal_cn, single_normal_cm, ແລະ multi_normal_cn ຂໍ້ມູນແບບຈໍາລອງ, ປະເພດຍ່ອຍຂອງມັນ
is ຜິວ ໜັງ (ການແຈກຢາຍມູນຄ່າຢູ່ຫ່າງຈາກ 0.0, ແລະດັ່ງນັ້ນຈຶ່ງບໍ່ແມ່ນ "ປົກກະຕິ"
ການແຜ່ກະຈາຍ) ຈະຖືກປ່ຽນບັນທຶກ ແລະສ້າງແບບຈໍາລອງດ້ວຍຕົວແບບບັນທຶກ-ປົກກະຕິ. ສໍາລັບ
ຂໍ້ມູນປະເພດຍ່ອຍແມ່ນ ສະຖານທີ່ (ການແຈກຢາຍມູນຄ່າແມ່ນປະມານ 0.0), ບໍ່ມີການປ່ຽນແປງ
ເຮັດແລ້ວ, ແລະຮູບແບບປົກກະຕິຖືກນໍາໃຊ້.
SEARCHING
AutoClass, ເມື່ອຖືກເອີ້ນໃນໂຫມດ "ຄົ້ນຫາ" ຈະກວດເບິ່ງຄວາມຖືກຕ້ອງຂອງຊຸດຂໍ້ມູນ,
ຫົວ, ຕົວແບບ, ແລະໄຟລ໌ພາລາມິເຕີຄົ້ນຫາ. ຄວາມຜິດພາດຈະຢຸດການຄົ້ນຫາຈາກການເລີ່ມຕົ້ນ, ແລະ
ຄຳເຕືອນຈະຖາມຜູ້ໃຊ້ວ່າຈະສືບຕໍ່ຫຼືບໍ່. ປະຫວັດຂອງຄວາມຜິດພາດແລະການເຕືອນໄພ
ຂໍ້ຄວາມຖືກບັນທຶກໄວ້, ໂດຍຄ່າເລີ່ມຕົ້ນ, ໃນໄຟລ໌ບັນທຶກ.
ເມື່ອທ່ານປະສົບຜົນສໍາເລັດໃນການອະທິບາຍຂໍ້ມູນຂອງທ່ານດ້ວຍໄຟລ໌ header ແລະຮູບແບບໄຟລ໌ທີ່
ຜ່ານການກວດສອບການປ້ອນຂໍ້ມູນ AUTOCLASS -SEARCH <...>, ທ່ານຈະໄດ້ເຂົ້າໄປໃນໂດເມນຄົ້ນຫາ.
ບ່ອນທີ່ AutoClass ຈັດປະເພດຂໍ້ມູນຂອງທ່ານ. (ໃນທີ່ສຸດ!)
ຫນ້າທີ່ຕົ້ນຕໍທີ່ຈະໃຊ້ໃນການຊອກຫາການຈັດປະເພດທີ່ດີຂອງຂໍ້ມູນຂອງທ່ານແມ່ນ AUTOCLASS
-Search, ແລະການນໍາໃຊ້ມັນຈະໃຊ້ເວລາຫຼາຍທີ່ສຸດຂອງການຄິດໄລ່. ການຊອກຫາແມ່ນຮຽກຮ້ອງໃຫ້ມີ:
autoclass -search <.db2 file path> <.hd2 file path>
<.model file path> <.s-params file path>
ໄຟລ໌ທັງໝົດຈະຕ້ອງຖືກລະບຸວ່າເປັນຊື່ທີ່ສົມທຽບ ຫຼືຊື່ເສັ້ນທາງຢ່າງແທ້ຈິງ. ຊື່ເອກະສານ
ສ່ວນຂະຫຍາຍ (ປະເພດໄຟລ໌) ສໍາລັບໄຟລ໌ທັງຫມົດຖືກບັງຄັບໃຫ້ຄ່າ canonical ທີ່ຕ້ອງການໂດຍ
ໂປຣແກມ AutoClass:
ໄຟລ໌ຂໍ້ມູນ ("ascii") db2
ໄຟລ໌ຂໍ້ມູນ ("binary") db2-bin
ໄຟລ໌ຫົວ hd2
ຮູບແບບໄຟລ໌ແບບຈໍາລອງ
params ຄົ້ນຫາໄຟລ໌ s-params
ຕົວຢ່າງການດໍາເນີນງານ (/usr/share/doc/autoclass/example/) ທີ່ມາກັບ AutoClass ສະແດງໃຫ້ເຫັນບາງ
ການຄົ້ນຫາຕົວຢ່າງ, ແລະການທ່ອງເວັບເຫຼົ່ານີ້ອາດຈະເປັນວິທີທີ່ໄວທີ່ສຸດເພື່ອໃຫ້ຄຸ້ນເຄີຍກັບວິທີການ
ເພື່ອເຮັດການຄົ້ນຫາ. ຊຸດຂໍ້ມູນການທົດສອບທີ່ຕັ້ງຢູ່ພາຍໃຕ້ /usr/share/doc/autoclass/example/ ຈະ
ສະແດງໃຫ້ທ່ານເຫັນບາງສ່ວນຫົວອື່ນ (.hd2), ຮູບແບບ (.model), ແລະໄຟລ໌ params (.s-params) ຊອກຫາ
ການຕັ້ງຄ່າ. ສ່ວນທີ່ເຫຼືອຂອງພາກນີ້ອະທິບາຍວິທີການຄົ້ນຫາໃນບາງສ່ວນເພີ່ມເຕີມ
ລາຍລະອຽດ.
ໄດ້ ກ້າຫານ ປະເຊີນຫນ້າ tokens ຂ້າງລຸ່ມນີ້ແມ່ນໂດຍທົ່ວໄປແລ້ວຊອກຫາຕົວກໍານົດການໄຟລ໌ parameters. ສໍາລັບການເພີ່ມເຕີມ
ຂໍ້ມູນກ່ຽວກັບໄຟລ໌ s-params, ເບິ່ງ ຄົ້ນຫາ PARAMETERS ຂ້າງລຸ່ມນີ້, ຫຼື
/usr/share/doc/autoclass/search-c.text.gz.
ແມ່ນຫຍັງ ຜົນໄດ້ຮັບ ARE
AutoClass ກໍາລັງຊອກຫາການຈັດປະເພດທີ່ດີທີ່ສຸດຂອງຂໍ້ມູນທີ່ມັນສາມາດຊອກຫາໄດ້. ກ
ການຈັດປະເພດແມ່ນປະກອບດ້ວຍ:
1) ຊຸດຂອງຫ້ອງຮຽນ, ແຕ່ລະຄົນໄດ້ຖືກອະທິບາຍໂດຍຊຸດຂອງຕົວກໍານົດການຫ້ອງຮຽນ, ເຊິ່ງ
ລະບຸວິທີການແຈກຢາຍຫ້ອງຮຽນຕາມຄຸນລັກສະນະຕ່າງໆ. ຍົກຕົວຢ່າງ,
"ຄວາມສູງປົກກະຕິແຈກຢາຍໂດຍສະເລ່ຍ 4.67 ຟຸດແລະມາດຕະຖານ deviation .32 ft",
2) ຊຸດນ້ໍາຫນັກຂອງຊັ້ນຮຽນ, ອະທິບາຍອັດຕາສ່ວນຂອງກໍລະນີທີ່ອາດຈະຢູ່ໃນ
ແຕ່ລະຫ້ອງຮຽນ.
3) ການມອບໝາຍຄວາມເປັນໄປໄດ້ຂອງກໍລະນີໃນຂໍ້ມູນໃຫ້ກັບຫ້ອງຮຽນເຫຼົ່ານີ້. Ie ສໍາລັບແຕ່ລະຄົນ
ກໍລະນີ, ຄວາມເປັນໄປໄດ້ທີ່ເປັນສະມາຊິກຂອງແຕ່ລະຫ້ອງ.
ໃນຖານະເປັນລະບົບ Bayesian ຢ່າງເຂັ້ມງວດ (ຍອມຮັບບໍ່ມີການທົດແທນ!), ການວັດແທກຄຸນນະພາບ AutoClass ການນໍາໃຊ້
ແມ່ນຄວາມເປັນໄປໄດ້ທັງ ໝົດ ທີ່ເຈົ້າບໍ່ຮູ້ຫຍັງກ່ຽວກັບຂໍ້ມູນຂອງທ່ານຫຼືໂດເມນຂອງມັນ, ເຈົ້າ
ຈະພົບເຫັນຊຸດຂໍ້ມູນນີ້ທີ່ສ້າງຂຶ້ນໂດຍຕົວແບບພື້ນຖານນີ້. ນີ້ປະກອບມີ
ຄວາມເປັນໄປໄດ້ກ່ອນຫນ້າທີ່ວ່າ "ໂລກ" ຈະເລືອກເອົາຈໍານວນຫ້ອງຮຽນນີ້, ຊຸດນີ້
ນ້ ຳ ໜັກ ຂອງຫ້ອງຮຽນທີ່ກ່ຽວຂ້ອງ, ແລະຊຸດຂອງຕົວ ກຳ ນົດນີ້ ສຳ ລັບແຕ່ລະຊັ້ນຮຽນ, ແລະຄວາມເປັນໄປໄດ້ນັ້ນ
ຊຸດຂອງຫ້ອງຮຽນດັ່ງກ່າວຈະສ້າງຊຸດຂອງຄ່ານີ້ສໍາລັບຄຸນລັກສະນະໃນ
ກໍລະນີຂໍ້ມູນ.
ຄວາມເປັນໄປໄດ້ເຫຼົ່ານີ້ແມ່ນມີຫນ້ອຍຫຼາຍ, ຢູ່ໃນຂອບເຂດຂອງ e^-30000, ແລະດັ່ງນັ້ນແມ່ນປົກກະຕິແລ້ວ.
ສະແດງອອກໃນຫມາຍເຫດ exponential.
ແມ່ນຫຍັງ ຜົນໄດ້ຮັບ ໝາຍ ຄວາມວ່າ
ມັນເປັນສິ່ງ ສຳ ຄັນທີ່ຈະຕ້ອງຈື່ໄວ້ວ່າຄວາມເປັນໄປໄດ້ທັງ ໝົດ ເຫຼົ່ານີ້ແມ່ນໃຫ້ຕົວແບບທີ່ແທ້ຈິງ
ຢູ່ໃນຄອບຄົວຕົວແບບນັ້ນ AutoClass ໄດ້ຈໍາກັດຄວາມສົນໃຈຂອງຕົນ. ຖ້າ AutoClass is
ຊອກຫາຫ້ອງຮຽນ Gaussian ແລະຫ້ອງຮຽນທີ່ແທ້ຈິງແມ່ນ Poisson, ຫຼັງຈາກນັ້ນຄວາມຈິງທີ່ວ່າ
AutoClass ພົບ 5 ຫ້ອງຮຽນ Gaussian ອາດຈະບໍ່ເວົ້າຫຼາຍກ່ຽວກັບຈໍານວນຫ້ອງຮຽນ Poisson ຢູ່ທີ່ນັ້ນ
ແມ່ນແທ້.
ຄວາມເປັນໄປໄດ້ທີ່ກ່ຽວຂ້ອງລະຫວ່າງການຈັດປະເພດທີ່ແຕກຕ່າງກັນທີ່ພົບເຫັນສາມາດມີຂະຫນາດໃຫຍ່ຫຼາຍ, ເຊັ່ນ
e^1000, ດັ່ງນັ້ນການຈັດປະເພດທີ່ດີທີ່ສຸດທີ່ພົບເຫັນແມ່ນມັກຈະມີຄວາມເປັນໄປໄດ້ຫຼາຍກວ່າ
ສ່ວນທີ່ເຫຼືອ (ແລະ overwhelmingly ເປັນໄປໄດ້ຫນ້ອຍກ່ວາການຈັດປະເພດທີ່ດີກວ່າໃດໆໃນປັດຈຸບັນ
ບໍ່ໄດ້ຄົ້ນພົບ). ຖ້າ AutoClass ຄວນຈັດການເພື່ອຊອກຫາສອງການຈັດປະເພດທີ່ຢູ່ພາຍໃນ
ປະມານ exp(5-10) ຂອງກັນແລະກັນ (ເຊັ່ນ: ພາຍໃນ 100 ຫາ 10,000 ເທົ່າທີ່ເປັນໄປໄດ້) ຫຼັງຈາກນັ້ນທ່ານ.
ຄວນພິຈາລະນາວ່າພວກມັນຈະເປັນໄປໄດ້ເທົ່າທຽມກັນ, ເພາະວ່າການຄິດໄລ່ຂອງພວກເຮົາມັກຈະບໍ່ຫຼາຍ
ຖືກຕ້ອງກວ່ານີ້ (ແລະບາງຄັ້ງກໍ່ຫນ້ອຍລົງ).
ວິທີການ IT WORKS
AutoClass repeatedly ສ້າງການຈັດປະເພດແບບສຸ່ມແລະຫຼັງຈາກນັ້ນພະຍາຍາມນວດນີ້ເຂົ້າໄປໃນ a
ການຈັດປະເພດຄວາມເປັນໄປໄດ້ສູງເຖິງແມ່ນວ່າການປ່ຽນແປງໃນທ້ອງຖິ່ນ, ຈົນກ່ວາມັນ converges ກັບບາງ "ທ້ອງຖິ່ນ
ສູງສຸດ" ຫຼັງຈາກນັ້ນມັນຈື່ສິ່ງທີ່ມັນພົບແລະເລີ່ມຕົ້ນອີກເທື່ອຫນຶ່ງ, ສືບຕໍ່ຈົນກ່ວາເຈົ້າ
ບອກໃຫ້ຢຸດ. ຄວາມພະຍາຍາມແຕ່ລະຄົນເອີ້ນວ່າ "ພະຍາຍາມ", ແລະຄວາມເປັນໄປໄດ້ທີ່ຄິດໄລ່ແມ່ນມີຈຸດປະສົງ
ເພື່ອໃຫ້ກວມເອົາປະລິມານທັງຫມົດໃນຊ່ອງພາລາມິເຕີປະມານສູງສຸດນີ້, ແທນທີ່ຈະພຽງແຕ່
ຈຸດສູງສຸດ.
ວິທີການມາດຕະຖານສໍາລັບການນວດແມ່ນເພື່ອ
1) ຄິດໄລ່ການເປັນສະມາຊິກຊັ້ນຮຽນທີ່ເປັນໄປໄດ້ຂອງກໍລະນີໂດຍນໍາໃຊ້ຕົວກໍານົດການຊັ້ນຮຽນແລະ
ຄວາມເປັນໄປໄດ້ຂອງພີ່ນ້ອງທີ່ບົ່ງບອກ.
2) ການນໍາໃຊ້ສະມາຊິກຫ້ອງຮຽນໃຫມ່, ການຄິດໄລ່ສະຖິຕິຂອງຫ້ອງຮຽນ (ເຊັ່ນ: ສະເລ່ຍ) ແລະປັບປຸງ
ຕົວກໍານົດການຫ້ອງຮຽນ.
ແລະເຮັດເລື້ມຄືນຈົນກ່ວາພວກເຂົາຢຸດເຊົາການປ່ຽນແປງ. ມີສາມວິທີ convergence ທີ່ມີຢູ່:
"converge_search_3" (ຄ່າເລີ່ມຕົ້ນ), "converge_search_4" ແລະ "converge". ຂອງພວກເຂົາ
ຂໍ້ມູນສະເພາະແມ່ນຖືກຄວບຄຸມໂດຍພາລາມິເຕີໄຟລ໌ການຄົ້ນຫາ parameter try_fn_type.
ເມື່ອໃດ ເຖິງ STOP
ເຈົ້າສາມາດບອກ AUTOCLASS -SEARCH ໃຫ້ຢຸດໂດຍ: 1) ໃຫ້ a ໄລຍະເວລາສູງສຸດ (ໃນວິນາທີ) ການໂຕ້ຖຽງ
ໃນຕອນຕົ້ນ; 2) ການໃຫ້ ກ ສູງສຸດ_n_ພະຍາຍາມ (integer) ການໂຕ້ຖຽງໃນຕອນຕົ້ນ; ຫຼື 3) ໂດຍ
ພິມ "q" ແລະ ຫຼັງຈາກທີ່ເຈົ້າໄດ້ເຫັນຄວາມພະຍາຍາມພຽງພໍ. ໄດ້ ໄລຍະເວລາສູງສຸດ ແລະ
ສູງສຸດ_n_ພະຍາຍາມ ການໂຕ້ຖຽງແມ່ນເປັນປະໂຫຍດຖ້າທ່ານຕ້ອງການດໍາເນີນການ AUTOCLASS -SEARCH ໃນຮູບແບບ batch. ຖ້າ
ທ່ານກໍາລັງ restart AUTOCLASS -SEARCH ຈາກການຄົ້ນຫາທີ່ຜ່ານມາ, ມູນຄ່າຂອງ ສູງສຸດ_n_ພະຍາຍາມ ທ່ານ
ໃຫ້, ສໍາລັບການຍົກຕົວຢ່າງ, 3, ຈະບອກໂຄງການທີ່ຈະຄິດໄລ່ 3 ພະຍາຍາມເພີ່ມເຕີມນອກເຫນືອໄປຈາກ
ຢ່າງ ໃດ ກໍ ຕາມ ຈໍາ ນວນ ຫຼາຍ ມັນ ໄດ້ ເຮັດ ແລ້ວ. ພຶດຕິກໍາການເພີ່ມຂຶ້ນດຽວກັນໄດ້ຖືກສະແດງໂດຍ
ໄລຍະເວລາສູງສຸດ.
ການຕັດສິນໃຈວ່າເວລາໃດທີ່ຈະຢຸດແມ່ນການຮ້ອງຟ້ອງແລະຂຶ້ນກັບທ່ານ. ນັບຕັ້ງແຕ່ການຄົ້ນຫາປະກອບມີ a
ອົງປະກອບແບບສຸ່ມ, ມີໂອກາດສະເຫມີວ່າຖ້າທ່ານປ່ອຍໃຫ້ມັນສືບຕໍ່ມັນຈະພົບ
ບາງສິ່ງບາງຢ່າງທີ່ດີກວ່າ. ດັ່ງນັ້ນ, ທ່ານຈໍາເປັນຕ້ອງໄດ້ຊື້ຂາຍອອກຫຼາຍປານໃດທີ່ດີກວ່າມັນອາດຈະຢູ່ກັບດົນປານໃດ
ອາດຈະໃຊ້ເວລາເພື່ອຊອກຫາມັນ. ສະຖານະການຄົ້ນຫາລາຍງານທີ່ຖືກພິມອອກໃນເວລາທີ່ໃຫມ່ທີ່ດີທີ່ສຸດ
ການຈັດປະເພດແມ່ນພົບເຫັນມີຈຸດປະສົງເພື່ອໃຫ້ທ່ານຂໍ້ມູນທີ່ຈະຊ່ວຍໃຫ້ທ່ານເຮັດໃຫ້ນີ້
ການແລກປ່ຽນ.
ສັນຍານທີ່ຊັດເຈນອັນຫນຶ່ງທີ່ທ່ານອາດຈະຢຸດເຊົາແມ່ນຖ້າການຈັດປະເພດສ່ວນໃຫຍ່ທີ່ພົບເຫັນ
ຊໍ້າກັນຂອງອັນກ່ອນໜ້າ (ໝາຍໂດຍ "dup" ຍ້ອນວ່າພວກມັນຖືກພົບເຫັນ). ນີ້ພຽງແຕ່ຄວນຈະເກີດຂຶ້ນ
ສໍາລັບຊຸດຂໍ້ມູນຂະຫນາດນ້ອຍຫຼາຍຫຼືໃນເວລາທີ່ການແກ້ໄຂຈໍານວນຂະຫນາດນ້ອຍຫຼາຍຂອງຫ້ອງຮຽນ, ເຊັ່ນ: ສອງ.
ປະສົບການຂອງພວກເຮົາແມ່ນວ່າສໍາລັບຊຸດຂໍ້ມູນຂະຫນາດໃຫຍ່ປານກາງເຖິງຂະຫນາດໃຫຍ່ທີ່ສຸດ (~200 ຫາ ~ 10,000.
datum), ມັນເປັນສິ່ງຈໍາເປັນທີ່ຈະດໍາເນີນການ AutoClass ສໍາລັບຢ່າງຫນ້ອຍ 50 ການທົດລອງ.
ແມ່ນຫຍັງ ຮັບຜົນປະໂຫຍດ ສົ່ງຄືນແລ້ວ
ກ່ອນຈະກັບມາ, AUTOCLASS -SEARCH ຈະໃຫ້ຄຳອະທິບາຍສັ້ນໆກ່ຽວກັບສິ່ງທີ່ດີທີ່ສຸດ
ພົບປະເພດ. ວິທີການຈໍານວນຫຼາຍຈະໄດ້ຮັບການອະທິບາຍສາມາດຄວບຄຸມໄດ້ n_final_summary.
ໂດຍຄ່າເລີ່ມຕົ້ນ AUTOCLASS -SEARCH ຈະຂຽນໄຟລ໌ຈໍານວນຫນຶ່ງ, ທັງໃນຕອນທ້າຍແລະ
ເປັນໄລຍະໆໃນລະຫວ່າງການຄົ້ນຫາ (ໃນກໍລະນີທີ່ລະບົບຂອງທ່ານຂັດຂ້ອງກ່ອນທີ່ມັນຈະສໍາເລັດ). ເຫຼົ່ານີ້
ໄຟລ໌ທັງຫມົດຈະມີຊື່ດຽວກັນ (ເອົາມາຈາກຊື່ເສັ້ນທາງ params ຄົ້ນຫາ [ .s-
params]), ແລະແຕກຕ່າງກັນພຽງແຕ່ໃນນາມສະກຸນໄຟລ໌ຂອງເຂົາເຈົ້າ. ຖ້າການຄົ້ນຫາຂອງທ່ານແມ່ນຍາວຫຼາຍແລະ
ມີຄວາມເປັນໄປໄດ້ທີ່ເຄື່ອງຂອງທ່ານອາດຈະຂັດ, ທ່ານສາມາດມີ "ຜົນໄດ້ຮັບ" ລະດັບປານກາງ.
ໄຟລ໌ທີ່ຂຽນອອກ. ເຫຼົ່ານີ້ສາມາດຖືກນໍາໃຊ້ເພື່ອ restart ການຄົ້ນຫາຂອງທ່ານກັບການສູນເສຍຕໍາ່ສຸດທີ່ຂອງ
ຄວາມພະຍາຍາມຄົ້ນຫາ. ເບິ່ງເອກະສານເອກະສານ /usr/share/doc/autoclass/checkpoint-c.text.
ໄຟລ໌ ".log" ຈະຖືລາຍຊື່ຂອງສິ່ງທີ່ຖືກພິມອອກໃນໜ້າຈໍສ່ວນໃຫຍ່
ແລ່ນ, ເວັ້ນເສຍແຕ່ວ່າທ່ານຕັ້ງ log_file_p ຕົວະທີ່ຈະເວົ້າວ່າເຈົ້າຕ້ອງການບໍ່ມີຄວາມໂງ່ຈ້າ. ເວັ້ນເສຍແຕ່
results_file_p ບໍ່ຖືກຕ້ອງ, ເປັນໄຟລ໌ ".results-bin" ໄບນາຣີ (ຄ່າເລີ່ມຕົ້ນ) ຫຼື ASCII ".results"
ໄຟລ໌ຂໍ້ຄວາມ, ຈະຖືການຈັດປະເພດທີ່ດີທີ່ສຸດທີ່ຖືກສົ່ງຄືນ, ແລະເວັ້ນເສຍແຕ່ search_file_p
ບໍ່ຖືກຕ້ອງ, ໄຟລ໌ ".search" ຈະບັນທຶກການພະຍາຍາມຄົ້ນຫາ. save_compact_p
ຄວບຄຸມວ່າໄຟລ໌ "ຜົນໄດ້ຮັບ" ຖືກບັນທຶກເປັນຂໍ້ຄວາມຄູ່ ຫຼື ASCII.
ຖ້າຕົວແປທົ່ວໂລກ C "G_safe_file_writing_p" ຖືກກໍານົດເປັນ TRUE ໃນ "autoclass-
c/prog/globals.c", ຊື່ຂອງໄຟລ໌ "ຜົນໄດ້ຮັບ" (ໄຟລ໌ທີ່ບັນຈຸບັນທຶກ
classifications) ຖືກດັດແກ້ພາຍໃນບັນຊີສໍາລັບການຂຽນໄຟລ໌ຊ້ໍາຊ້ອນ. ຖ້າ
ຊື່ໄຟລ໌ params ຄົ້ນຫາແມ່ນ "my_saved_clsfs" ທ່ານຈະເຫັນໄຟລ໌ "ຜົນໄດ້ຮັບ" ຕໍ່ໄປນີ້.
ຊື່ (ບໍ່ສົນໃຈໄດເລກະທໍລີແລະຊື່ເສັ້ນທາງສໍາລັບຕົວຢ່າງນີ້)
save_compact_p = ຈິງ --
"my_saved_clsfs.results-bin" - ໄຟລ໌ລາຍລັກອັກສອນຢ່າງສົມບູນ
"my_saved_clsfs.results-tmp-bin" - ໄຟລ໌ທີ່ຂຽນເປັນບາງສ່ວນ, ປ່ຽນຊື່
ເມື່ອສໍາເລັດ
save_compact_p = ບໍ່ຈິງ --
"my_saved_clsfs.results" - ໄຟລ໌ລາຍລັກອັກສອນຢ່າງສົມບູນ
"my_saved_clsfs.results-tmp" - ໄຟລ໌ທີ່ຂຽນເປັນບາງສ່ວນ, ປ່ຽນຊື່
ເມື່ອສໍາເລັດ
ຖ້າການກວດສອບຖືກເຮັດ, ຊື່ເພີ່ມເຕີມເຫຼົ່ານີ້ຈະປາກົດ
save_compact_p = ຈິງ --
"my_saved_clsfs.chkpt-bin" - ໄຟລ໌ດ່ານທີ່ຂຽນຢ່າງສົມບູນ
"my_saved_clsfs.chkpt-tmp-bin" - ໄຟລ໌ດ່ານທີ່ຂຽນເປັນບາງສ່ວນ,
ປ່ຽນຊື່ເມື່ອສໍາເລັດ
save_compact_p = ບໍ່ຈິງ --
"my_saved_clsfs.chkpt" - ໄຟລ໌ດ່ານລາຍລັກອັກສອນຢ່າງສົມບູນ
"my_saved_clsfs.chkpt-tmp" - ໄຟລ໌ດ່ານທີ່ຂຽນເປັນບາງສ່ວນ,
ປ່ຽນຊື່ເມື່ອສໍາເລັດ
ວິທີການ ເຖິງ GET ເລີ່ມຕົ້ນ
ວິທີການເອີ້ນ AUTOCLASS -SEARCH ແມ່ນ:
autoclass -search <.db2 file path> <.hd2 file path>
<.model file path> <.s-params file path>
ເພື່ອເລີ່ມຕົ້ນການຄົ້ນຫາທີ່ຜ່ານມາ, ໃຫ້ລະບຸວ່າ force_new_search_p ມີຄ່າທີ່ບໍ່ຖືກຕ້ອງຢູ່ໃນ
ໄຟລ໌ params ຄົ້ນຫາ, ເນື່ອງຈາກວ່າຄ່າເລີ່ມຕົ້ນຂອງມັນແມ່ນຄວາມຈິງ. ການລະບຸບໍ່ຖືກຕ້ອງບອກ AUTOCLASS -SEARCH
ເພື່ອພະຍາຍາມຊອກຫາການຄົ້ນຫາທີ່ເຂົ້າກັນໄດ້ກ່ອນໜ້ານີ້ (<...>.results[-bin] & <...>.search) ໄປຫາ
ສືບຕໍ່ຈາກ, ແລະຈະ restart ການນໍາໃຊ້ມັນຖ້າຫາກວ່າພົບເຫັນ. ເພື່ອບັງຄັບການຄົ້ນຫາໃຫມ່ແທນທີ່ຈະເປັນ
restarting ອັນເກົ່າ, ໃຫ້ພາລາມິເຕີ force_new_search_p ຄ່າຂອງຄວາມຈິງ, ຫຼືໃຊ້
ຄ່າເລີ່ມຕົ້ນ. ຖ້າມີການຄົ້ນຫາທີ່ມີຢູ່ແລ້ວ (<...>.results[-bin] & <...>.search), ຜູ້ໃຊ້
ຈະຖືກຮ້ອງຂໍໃຫ້ຢືນຢັນການສືບຕໍ່ນັບຕັ້ງແຕ່ການສືບຕໍ່ຈະຍົກເລີກການຄົ້ນຫາທີ່ມີຢູ່.
ຖ້າການຄົ້ນຫາຜ່ານມາສືບຕໍ່, ຂໍ້ຄວາມ "ການເລີ່ມຕົ້ນການຄົ້ນຫາຄືນໃຫມ່" ຈະຖືກມອບໃຫ້ແທນ
ຂອງປົກກະຕິ "ເລີ່ມຕົ້ນການຄົ້ນຫາ". ໂດຍທົ່ວໄປແລ້ວມັນດີກວ່າທີ່ຈະສືບຕໍ່ການຄົ້ນຫາທີ່ຜ່ານມາ
ກ່ວາທີ່ຈະເລີ່ມຕົ້ນໃຫມ່, ເວັ້ນເສຍແຕ່ວ່າທ່ານກໍາລັງພະຍາຍາມວິທີການຄົ້ນຫາທີ່ແຕກຕ່າງກັນຢ່າງຫຼວງຫຼາຍ, ໃນ
ສະຖິຕິກໍລະນີໃດຈາກການຄົ້ນຫາຜ່ານມາອາດຈະເຮັດໃຫ້ຄົນປະຈຸບັນເຂົ້າໃຈຜິດ.
STATUS ບົດລາຍງານ
ຄໍາຄິດຄໍາເຫັນທີ່ເຮັດວຽກຢູ່ໃນການຄົ້ນຫາຈະຖືກພິມອອກໃສ່ຫນ້າຈໍແລະໄຟລ໌ບັນທຶກ
(ເວັ້ນເສຍແຕ່ log_file_p ບໍ່ຖືກຕ້ອງ). ກະລຸນາຮັບຊາບວ່າໄຟລ໌ ".log" ຈະມີລາຍຊື່ທັງໝົດ
ຄ່າເລີ່ມຕົ້ນຂອງການຄົ້ນຫາ params, ແລະຄ່າຂອງ params ທັງຫມົດທີ່ overridden.
ຫຼັງຈາກແຕ່ລະຄົນພະຍາຍາມມີບົດລາຍງານສັ້ນຫຼາຍ (ພຽງແຕ່ສອງສາມຕົວອັກສອນຍາວ) ແມ່ນໃຫ້. ຫຼັງຈາກແຕ່ລະຄົນໃຫມ່
ການຈັດປະເພດທີ່ດີທີ່ສຸດ, ບົດລາຍງານທີ່ຍາວກວ່າແມ່ນໄດ້ຮັບ, ແຕ່ບໍ່ມີຫຼາຍກວ່າ min_report_period
(ຄ່າເລີ່ມຕົ້ນແມ່ນ 30 ວິນາທີ).
ຄົ້ນຫາ ວາລະສານ
AUTOCLASS -SEARCH ໂດຍຄ່າເລີ່ມຕົ້ນໃຊ້ວິທີການຄົ້ນຫາມາດຕະຖານທີ່ແນ່ນອນ ຫຼື "ລອງຟັງຊັນ"
(try_fn_type = "converge_search_3"). ອີກສອງອັນຍັງມີຢູ່: "converge_search_4"
ແລະ "converge"). ພວກເຂົາເຈົ້າໄດ້ຖືກສະຫນອງໃຫ້ໃນກໍລະນີທີ່ບັນຫາຂອງທ່ານແມ່ນຫນຶ່ງທີ່ອາດຈະເກີດຂຶ້ນເພື່ອຜົນປະໂຫຍດ
ຈາກພວກເຂົາ. ໂດຍທົ່ວໄປວິທີການໃນຕອນຕົ້ນຈະສົ່ງຜົນໃຫ້ການຊອກຫາການຈັດປະເພດທີ່ດີກວ່າທີ່
ຄ່າໃຊ້ຈ່າຍຂອງເວລາຄົ້ນຫາທີ່ຍາວກວ່າ. ຄ່າເລີ່ມຕົ້ນໄດ້ຖືກເລືອກເພື່ອໃຫ້ເປັນທີ່ເຂັ້ມແຂງ, ໃຫ້
ເຖິງແມ່ນວ່າການປະຕິບັດໃນທົ່ວບັນຫາຫຼາຍ. ທາງເລືອກທີ່ເປັນຄ່າເລີ່ມຕົ້ນອາດຈະດີກວ່າ
ບາງບັນຫາ, ແຕ່ອາດຈະເຮັດໃຫ້ຄົນອື່ນຮ້າຍແຮງກວ່າເກົ່າ.
"converge_search_3" ໃຊ້ເງື່ອນໄຂການຢຸດເຊົາຢ່າງແທ້ຈິງ (rel_delta_range, ຄ່າເລີ່ມຕົ້ນຂອງ
0.0025) ເຊິ່ງທົດສອບການປ່ຽນແປງຂອງແຕ່ລະຊັ້ນຂອງ delta ຂອງບັນທຶກໂດຍປະມານ-
marginal-likelihood ຂອງສະຖິຕິຊັ້ນຮຽນໂດຍເຄົາລົບ-ການສົມມຸດຕິຖານຂອງຫ້ອງຮຽນ
(class->log_a_w_s_h_j) ແບ່ງດ້ວຍນ້ຳໜັກຂອງຊັ້ນຮຽນ (class->w_j) ລະຫວ່າງຕົວຕໍ່ໆກັນ
ຮອບວຽນລວມກັນ. ການເພີ່ມຂຶ້ນຄ່ານີ້ເຮັດໃຫ້ການຫຼຸດລົງແລະຫຼຸດຜ່ອນຈໍານວນ
ຂອງຮອບວຽນ. ການຫຼຸດລົງມູນຄ່ານີ້ tightens convergence ແລະເພີ່ມຈໍານວນຂອງ
ຮອບວຽນ. n_ສະເລ່ຍ (ຄ່າເລີ່ມຕົ້ນຂອງ 3) ລະບຸຈຳນວນຮອບວຽນຕໍ່ເນື່ອງຕ້ອງຕອບສະໜອງໄດ້
ການຢຸດຕິເກນກ່ອນທີ່ການທົດລອງຈະສິ້ນສຸດລົງ.
"converge_search_4" ໃຊ້ເງື່ອນໄຂການຢຸດເຊົາຢ່າງແທ້ຈິງ (cs4_delta_range, ຄ່າເລີ່ມຕົ້ນຂອງ
0.0025) ເຊິ່ງການທົດສອບການປ່ຽນແປງຂອງແຕ່ລະຊັ້ນຂອງຄວາມຊັນສໍາລັບແຕ່ລະຊັ້ນຂອງບັນທຶກ
approximate-marginal-likelihood ຂອງສະຖິຕິຊັ້ນຮຽນດ້ວຍຄວາມເຄົາລົບຕໍ່ຊັ້ນຮຽນ
ສົມມຸດຕິຖານ (ຊັ້ນຮຽນ ->log_a_w_s_h_j) ແບ່ງດ້ວຍນ້ໍາຫນັກຊັ້ນ (ຊັ້ນຮຽນ -> w_j) ເກີນ
sigma_beta_n_values (ຄ່າເລີ່ມຕົ້ນ 6) ຮອບວຽນລວມ. ການເພີ່ມມູນຄ່າຂອງ
cs4_delta_range loosens convergence ແລະຫຼຸດຜ່ອນຈໍານວນຂອງຮອບວຽນ. ຫຼຸດລົງນີ້
ຄ່າ tightens ການ convergence ແລະເພີ່ມຈໍານວນຂອງຮອບວຽນ. ການຄິດໄລ່, ນີ້
ຟັງຊັນ try ແມ່ນລາຄາແພງກວ່າ "converge_search_3", ແຕ່ອາດຈະເປັນປະໂຫຍດຖ້າ
"ສິ່ງລົບກວນ" ຂອງການຄິດໄລ່ແມ່ນມີຄວາມສໍາຄັນເມື່ອທຽບກັບການປ່ຽນແປງຂອງຄ່າທີ່ຄິດໄລ່.
ການຄິດໄລ່ທີ່ສໍາຄັນແມ່ນເຮັດຢູ່ໃນຈຸດເລື່ອນຄວາມແມ່ນຍໍາສອງເທົ່າ, ແລະສໍາລັບຂໍ້ມູນທີ່ໃຫຍ່ທີ່ສຸດ
ພື້ນຖານທີ່ພວກເຮົາໄດ້ທົດສອບມາເຖິງຕອນນັ້ນ (5,420 ກໍລະນີຂອງ 93 ຄຸນລັກສະນະ), ສຽງລົບກວນຂອງຄອມພິວເຕີ້ບໍ່ໄດ້.
ເປັນບັນຫາ, ເຖິງແມ່ນວ່າມູນຄ່າຂອງ max_cycles ຈໍາເປັນຕ້ອງໄດ້ເພີ່ມຂຶ້ນເປັນ 400.
"converge" ໃຊ້ຫນຶ່ງໃນສອງເງື່ອນໄຂການຢຸດເຊົາຢ່າງແທ້ຈິງເຊິ່ງທົດສອບການປ່ຽນແປງຂອງ
ການຈັດປະເພດ (clsf) log_marginal (clsf->log_a_x_h) delta ລະຫວ່າງ convergence ຢ່າງຕໍ່ເນື່ອງ
ຮອບວຽນ. ທີ່ໃຫຍ່ທີ່ສຸດຂອງ ໄລຍະຢຸດ (ຄ່າເລີ່ມຕົ້ນ 0.5) ແລະ halt_factor *
current_clsf_log_marginal) ຖືກໃຊ້ (ຄ່າເລີ່ມຕົ້ນຂອງ halt_factor ແມ່ນ 0.0001). ເພີ່ມຂຶ້ນ
ຄຸນຄ່າເຫຼົ່ານີ້ loosens ການ convergence ແລະຫຼຸດຜ່ອນຈໍານວນຂອງຮອບວຽນ. ຫຼຸດລົງເຫຼົ່ານີ້
ຄຸນຄ່າທີ່ເຄັ່ງຄັດຂອງ convergence ແລະເພີ່ມຈໍານວນຂອງຮອບວຽນ. n_ສະເລ່ຍ (ຄ່າເລີ່ມຕົ້ນ
ຄ່າຂອງ 3) ກໍານົດຈໍານວນຮອບວຽນຕ້ອງຕອບສະຫນອງເງື່ອນໄຂການຢຸດເຊົາກ່ອນການທົດລອງ
ຢຸດຕິ. ນີ້ແມ່ນມາດຕະຖານການຢຸດໂດຍປະມານຫຼາຍ, ແຕ່ຈະໃຫ້ທ່ານມີຄວາມຮູ້ສຶກບາງ
ສໍາລັບປະເພດຂອງການຈັດປະເພດທີ່ຄາດຫວັງ. ມັນຈະເປັນປະໂຫຍດສໍາລັບການຄົ້ນຫາ "ການສໍາຫຼວດ".
ຂອງຖານຂໍ້ມູນ.
ຈຸດປະສົງຂອງ reconverge_type = "chkpt" ແມ່ນເພື່ອສໍາເລັດການຈັດປະເພດຂັດຂວາງໂດຍ
ສືບຕໍ່ຈາກດ່ານສຸດທ້າຍຂອງມັນ. ຈຸດປະສົງຂອງ reconverge_type = "ຜົນໄດ້ຮັບ" ແມ່ນເພື່ອ
ພະຍາຍາມປັບປຸງເພີ່ມເຕີມຂອງການຈັດປະເພດສໍາເລັດທີ່ດີທີ່ສຸດໂດຍໃຊ້ມູນຄ່າທີ່ແຕກຕ່າງກັນຂອງ
try_fn_type ("converge_search_3", "converge_search_4", "converge"). ຖ້າ ສູງສຸດ_n_ພະຍາຍາມ is
ຫຼາຍກ່ວາ 1, ຫຼັງຈາກນັ້ນ, ໃນແຕ່ລະກໍລະນີ, ຫຼັງຈາກ reconvergence ໄດ້ສໍາເລັດ, AutoClass ຈະ
ດໍາເນີນການທົດລອງຄົ້ນຫາຕື່ມອີກໂດຍອີງໃສ່ຄ່າພາລາມິເຕີໃນໄຟລ໌ <...>.s-params.
ດ້ວຍການ ນຳ ໃຊ້ reconverge_type (ຄ່າເລີ່ມຕົ້ນ ""), ທ່ານອາດຈະນໍາໃຊ້ຫຼາຍກວ່າຫນຶ່ງພະຍາຍາມ
ປະຕິບັດຫນ້າທີ່ການຈັດປະເພດ. ເວົ້າວ່າທ່ານສ້າງການທົດລອງການສໍາຫຼວດຫຼາຍໆຄັ້ງໂດຍໃຊ້
try_fn_type = "converge", ແລະອອກຈາກການຄົ້ນຫາທີ່ບັນທຶກໄຟລ໌ .search ແລະ .results[-bin].
ຈາກນັ້ນທ່ານສາມາດເລີ່ມຕົ້ນການຄົ້ນຫາອື່ນດ້ວຍ try_fn_type = "converge_search_3", reconverge_type
= "ຜົນໄດ້ຮັບ", ແລະ ສູງສຸດ_n_ພະຍາຍາມ = 1. ນີ້ຈະສົ່ງຜົນໃຫ້ເກີດການລວມກັນຂອງສິ່ງທີ່ດີທີ່ສຸດ
ການຈັດປະເພດທີ່ສ້າງຂຶ້ນດ້ວຍ try_fn_type = "converge", ກັບ try_fn_type =
"converge_search_3". ເມື່ອໃດ AutoClass ສໍາເລັດຄວາມພະຍາຍາມຄົ້ນຫານີ້, ທ່ານຈະມີ
ການຈັດປະເພດທີ່ຫລອມໂລຫະເພີ່ມເຕີມ.
ເປັນວິທີທີ່ດີທີ່ຈະກວດສອບວ່າອັນໃດອັນໜຶ່ງຂອງຕົວສຳຮອງ try_fun_type ກໍາລັງສ້າງນໍ້າສ້າງ
ການຈັດປະເພດ converged ແມ່ນເພື່ອດໍາເນີນການ AutoClass ໃນຮູບແບບການຄາດເດົາກ່ຽວກັບຂໍ້ມູນດຽວກັນທີ່ໃຊ້ສໍາລັບ
ການສ້າງການຈັດປະເພດ. ຈາກນັ້ນສ້າງ ແລະປຽບທຽບກໍລະນີ ຫຼືຊັ້ນຮຽນທີ່ສອດຄ້ອງກັນ
ໄຟລ໌ອ້າງອີງຂ້າມສໍາລັບການຈັດປະເພດຕົ້ນສະບັບແລະການຄາດຄະເນ. ຂະຫນາດນ້ອຍ
ຄວາມແຕກຕ່າງລະຫວ່າງໄຟລ໌ເຫຼົ່ານີ້ແມ່ນຄາດວ່າຈະມີ, ໃນຂະນະທີ່ຄວາມແຕກຕ່າງຂະຫນາດໃຫຍ່ຊີ້ໃຫ້ເຫັນ
convergence ບໍ່ສົມບູນ. ຄວາມແຕກຕ່າງລະຫວ່າງຄູ່ໄຟລ໌ດັ່ງກ່າວຄວນ, ໂດຍສະເລ່ຍແລະໂມດູໂລ
ການລຶບຫ້ອງຮຽນ, ຫຼຸດລົງ monotonically ກັບ convergence ຕື່ມອີກ.
ວິທີການມາດຕະຖານເພື່ອສ້າງການຈັດປະເພດແບບສຸ່ມເພື່ອເລີ່ມຕົ້ນການທົດລອງແມ່ນຢູ່ກັບຄ່າເລີ່ມຕົ້ນ
ຄ່າຂອງ "ສຸ່ມ" ສໍາລັບ start_fn_type. ໃນຈຸດນີ້, ບໍ່ມີທາງເລືອກອື່ນ. ການລະບຸ
"ຕັນ" ສໍາລັບ start_fn_type ຜະລິດການຄົ້ນຫາທີ່ບໍ່ສຸ່ມຊ້ຳໆ. ນັ້ນແມ່ນວິທີການ
ໄຟລ໌ <..>.s-params ໃນ autoclass-c/data/.. ໄດເລກະທໍລີຍ່ອຍຖືກລະບຸ. ນີ້ແມ່ນວິທີການ
ການທົດສອບການພັດທະນາແມ່ນເຮັດແລ້ວ.
max_cycles ຄວບຄຸມຈໍານວນສູງສຸດຂອງຮອບວຽນ convergence ທີ່ຈະປະຕິບັດໃນໃດໆ
ການທົດລອງຫນຶ່ງໂດຍຫນ້າທີ່ convergence. ຄ່າເລີ່ມຕົ້ນຂອງມັນແມ່ນ 200. ຜົນຜະລິດຫນ້າຈໍ
ສະແດງໃຫ້ເຫັນໄລຍະເວລາ (".") ສໍາລັບແຕ່ລະວົງຈອນສໍາເລັດ. ຖ້າຫາກວ່າການທົດລອງການຊອກຫາຂອງທ່ານດໍາເນີນການສໍາລັບ 200 ຮອບວຽນ,
ຫຼັງຈາກນັ້ນທັງຖານຂໍ້ມູນຂອງທ່ານແມ່ນຊັບຊ້ອນຫຼາຍ (ເພີ່ມມູນຄ່າ), ຫຼື try_fn_type ບໍ່ແມ່ນ
ພຽງພໍກັບສະຖານະການ (ລອງໃຊ້ອັນອື່ນທີ່ມີ, ແລະໃຊ້ converge_print_p ໄດ້ຮັບ
ຂໍ້ມູນເພີ່ມເຕີມກ່ຽວກັບສິ່ງທີ່ເກີດຂຶ້ນ).
ການລະບຸ converge_print_p ຄວາມຈິງຈະສ້າງການພິມອອກໂດຍຫຍໍ້ສໍາລັບແຕ່ລະວົງຈອນ
ເຊິ່ງຈະໃຫ້ຂໍ້ມູນເພື່ອໃຫ້ທ່ານສາມາດດັດແປງຄ່າເລີ່ມຕົ້ນຂອງ
rel_delta_range & n_ສະເລ່ຍ ສໍາລັບ "converge_search_3"; cs4_delta_range & sigma_beta_n_values
ສໍາລັບ "converge_search_4"; ແລະ ໄລຍະຢຸດ, halt_factor, ແລະ n_ສະເລ່ຍ ສໍາລັບ "converge". ຂອງພວກເຂົາ
ຄ່າເລີ່ມຕົ້ນແມ່ນໃຫ້ຢູ່ໃນໄຟລ໌ <..>.s-params ໃນ autoclass-c/data/.. sub-
ລາຍການ.
ວິທີການ ຫຼາຍ ຫ້ອງຮຽນ?
ການພະຍາຍາມໃໝ່ແຕ່ລະຄັ້ງເລີ່ມຕົ້ນດ້ວຍຈໍານວນຫ້ອງຮຽນທີ່ແນ່ນອນ ແລະອາດຈະຈົບລົງດ້ວຍຕົວເລກທີ່ນ້ອຍກວ່າ,
ເນື່ອງຈາກວ່າບາງຫ້ອງຮຽນອາດຈະລຸດອອກຈາກ convergence. ໂດຍທົ່ວໄປ, ທ່ານຕ້ອງການເລີ່ມຕົ້ນການທົດລອງ
ກັບຈໍານວນຫ້ອງຮຽນຈໍານວນຫນຶ່ງທີ່ຄວາມພະຍາຍາມທີ່ຜ່ານມາໄດ້ຊີ້ໃຫ້ເຫັນເບິ່ງດີ, ແລະທ່ານ
ຕ້ອງການໃຫ້ແນ່ໃຈວ່າທ່ານກໍາລັງຫາປາຢູ່ບ່ອນອື່ນໃນກໍລະນີທີ່ທ່ານພາດບາງສິ່ງບາງຢ່າງກ່ອນ.
n_classes_fn_type = "random_ln_normal" ແມ່ນວິທີເລີ່ມຕົ້ນເພື່ອເຮັດໃຫ້ທາງເລືອກນີ້. ມັນເຫມາະກັບ a
ບັນທຶກປົກກະຕິກັບຈໍານວນຫ້ອງຮຽນ (ປົກກະຕິແລ້ວເອີ້ນວ່າ "j" ສໍາລັບສັ້ນ) ຂອງ 10 ທີ່ດີທີ່ສຸດ
ການຈັດປະເພດທີ່ພົບເຫັນມາເຖິງຕອນນັ້ນ, ແລະເລືອກແບບສຸ່ມຈາກນັ້ນ. ໃນປັດຈຸບັນບໍ່ມີ
ທາງເລືອກ.
ເພື່ອເລີ່ມເກມປິດ, ຄ່າເລີ່ມຕົ້ນແມ່ນຈະລົງ start_j_list ສໍາລັບສອງສາມພະຍາຍາມທໍາອິດ, ແລະ
ຫຼັງຈາກນັ້ນປ່ຽນ n_classes_fn_type. ຖ້າຫາກວ່າທ່ານເຊື່ອວ່າຈໍານວນອາດຈະເປັນຂອງຫ້ອງຮຽນໃນ
ຖານຂໍ້ມູນຂອງທ່ານແມ່ນເວົ້າວ່າ 75, ຫຼັງຈາກນັ້ນແທນທີ່ຈະໃຊ້ຄ່າເລີ່ມຕົ້ນຂອງ start_j_list (2, 3, ທ.
5, 7, 10, 15, 25), ລະບຸບາງອັນເຊັ່ນ: 50, 60, 70, 80, 90, 100.
ຖ້າໃຜຕ້ອງການຊອກຫາສະເຫມີ, ເວົ້າວ່າ, ສາມຫ້ອງຮຽນ, ຫນຶ່ງສາມາດໃຊ້ fixed_j ແລະ override ໄດ້
ຂ້າງເທິງ. ບົດລາຍງານສະຖານະການຄົ້ນຫາຈະອະທິບາຍວ່າວິທີການປະຈຸບັນສໍາລັບການເລືອກ j ແມ່ນຫຍັງ.
DO I ມີ ພຽງພໍ ຫນ່ວຍຄວາມຈໍາ ແລະ ຈານ ຊ່ອງ?
ພາຍໃນ, ຄວາມຕ້ອງການເກັບຮັກສາໃນລະບົບປະຈຸບັນແມ່ນຄໍາສັ່ງ n_classes_per_clsf
* (n_data + n_stored_clsfs * n_attributes * n_attribute_values). ນີ້ແມ່ນຂຶ້ນກັບ
ຈຳນວນກໍລະນີ, ຈຳນວນຄຸນສົມບັດ, ຄ່າຕໍ່ຄຸນລັກສະນະ (ໃຊ້ 2 ຖ້າເປັນຈິງ
value), ແລະຈໍານວນຂອງການຈັດປະເພດເກັບຮັກສາໄວ້ຫ່າງສໍາລັບການປຽບທຽບເພື່ອເບິ່ງວ່າຄົນອື່ນແມ່ນ
ຊໍ້າກັນ - ຄວບຄຸມໂດຍ max_n_store (ຄ່າເລີ່ມຕົ້ນ = 10). ຂະບວນການຄົ້ນຫາບໍ່ໄດ້
ຕົວຂອງມັນເອງບໍລິໂພກຄວາມຊົງຈໍາທີ່ສໍາຄັນ, ແຕ່ການເກັບຮັກສາຜົນໄດ້ຮັບອາດຈະເຮັດແນວນັ້ນ.
AutoClass C ຖືກຕັ້ງຄ່າເພື່ອຈັດການສູງສຸດ 999 ຄຸນລັກສະນະ. ຖ້າເຈົ້າພະຍາຍາມແລ່ນ
ຫຼາຍກວ່ານັ້ນ, ທ່ານຈະໄດ້ຮັບການລະເມີດ array bound. ໃນກໍລະນີດັ່ງກ່າວນີ້, ການປ່ຽນແປງເຫຼົ່ານີ້
ຕົວກໍານົດການກໍາຫນົດຄ່າໃນ prog/autoclass.h ແລະ recompile AutoClass C:
#define ALL_ATTRIBUTES 999
#define VERY_LONG_STRING_LENGTH 20000
#define VERY_LONG_TOKEN_LENGTH 500
ຕົວຢ່າງ, ຄ່າເຫຼົ່ານີ້ຈະຈັດການຫຼາຍພັນຄຸນລັກສະນະ:
#define ALL_ATTRIBUTES 9999
#define VERY_LONG_STRING_LENGTH 50000
#define VERY_LONG_TOKEN_LENGTH 50000
ພື້ນທີ່ດິດຖືກເອົາຂຶ້ນໂດຍໄຟລ໌ "ບັນທຶກ" ແນ່ນອນຈະຂຶ້ນກັບໄລຍະເວລາຂອງການຄົ້ນຫາ.
n_save (ຄ່າເລີ່ມຕົ້ນ = 2) ກໍານົດວິທີການຈໍາແນກທີ່ດີທີ່ສຸດໄດ້ຖືກບັນທຶກໄວ້ໃນ
".results[-bin]" ໄຟລ໌. save_compact_p ຄວບຄຸມວ່າ "ຜົນໄດ້ຮັບ" ແລະ "ຈຸດກວດກາ"
ໄຟລ໌ຖືກບັນທຶກເປັນ binary. ໄຟລ໌ຖານສອງແມ່ນໄວແລະຫນາແຫນ້ນຫຼາຍ, ແຕ່ບໍ່ແມ່ນ
ແບບພົກພາ. ຄ່າເລີ່ມຕົ້ນຂອງ save_compact_p ເປັນຄວາມຈິງ, ເຊິ່ງເຮັດໃຫ້ໄຟລ໌ໄບນາຣີເປັນ
ຂຽນ.
ຖ້າເວລາທີ່ຈະບັນທຶກໄຟລ໌ "ຜົນໄດ້ຮັບ" ມີບັນຫາ, ພິຈາລະນາເພີ່ມຂຶ້ນ
min_save_period (ຄ່າເລີ່ມຕົ້ນ = 1800 ວິນາທີ ຫຼື 30 ນາທີ). ໄຟລ໌ຖືກບັນທຶກໄວ້ໃນແຜ່ນ
ນີ້ເລື້ອຍໆຖ້າມີສິ່ງທີ່ແຕກຕ່າງກັນທີ່ຈະລາຍງານ.
ພຽງແຕ່ ວິທີການ ຊ້າ IS ໄອທີບໍ?
ເວລາຄິດໄລ່ແມ່ນເປັນຄໍາສັ່ງ n_data * n_attributes * n_classes * n_tries *
converge_cycles_per_try. ຄວາມບໍ່ແນ່ນອນທີ່ສໍາຄັນໃນນີ້ແມ່ນຈໍານວນຂອງກັບຄືນໄປບ່ອນພື້ນຖານແລະ
ຮອບວຽນຕໍ່ໄປຈົນກ່ວາ convergence ໃນແຕ່ລະພະຍາຍາມ, ແລະແນ່ນອນຈໍານວນຂອງຄວາມພະຍາຍາມ. ຈໍານວນ
ຂອງຮອບວຽນຕໍ່ການທົດລອງແມ່ນປົກກະຕິ 10-100 ສໍາລັບ try_fn_type "converge", ແລະ 10-200+ ສໍາລັບ
"converge_search_3" ແລະ "converge_search-4". ຈໍານວນສູງສຸດແມ່ນກໍານົດໂດຍ
ສູງສຸດ_n_ພະຍາຍາມ (ຄ່າເລີ່ມຕົ້ນ = 200). ຈໍານວນການທົດລອງແມ່ນຂຶ້ນກັບທ່ານແລະທີ່ມີຢູ່ຂອງທ່ານ
ຊັບພະຍາກອນຄອມພິວເຕີ.
ເວລາແລ່ນຂອງຊຸດຂໍ້ມູນຂະຫນາດໃຫຍ່ຫຼາຍຈະບໍ່ແນ່ນອນ. ພວກເຮົາແນະນໍາວ່າຈໍານວນຫນ້ອຍ
ການທົດສອບຂະໜາດນ້ອຍຈະດໍາເນີນຢູ່ໃນລະບົບຂອງເຈົ້າເພື່ອກໍານົດເສັ້ນພື້ນຖານ. ລະບຸ n_data to
ຈໍາກັດຈໍານວນ vectors ຂໍ້ມູນຖືກອ່ານ. ເນື່ອງຈາກຂໍ້ມູນຈໍານວນຫຼວງຫຼາຍ, AutoClass ອາດຈະ
ຊອກຫາການຈັດປະເພດທີ່ເປັນໄປໄດ້ທີ່ສຸດຂອງຕົນຢູ່ທີ່ສູງກວ່າຂອງຮ້ອຍຫ້ອງຮຽນ, ແລະນີ້ຈະ
ຮຽກຮ້ອງໃຫ້ມີວ່າ start_j_list ໄດ້ຮັບການລະບຸຢ່າງເຫມາະສົມ (ເບິ່ງພາກສ່ວນຂ້າງເທິງ ວິທີການ ຫຼາຍ
ຫ້ອງຮຽນ?). ຖ້າຫາກວ່າທ່ານມີຄວາມແນ່ນອນວ່າທ່ານຕ້ອງການພຽງແຕ່ສອງສາມຫ້ອງຮຽນ, ທ່ານສາມາດບັງຄັບ
AutoClass ເພື່ອຄົ້ນຫາດ້ວຍຈໍານວນຫ້ອງຮຽນຄົງທີ່ທີ່ລະບຸໄວ້ໂດຍ fixed_j. ຫຼັງຈາກນັ້ນທ່ານຈະ
ຈໍາເປັນຕ້ອງດໍາເນີນການຄົ້ນຫາແຍກຕ່າງຫາກທີ່ມີແຕ່ລະປະເພດຄົງທີ່ທີ່ແຕກຕ່າງກັນ.
ການປ່ຽນແປງ FILENAMES IN A ບັນທຶກໄວ້ CLASSIFICATION ເອກະສານ
AutoClass cache ຂໍ້ມູນ, header, ແລະ model filenames ໃນການຈັດປະເພດທີ່ບັນທຶກໄວ້
ໂຄງສ້າງຂອງໄບນາຣີ (.results-bin") ຫຼືໄຟລ໌ ASCII (.results") "ຜົນໄດ້ຮັບ". ຖ້າ
ໄຟລ໌ "ຜົນໄດ້ຮັບ" ແລະ "ຄົ້ນຫາ" ຖືກຍ້າຍໄປບ່ອນອື່ນ, ການຄົ້ນຫາ
ບໍ່ສາມາດຣີສະຕາດໄດ້ສຳເລັດຖ້າທ່ານໄດ້ໃຊ້ຊື່ເສັ້ນທາງຢ່າງແທ້ຈິງ. ດັ່ງນັ້ນຈຶ່ງເປັນ
ປະໂຫຍດທີ່ຈະດໍາເນີນການ invoke AutoClass ໃນໄດເລກະທໍລີຫຼັກຂອງຂໍ້ມູນ, ສ່ວນຫົວ, ແລະຕົວແບບ
ໄຟລ໌, ດັ່ງນັ້ນຊື່ເສັ້ນທາງທີ່ກ່ຽວຂ້ອງສາມາດຖືກນໍາໃຊ້. ນັບຕັ້ງແຕ່ຊື່ເສັ້ນທາງທີ່ເກັບໄວ້ໃນຖານຄວາມຈໍາຫຼັງຈາກນັ້ນຈະເປັນ
ພີ່ນ້ອງ, ໄຟລ໌ສາມາດຖືກຍ້າຍໄປທີ່ໂຮດອື່ນຫຼືລະບົບໄຟລ໌ແລະ restarted --
ການຈັດລຽງລຳດັບຊື່ເສັ້ນທາງທີ່ກ່ຽວຂ້ອງກັນມີຢູ່.
ຢ່າງໃດກໍຕາມ, ເນື່ອງຈາກໄຟລ໌ ".results" ເປັນຂໍ້ຄວາມ ASCII, ຊື່ເສັ້ນທາງເຫຼົ່ານັ້ນສາມາດຖືກປ່ຽນດ້ວຍ a
ຕົວແກ້ໄຂຂໍ້ຄວາມ (save_compact_p ຕ້ອງໄດ້ຮັບການລະບຸວ່າເປັນ false).
ຄົ້ນຫາ PARAMETERS
ການຄົ້ນຫາຖືກຄວບຄຸມໂດຍໄຟລ໌ ".s-params". ໃນໄຟລ໌ນີ້, ເສັ້ນຫວ່າງຫຼືເສັ້ນ
ເລີ່ມຕົ້ນດ້ວຍຕົວລະຄອນໃດໜຶ່ງເຫຼົ່ານີ້ຖືກປະຕິບັດເປັນຄໍາຄິດເຫັນ: "#", "!", ຫຼື ";". ໄດ້
ຊື່ພາລາມິເຕີແລະຄ່າຂອງມັນສາມາດຖືກແຍກອອກດ້ວຍເຄື່ອງຫມາຍເທົ່າທຽມກັນ, ຊ່ອງຫວ່າງ, ຫຼືແຖບ:
n_clsfs 1
n_clsfs = 1
n_clsfs 1
ຊ່ອງຫວ່າງຖືກລະເລີຍຖ້າ "=" ຫຼື " " ຖືກໃຊ້ເປັນຕົວແຍກ. ໝາຍເຫດວ່າບໍ່ມີການຕໍ່ທ້າຍ
ຈໍ້າຈຸດ.
ຕົວກໍານົດການຊອກຫາ, ທີ່ມີຄ່າເລີ່ມຕົ້ນຂອງພວກມັນ, ມີດັ່ງນີ້:
rel_error = 0.01
ລະບຸການວັດແທກຄວາມແຕກຕ່າງຂອງພີ່ນ້ອງທີ່ໃຊ້ໂດຍ clsf-DS-%=, ເມື່ອຕັດສິນໃຈວ່າ a
clsf ໃຫມ່ແມ່ນຊ້ໍາກັນຂອງອັນເກົ່າ.
start_j_list = 2, 3, 5, 7, 10, 15, 25
ໃນເບື້ອງຕົ້ນພະຍາຍາມຈໍານວນຊັ້ນຮຽນເຫຼົ່ານີ້, ເພື່ອບໍ່ໃຫ້ການຄົ້ນຫາແຄບເກີນໄປ.
ສະຖານະຂອງລາຍຊື່ນີ້ຖືກບັນທຶກໄວ້ໃນໄຟລ໌ <..>.search ແລະໃຊ້ໃນການຣີສະຕາດ,
ເວັ້ນ ເສຍ ແຕ່ ຂໍ້ ກໍາ ນົດ override ຂອງ start_j_list ແມ່ນເຮັດຢູ່ໃນໄຟລ໌ .s-params ສໍາລັບ
restart ແລ່ນ. ບັນຊີລາຍຊື່ນີ້ຄວນຈະວົງເລັບຈໍານວນທີ່ຄາດໄວ້ຂອງຫ້ອງຮຽນ, ແລະໂດຍ
ຂອບກ້ວາງ! "start_j_list = -999" ລະບຸລາຍຊື່ຫວ່າງເປົ່າ (ອະນຸຍາດສະເພາະໃນ
ຣີສະຕາດ)
n_classes_fn_type = "random_ln_normal"
ເມື່ອໃດທີ່ start_j_list ໝົດແລ້ວ, AutoClass ຈະເອີ້ນຟັງຊັນນີ້ເພື່ອຕັດສິນໃຈວ່າແນວໃດ
ຫ້ອງຮຽນຈໍານວນຫຼາຍທີ່ຈະເລີ່ມຕົ້ນດ້ວຍຄວາມພະຍາຍາມຕໍ່ໄປ, ໂດຍອີງໃສ່ 10 ການຈັດປະເພດທີ່ດີທີ່ສຸດ
ພົບເຫັນມາເຖິງຕອນນັ້ນ. ໃນປັດຈຸບັນມີພຽງແຕ່ "random_ln_normal" ເທົ່ານັ້ນ.
fixed_j = 0
ເມື່ອໃດ fixed_j > 0, overrides start_j_list ແລະ n_classes_fn_type, ແລະ AutoClass ຈະ
ສະເຫມີໃຊ້ຄ່ານີ້ສໍາລັບຈໍານວນຊັ້ນຮຽນເບື້ອງຕົ້ນ.
min_report_period = 30
ລໍຖ້າຢ່າງຫນ້ອຍເວລານີ້ (ເປັນວິນາທີ) ນັບຕັ້ງແຕ່ບົດລາຍງານທີ່ຜ່ານມາຈົນກ່ວາການລາຍງານ verbosely
ອີກເທື່ອຫນຶ່ງ. ຄວນຖືກຕັ້ງໄວ້ດົນກວ່າເວລາແລ່ນທີ່ຄາດໄວ້ໃນເວລາກວດສອບ
ການເຮັດເລື້ມຄືນຂອງຜົນໄດ້ຮັບ. ສໍາລັບຜົນໄດ້ຮັບຊ້ໍາອີກ, ເບິ່ງ force_new_search_p,
start_fn_type ແລະ randomize_random_p. ຫມາຍເຫດ: ຢ່າງໜ້ອຍໜຶ່ງໃນ "interactive_p",
"max_duration", ແລະ "max_n_tries" ຈະຕ້ອງມີການເຄື່ອນໄຫວ. ຖ້າບໍ່ດັ່ງນັ້ນ AutoClass ຈະດໍາເນີນການ
ຢ່າງບໍ່ມີກຳນົດ. ເບິ່ງຂ້າງລຸ່ມນີ້.
interactive_p = ຈິງ
ເມື່ອເປັນຜິດ, ອະນຸຍາດໃຫ້ດໍາເນີນການຕໍ່ໄປຈົນກ່ວາການຢຸດເຊົາຖ້າບໍ່ດັ່ງນັ້ນ. ເມື່ອເປັນຄວາມຈິງ, ມາດຕະຖານ
ການປ້ອນຂໍ້ມູນຖືກສອບຖາມໃນແຕ່ລະຮອບສໍາລັບຕົວ quit "q", ເຊິ່ງ, ເມື່ອກວດພົບ,
ເຮັດໃຫ້ເກີດການຢຸດເຊົາໃນທັນທີ.
ໄລຍະເວລາສູງສຸດ = 0
ເມື່ອ = 0, ອະນຸຍາດໃຫ້ດໍາເນີນການຕໍ່ໄປຈົນກ່ວາຢຸດເຊົາຖ້າບໍ່ດັ່ງນັ້ນ. ເມື່ອ > 0, ລະບຸ
ຈໍານວນສູງສຸດຂອງວິນາທີທີ່ຈະດໍາເນີນການ.
ສູງສຸດ_n_ພະຍາຍາມ = 0
ເມື່ອ = 0, ອະນຸຍາດໃຫ້ດໍາເນີນການຕໍ່ໄປຈົນກ່ວາຢຸດເຊົາຖ້າບໍ່ດັ່ງນັ້ນ. ເມື່ອ > 0, ລະບຸ
ຈໍານວນສູງສຸດຂອງຄວາມພະຍາຍາມເພື່ອເຮັດໃຫ້.
n_save = 2
ບັນທຶກ clsfs ຈໍານວນຫຼາຍນີ້ໃສ່ແຜ່ນໃນໄຟລ໌ .results[-bin] ແລະ .search. ຖ້າ 0, ຢ່າ
ບັນທຶກອັນໃດກໍໄດ້ (ບໍ່ມີໄຟລ໌ .search & .results[-bin]).
log_file_p = ຈິງ
ຖ້າຜິດ, ຢ່າຂຽນບັນທຶກ.
search_file_p = ຈິງ
ຖ້າບໍ່ຖືກຕ້ອງ, ຢ່າຂຽນເອກະສານຄົ້ນຫາ.
results_file_p = ຈິງ
ຖ້າຜິດ, ຢ່າຂຽນໄຟລ໌ຜົນໄດ້ຮັບ.
min_save_period = 1800
ປ້ອງກັນການຂັດຂ້ອງຂອງ CPU. ນີ້ກໍານົດເວລາສູງສຸດ, ໃນວິນາທີ, ນັ້ນ AutoClass
ຈະດໍາເນີນການກ່ອນທີ່ມັນຈະບັນທຶກຜົນໄດ້ຮັບໃນປະຈຸບັນໃສ່ແຜ່ນດິດ. ເວລາເລີ່ມຕົ້ນແມ່ນ 30
ນາທີ.
max_n_store = 10
ລະບຸຈໍານວນການຈັດປະເພດສູງສຸດທີ່ເກັບໄວ້ພາຍໃນ.
n_final_summary = 10
ລະບຸຈໍານວນການທົດລອງທີ່ຈະພິມອອກຫຼັງຈາກສິ້ນສຸດການຄົ້ນຫາ.
start_fn_type = "ສຸ່ມ"
ຫນຶ່ງໃນ {"random", "block"}. ນີ້ລະບຸປະເພດຂອງການເລີ່ມຕົ້ນຊັ້ນຮຽນ. ສໍາລັບ
ການຄົ້ນຫາແບບປົກກະຕິ, ໃຊ້ "ສຸ່ມ", ເຊິ່ງເລືອກຕົວຢ່າງແບບສຸ່ມເປັນຊັ້ນຮຽນເບື້ອງຕົ້ນ
ຫມາຍຄວາມວ່າ, ແລະເພີ່ມຄວາມແຕກຕ່າງກັນທີ່ເຫມາະສົມ. ສໍາລັບການທົດສອບກັບການຄົ້ນຫາຊ້ໍາກັນ, ໃຊ້
"block", ເຊິ່ງແບ່ງສ່ວນຖານຂໍ້ມູນເຂົ້າໄປໃນຕັນຢ່າງຕໍ່ເນື່ອງຂອງຂະຫນາດເທົ່າທຽມກັນ.
ສໍາລັບຜົນໄດ້ຮັບຊ້ໍາອີກ, ເບິ່ງ force_new_search_p, min_report_period, ແລະ
randomize_random_p.
try_fn_type = "converge_search_3"
ໜຶ່ງໃນ {"converge_search_3", "converge_search_4", "converge"}. ເຫຼົ່ານີ້ລະບຸ
ເງື່ອນໄຂການຢຸດການຊອກຫາສະລັບກັນ. "converge" ພຽງແຕ່ທົດສອບອັດຕາການປ່ຽນແປງຂອງ
ຄວາມເປັນໄປໄດ້ການຈັດປະເພດ log_marginal (clsf->log_a_x_h), ໂດຍບໍ່ມີການກວດສອບ
ອັດຕາການປ່ຽນແປງຂອງແຕ່ລະຊັ້ນຮຽນ (ເບິ່ງ ໄລຍະຢຸດ ແລະ halt_factor).
"converge_search_3" ແລະ "converge_search_4" ແຕ່ລະຕິດຕາມອັດຕາສ່ວນ
class->log_a_w_s_h_j/class->w_j ສໍາລັບທຸກຊັ້ນຮຽນ, ແລະສືບຕໍ່ convergence ຈົນກ່ວາທັງຫມົດ.
ຜ່ານເງື່ອນໄຂຂອງ quiescence n_ສະເລ່ຍ ຮອບວຽນ. ການທົດສອບ "converge_search_3".
ຄວາມແຕກຕ່າງລະຫວ່າງວົງຈອນການລວມເຂົ້າກັນຢ່າງຕໍ່ເນື່ອງ (ເບິ່ງ rel_delta_range) ນີ້
ສະຫນອງເງື່ອນໄຂການຢຸດເຊົາຈຸດປະສົງທົ່ວໄປທີ່ສົມເຫດສົມຜົນ. "converge_search_4"
ສະເລ່ຍອັດຕາສ່ວນຫຼາຍກວ່າ "sigma_beta_n_values" ຮອບວຽນ (ເບິ່ງ cs4_delta_range) ນີ້
ເປັນທີ່ຕ້ອງການເມື່ອ converge_search_3 ຜະລິດຫຼາຍຊັ້ນຮຽນທີ່ຄ້າຍຄືກັນ.
initial_cycles_p = ຈິງ
ຖ້າຖືກຕ້ອງ, ປະຕິບັດ base_cycle ໃນ initialize_parameters. false ແມ່ນໃຊ້ພຽງແຕ່ສໍາລັບ
ການທົດສອບ.
save_compact_p = ຈິງ
true ບັນທຶກການຈັດປະເພດເປັນຖານສອງທີ່ຂຶ້ນກັບເຄື່ອງຈັກ (.results-bin & .chkpt-bin).
ບັນທຶກທີ່ບໍ່ຖືກຕ້ອງເປັນຂໍ້ຄວາມ ascii (. ຜົນໄດ້ຮັບ & .chkpt)
read_compact_p = ຈິງ
true ອ່ານການຈັດປະເພດເປັນ binary ທີ່ຂຶ້ນກັບເຄື່ອງຈັກ (.results-bin & .chkpt-bin).
false ອ່ານເປັນຂໍ້ຄວາມ ascii (.results & .chkpt).
randomize_random_p = ຈິງ
ເມັດທີ່ບໍ່ຖືກຕ້ອງ lrand48, ການທໍາງານຂອງຕົວເລກ pseudo-random ກັບ 1 ເພື່ອໃຫ້ສາມາດຊ້ໍາໄດ້
ກໍລະນີທົດສອບ. true ໃຊ້ໂມງເວລາທົ່ວໄປເປັນເມັດພັນ, ໃຫ້ເຄິ່ງສຸ່ມ
ຄົ້ນຫາ. ສໍາລັບຜົນໄດ້ຮັບຊ້ໍາອີກ, ເບິ່ງ force_new_search_p, min_report_period
ແລະ start_fn_type.
n_data = 0
ດ້ວຍ n_data = 0, ຖານຂໍ້ມູນທັງຫມົດຖືກອ່ານຈາກ .db2. ດ້ວຍ n_data > 0, ພຽງແຕ່ນີ້
ຈໍານວນຂໍ້ມູນຖືກອ່ານ.
ໄລຍະຢຸດ = 0.5
ຜ່ານໄປ try_fn_type "converge". ດ້ວຍ "converge" try_fn_type, convergence ແມ່ນ
ຢຸດໃນເວລາທີ່ຂະຫນາດໃຫຍ່ຂອງ halt_range ແລະ (halt_factor * current_log_marginal)
ເກີນຄວາມແຕກຕ່າງລະຫວ່າງຄ່າຂອງວົງຈອນຕໍ່ເນື່ອງຂອງການຈັດປະເພດ
log_marginal (clsf->log_a_x_h). ການຫຼຸດລົງຂອງມູນຄ່ານີ້ອາດຈະເຮັດໃຫ້ convergence ເຄັ່ງຄັດ
ແລະເພີ່ມຈໍານວນຂອງຮອບວຽນ.
halt_factor = 0.0001
ຜ່ານໄປ try_fn_type "converge". ດ້ວຍ "converge" try_fn_type, convergence ແມ່ນ
ຢຸດໃນເວລາທີ່ຂະຫນາດໃຫຍ່ຂອງ halt_range ແລະ (halt_factor * current_log_marginal)
ເກີນຄວາມແຕກຕ່າງລະຫວ່າງຄ່າຂອງວົງຈອນຕໍ່ເນື່ອງຂອງການຈັດປະເພດ
log_marginal (clsf->log_a_x_h). ການຫຼຸດລົງຂອງມູນຄ່ານີ້ອາດຈະເຮັດໃຫ້ convergence ເຄັ່ງຄັດ
ແລະເພີ່ມຈໍານວນຂອງຮອບວຽນ.
rel_delta_range = 0.0025
ຜ່ານການລອງຟັງຊັນ "converge_search_3", ເຊິ່ງຕິດຕາມອັດຕາສ່ວນຂອງບັນທຶກປະມານ-
marginal-likelihood ຂອງສະຖິຕິຊັ້ນຮຽນໂດຍເຄົາລົບ-ການສົມມຸດຕິຖານຂອງຫ້ອງຮຽນ
(class->log_a_w_s_h_j) ແບ່ງດ້ວຍນ້ຳໜັກຂອງຊັ້ນຮຽນ (class->w_j), ສຳລັບແຕ່ລະຊັ້ນຮຽນ.
"converge_search_3" ຢຸດ convergence ເມື່ອຄວາມແຕກຕ່າງລະຫວ່າງຮອບວຽນ, ນີ້
ອັດຕາສ່ວນ, ສໍາລັບແຕ່ລະຊັ້ນຮຽນ, ໄດ້ເກີນ "rel_delta_range" ສໍາລັບ "n_average"
ຮອບວຽນ. ການຫຼຸດລົງ "rel_delta_range" ເຄັ່ງຄັດຂື້ນກັບ convergence ແລະເພີ່ມທະວີການ
ຈໍານວນຂອງຮອບວຽນ.
cs4_delta_range = 0.0025
ຜ່ານການລອງຟັງຊັນ "converge_search_4", ເຊິ່ງຕິດຕາມອັດຕາສ່ວນຂອງ
(class->log_a_w_s_h_j)/(class->w_j), ສຳລັບແຕ່ລະຊັ້ນຮຽນ, ສະເລ່ຍຫຼາຍກວ່າ
"sigma_beta_n_values" ຮອບວຽນລວມກັນ. "converge_search_4" ຢຸດການລວມເຂົ້າກັນ
ເມື່ອຄວາມແຕກຕ່າງສູງສຸດຂອງຄ່າສະເລ່ຍຂອງອັດຕາສ່ວນນີ້ຕໍ່າກວ່າ
"cs4_delta_range". ການຫຼຸດລົງ "cs4_delta_range" ເຄັ່ງຄັດຂື້ນກັບ convergence ແລະ
ເພີ່ມຈໍານວນຂອງຮອບວຽນ.
n_ສະເລ່ຍ = 3
ຜ່ານການລອງຟັງຊັນ "converge_search_3" ແລະ "converge". ຈໍານວນຂອງຮອບວຽນ
ສໍາລັບການທີ່ເງື່ອນໄຂ convergence ຕ້ອງໄດ້ຮັບການພໍໃຈສໍາລັບການທົດລອງທີ່ຈະສິ້ນສຸດ.
sigma_beta_n_values = 6
ຜ່ານໄປ try_fn_type "converge_search_4". ຈຳນວນຂອງຄ່າທີ່ຜ່ານມາທີ່ຈະໃຊ້ໃນ
ຄອມພິວເຕີ sigma^2 (ສິ່ງລົບກວນ) ແລະ beta^2 (ສັນຍານ).
max_cycles = 200
ນີ້ແມ່ນຈຳນວນສູງສຸດຂອງຮອບວຽນທີ່ອະນຸຍາດສຳລັບການລວມຕົວຂອງ a
ການຈັດປະເພດ, ໂດຍບໍ່ຄໍານຶງເຖິງເງື່ອນໄຂການຢຸດເຊົາອື່ນໆ. ນີ້ແມ່ນຂຶ້ນກັບຫຼາຍ
ຕາມຖານຂໍ້ມູນຂອງທ່ານແລະທາງເລືອກຂອງຕົວແບບແລະຕົວກໍານົດການ convergence, ແຕ່ຄວນຈະເປັນ
ປະມານສອງເທົ່າຂອງຈໍານວນຮອບວຽນໂດຍສະເລ່ຍທີ່ລາຍງານຢູ່ໃນຫນ້າຈໍ dump ແລະໄຟລ໌ .log
converge_print_p = ບໍ່ຖືກຕ້ອງ
ຖ້າເປັນຈິງ, ຟັງຊັນ try ທີ່ເລືອກຈະພິມໃສ່ຄ່າໜ້າຈໍທີ່ເປັນປະໂຫຍດໃນ
ການລະບຸຄ່າທີ່ບໍ່ແມ່ນຄ່າເລີ່ມຕົ້ນສຳລັບ ໄລຍະຢຸດ, halt_factor, rel_delta_range,
n_ສະເລ່ຍ, sigma_beta_n_values, ແລະ range_factor.
force_new_search_p = ຈິງ
ຖ້າເປັນຄວາມຈິງ, ຈະບໍ່ສົນໃຈຜົນການຄົ້ນຫາທີ່ຜ່ານມາ, ຍົກເລີກ .search ທີ່ມີຢູ່ແລ້ວ
ແລະ .results[-bin] ໄຟລ໌ຫຼັງຈາກການຢືນຢັນໂດຍຜູ້ໃຊ້; ຖ້າບໍ່ຖືກຕ້ອງ, ຈະສືບຕໍ່
ການຄົ້ນຫາໂດຍໃຊ້ໄຟລ໌ .search ແລະ .results[-bin] ທີ່ມີຢູ່ແລ້ວ. ສໍາລັບການເຮັດຊ້ໍາ
ຜົນໄດ້ຮັບ, ຍັງເບິ່ງ min_report_period, start_fn_type ແລະ randomize_random_p.
ດ່ານ_ປ = ບໍ່ຖືກຕ້ອງ
ຖ້າເປັນຄວາມຈິງ, ຈຸດກວດກາຂອງການຈັດປະເພດໃນປະຈຸບັນຈະຖືກຂຽນທຸກ
"min_checkpoint_period" ວິນາທີ, ດ້ວຍການຂະຫຍາຍໄຟລ໌ .chkpt[-bin]. ນີ້ແມ່ນພຽງແຕ່
ເປັນປະໂຫຍດສໍາລັບການຈັດປະເພດຂະຫນາດໃຫຍ່ຫຼາຍ
min_checkpoint_period = 10800
ຖ້າ checkpoint_p = true, ການຈັດປະເພດ checkpointed ຈະຖືກຂຽນເລື້ອຍໆນີ້
- ໃນວິນາທີ (ຄ່າເລີ່ມຕົ້ນ = 3 ຊົ່ວໂມງ)
reconverge_type = "
ສາມາດເປັນ "chkpt" ຫຼື "ຜົນໄດ້ຮັບ". ຖ້າ "checkpoint_p" = true ແລະ "reconverge_type"
= "chkpt", ຫຼັງຈາກນັ້ນສືບຕໍ່ convergence ຂອງການຈັດປະເພດທີ່ມີຢູ່ໃນ
<...>.chkpt[-bin]. ຖ້າ "checkpoint_p" = false ແລະ "reconverge_type" = "ຜົນໄດ້ຮັບ",
ສືບຕໍ່ convergence ຂອງການຈັດປະເພດທີ່ດີທີ່ສຸດທີ່ມີຢູ່ໃນ <...>.results[-bin].
screen_output_p = ຈິງ
ຖ້າເປັນຜິດ, ບໍ່ມີຜົນຜະລິດຖືກນໍາໄປຫາຫນ້າຈໍ. ສົມມຸດວ່າ log_file_p = true, ຜົນຜະລິດ
ຈະຖືກນໍາໄປຫາໄຟລ໌ບັນທຶກເທົ່ານັ້ນ.
break_on_warnings_p = ຈິງ
ຄ່າເລີ່ມຕົ້ນຖາມຜູ້ໃຊ້ວ່າຈະສືບຕໍ່ຫຼືບໍ່, ໃນເວລາທີ່ກໍານົດຂໍ້ມູນ
ພົບເຫັນການເຕືອນໄພ. ຖ້າລະບຸວ່າເປັນຜິດ, ຫຼັງຈາກນັ້ນ AutoClass ຈະສືບຕໍ່, ເຖິງແມ່ນວ່າ
ການເຕືອນໄພ -- ການເຕືອນໄພຈະສືບຕໍ່ໄດ້ຮັບການສົ່ງອອກໄປຍັງສະຖານທີ່ແລະບັນທຶກການ
ຍື່ນ.
free_storage_p = ຈິງ
ຄ່າເລີ່ມຕົ້ນບອກ AutoClass ເພື່ອປົດປ່ອຍພື້ນທີ່ຈັດເກັບຂໍ້ມູນສ່ວນໃຫຍ່ທີ່ຈັດສັນໄວ້ຂອງມັນ.
ນີ້ບໍ່ຈໍາເປັນຕ້ອງ, ແລະໃນກໍລະນີຂອງ DEC Alpha ເຮັດໃຫ້ເກີດ dump ຫຼັກ [ນີ້ແມ່ນ
ຍັງແທ້ບໍ?]. ຖ້າລະບຸວ່າເປັນຜິດ, AutoClass ຈະບໍ່ພະຍາຍາມເພີ່ມພື້ນທີ່ຈັດເກັບຂໍ້ມູນ.
ວິທີການ ເຖິງ GET ອັດຕະໂນມັດ C ເຖິງ ຜະລິດຕະພັນ ຊໍ້າຄືນໄດ້ ຜົນໄດ້ຮັບ
ໃນບາງສະຖານະການ, ການຈັດປະເພດຊ້ໍາແມ່ນຕ້ອງການ: ການປຽບທຽບຂັ້ນພື້ນຖານ AutoClass C
ຄວາມຊື່ສັດໃນເວທີທີ່ແຕກຕ່າງກັນ, porting AutoClass C ໄປສູ່ເວທີໃຫມ່, ແລະອື່ນໆ
ສໍາເລັດສອງສິ່ງນີ້ແມ່ນມີຄວາມຈໍາເປັນ: 1) ການຜະລິດຈໍານວນ Random ດຽວກັນຕ້ອງເປັນ
ຖືກນໍາໃຊ້, ແລະ 2) ຕົວກໍານົດການຊອກຫາຕ້ອງຖືກກໍານົດຢ່າງຖືກຕ້ອງ.
ຜູ້ຜະລິດຕົວເລກ Random. ການຈັດຕັ້ງປະຕິບັດນີ້ AutoClass C ໃຊ້ Unix srand48/lrand48
ເຄື່ອງກໍາເນີດຕົວເລກແບບສຸ່ມທີ່ສ້າງຕົວເລກ pseudo-random ໂດຍໃຊ້ເສັ້ນຊື່ທີ່ມີຊື່ສຽງ
congruential algorithm ແລະ 48-bit integer arithmetic. lrand48() ກັບຄືນມາທີ່ບໍ່ແມ່ນລົບ
ຈຳນວນເຕັມທີ່ແຈກຢາຍຢ່າງສະເໝີພາບໃນຊ່ວງໄລຍະ [0, 2**31].
ຄົ້ນຫາພາລາມິເຕີ. ຕົວກໍານົດການໄຟລ໌ .s-params ຕໍ່ໄປນີ້ຄວນຈະຖືກລະບຸ:
force_new_search_p = ຈິງ
start_fn_type "ບລັອກ"
randomize_random_p = ຜິດ
;; ລະບຸຈໍານວນຂອງການທົດລອງທີ່ທ່ານຕ້ອງການທີ່ຈະດໍາເນີນການ
max_n_tries = 50
;; ລະບຸເວລາຫຼາຍກວ່າໄລຍະເວລາຂອງການແລ່ນ
min_report_period = 30000
ໃຫ້ສັງເກດວ່າບໍ່ມີບົດລາຍງານການຈັດປະເພດທີ່ດີທີ່ສຸດໃນປະຈຸບັນຈະຖືກຜະລິດ. ສຸດທ້າຍເທົ່ານັ້ນ
ສະຫຼຸບການຈັດປະເພດຈະເປັນຜົນຜະລິດ.
ດ່ານກວດກາ
ດ້ວຍຖານຂໍ້ມູນທີ່ໃຫຍ່ຫຼາຍ, ຄວາມເປັນໄປໄດ້ຂອງລະບົບ crash ໃນໄລຍະໃດກໍ່ຕາມ
ພະຍາຍາມຈັດປະເພດຫນຶ່ງ. ພາຍໃຕ້ສະຖານະການດັ່ງກ່າວ, ມັນແມ່ນແນະນໍາໃຫ້ໃຊ້ເວລາທີ່ຈະ
ກວດເບິ່ງການຄິດໄລ່ສໍາລັບການເລີ່ມຕົ້ນໃຫມ່ທີ່ເປັນໄປໄດ້.
ການກວດກາແມ່ນເລີ່ມຕົ້ນໂດຍການລະບຸ "ດ່ານ_ປ = true" ໃນໄຟລ໌ ".s-params".
ນີ້ເຮັດໃຫ້ຂັ້ນຕອນການ convergence ພາຍໃນ, ເພື່ອບັນທຶກສໍາເນົາຂອງການຈັດປະເພດໃສ່ໃນ
ເອກະສານກວດກາແຕ່ລະຄັ້ງທີ່ການຈັດປະເພດໄດ້ຖືກປັບປຸງ, ສະຫນອງໄລຍະເວລາທີ່ແນ່ນອນຂອງ
ເວລາໄດ້ຜ່ານໄປ. ນາມສະກຸນໄຟລ໌ແມ່ນ ".chkpt[-bin]".
ແຕ່ລະຄັ້ງທີ່ AutoClass ເຮັດຮອບວຽນ, "." ແມ່ນຜົນຜະລິດທີ່ຫນ້າຈໍເພື່ອໃຫ້ທ່ານມີ
ຂໍ້ມູນທີ່ຈະນໍາໃຊ້ໃນການຕັ້ງຄ່າ min_checkpoint_period ຄ່າ (ຄ່າເລີ່ມຕົ້ນ 10800 ວິນາທີ
ຫຼື 3 ຊົ່ວໂມງ). ແນ່ນອນວ່າມີການຊື້ຂາຍລະຫວ່າງຄວາມຖີ່ຂອງການກວດກາແລະ
ຄວາມເປັນໄປໄດ້ທີ່ເຄື່ອງຂອງທ່ານອາດຈະ crash, ນັບຕັ້ງແຕ່ການຂຽນຊ້ໍາຂອງການກວດສອບ
ໄຟລ໌ຈະເຮັດໃຫ້ຂະບວນການຊອກຫາຊ້າລົງ.
ກຳລັງເລີ່ມການຊອກຫາ AutoClass ຄືນໃໝ່:
ເພື່ອຟື້ນຕົວການຈັດປະເພດ ແລະສືບຕໍ່ການຄົ້ນຫາຫຼັງຈາກ rebooting ແລະ reloading
AutoClass, ລະບຸ reconverge_type = "chkpt" ໃນໄຟລ໌ ".s-params" (ລະບຸ
force_new_search_p ບໍ່ຖືກຕ້ອງ).
AutoClass ຈະໂຫຼດຖານຂໍ້ມູນ ແລະແບບຈໍາລອງທີ່ເໝາະສົມຄືນໃໝ່, ສະຫນອງໃຫ້ວ່າບໍ່ມີ
ການປ່ຽນແປງໃນຊື່ໄຟລ໌ຂອງເຂົາເຈົ້ານັບຕັ້ງແຕ່ເວລາທີ່ເຂົາເຈົ້າໄດ້ຖືກໂຫລດສໍາລັບ checkpointed
ແລ່ນການຈັດປະເພດ. ໄຟລ໌ ".s-params" ມີອາກິວເມັນທີ່ບໍ່ແມ່ນຄ່າເລີ່ມຕົ້ນທີ່ເປັນ
ສະຫນອງໃຫ້ກັບການໂທຕົ້ນສະບັບ.
ໃນຕອນເລີ່ມຕົ້ນຂອງການຄົ້ນຫາ, ກ່ອນ start_j_list ໄດ້ຖືກເປົ່າຫວ່າງ, ມັນຈະມີຄວາມຈໍາເປັນ
ເພື່ອຕັດລາຍຊື່ຕົ້ນສະບັບໃຫ້ກັບສິ່ງທີ່ຍັງຄົງຢູ່ໃນການຄົ້ນຫາທີ່ລົ້ມລົງ. ນີ້ສາມາດເປັນ
ກໍານົດໂດຍການເບິ່ງໄຟລ໌ ".log" ເພື່ອກໍານົດຄ່າທີ່ຖືກນໍາໃຊ້ແລ້ວ. ຖ້າ
ໄດ້ start_j_list ໄດ້ຖືກເປົ່າຫວ່າງ, ຫຼັງຈາກນັ້ນຫວ່າງເປົ່າ start_j_list ຄວນລະບຸໄວ້ໃນ
ໄຟລ໌ ".s-params". ນີ້ແມ່ນເຮັດໄດ້ໂດຍ
start_j_list =
or
start_j_list = -9999
ນີ້ແມ່ນຊຸດຂອງສະຄຣິບເພື່ອສະແດງໃຫ້ເຫັນການກວດສອບຈຸດ:
autoclass -search data/glass/glassc.db2 data/glass/glass-3c.hd2 \
data/glass/glass-mnc.model data/glass/glassc-chkpt.s-params
ແລ່ນ 1)
## glassc-chkpt.s-params
max_n_tries = 2
force_new_search_p = ຈິງ
## --------------------
;; ແລ່ນໃຫ້ສໍາເລັດ
ແລ່ນ 2)
## glassc-chkpt.s-params
force_new_search_p = ບໍ່ຖືກຕ້ອງ
max_n_tries = 10
checkpoint_p = ຈິງ
min_checkpoint_period = 2
## --------------------
;; ຫຼັງຈາກ 1 ຈຸດກວດກາ, ctrl-C ເພື່ອຈໍາລອງການຂັດຂ້ອງຂອງ CPU
ແລ່ນ 3)
## glassc-chkpt.s-params
force_new_search_p = ບໍ່ຖືກຕ້ອງ
max_n_tries = 1
checkpoint_p = ຈິງ
min_checkpoint_period = 1
reconverge_type = "chkpt"
## --------------------
;; ການທົດລອງດ່ານຄວນສໍາເລັດ
OUTPUT ເອກະສານ
ບົດລາຍງານມາດຕະຖານແມ່ນ
1) ຄຸນຄ່າອິດທິພົນຄຸນຄ່າ: ສະເຫນີໃຫ້ມີອິດທິພົນທີ່ກ່ຽວຂ້ອງຫຼືຄວາມສໍາຄັນຂອງ
ຄຸນລັກສະນະຂອງຂໍ້ມູນທັງໃນທົ່ວໂລກ (ໂດຍສະເລ່ຍໃນທົ່ວທຸກຫ້ອງ), ແລະໃນທ້ອງຖິ່ນ
(ໂດຍສະເພາະສໍາລັບແຕ່ລະຫ້ອງຮຽນ). heuristic ສໍາລັບຄວາມເຂັ້ມແຂງຂອງຫ້ອງຮຽນພີ່ນ້ອງແມ່ນຍັງ
ລາຍຊື່;
2) ການອ້າງອິງຂ້າມຕາມກໍລະນີ (datum) ຈໍານວນ: ລາຍຊື່ຄວາມເປັນໄປໄດ້ຊັ້ນປະຖົມສໍາລັບ
ແຕ່ລະ datum, ຈັດຮຽງຕາມຕົວເລກກໍລະນີ. ເມື່ອ report_mode = "data", ເພີ່ມເຕີມຫນ້ອຍລົງ
ຄວາມເປັນໄປໄດ້ຂອງຊັ້ນຮຽນ (ຫຼາຍກວ່າ ຫຼືເທົ່າກັບ 0.001) ແມ່ນລະບຸໄວ້ສໍາລັບແຕ່ລະ datum;
3) ການອ້າງອີງຂ້າມໂດຍຈໍານວນຫ້ອງຮຽນ: ສໍາລັບແຕ່ລະຫ້ອງການຄາດຄະເນຊັ້ນຕົ້ນຕໍແລະ
ຄວາມເປັນໄປໄດ້ຂອງຊັ້ນຮຽນທີ່ນ້ອຍກວ່າ (ຫຼາຍກວ່າ ຫຼືເທົ່າກັບ 0.001) ແມ່ນລະບຸໄວ້ສໍາລັບແຕ່ລະຄົນ
datum ໃນຊັ້ນຮຽນ, ຕາມລໍາດັບດ້ວຍຈໍານວນກໍລະນີ. ມັນເປັນໄປໄດ້ທີ່ຈະລາຍຊື່, ສໍາລັບແຕ່ລະຄົນ
datum, ຄ່າຂອງຄຸນລັກສະນະ, ທີ່ທ່ານເລືອກ.
ລາຍງານຄຸນຄ່າອິດທິພົນຂອງຄຸນລັກສະນະຄວາມພະຍາຍາມທີ່ຈະສະຫນອງມາດຕະການທີ່ກ່ຽວຂ້ອງຂອງ
"ອິດທິພົນ" ຂອງຄຸນລັກສະນະຂໍ້ມູນໃນຊັ້ນຮຽນທີ່ພົບເຫັນໂດຍການຈັດປະເພດ. ໄດ້
normalized class strengths, normalized attribute values influence summed over all
ຊັ້ນຮຽນ, ແລະຄຸນຄ່າອິດທິພົນຂອງບຸກຄົນ (I[jkl]) ແມ່ນພຽງແຕ່ມາດຕະການທີ່ກ່ຽວຂ້ອງແລະ
ຄວນຈະຖືກຕີຄວາມຫມາຍຫຼາຍກວ່າການຈັດລໍາດັບ, ແຕ່ບໍ່ມັກຫຍັງ
ເຂົ້າໃກ້ຄຸນຄ່າຢ່າງແທ້ຈິງ.
ບົດລາຍງານແມ່ນສົ່ງອອກໄປຫາໄຟລ໌ທີ່ມີຊື່ແລະຊື່ເສັ້ນທາງຖືກເອົາມາຈາກ ".r-params"
ຊື່ເສັ້ນທາງໄຟລ໌. ປະເພດເອກະສານລາຍງານ (ສ່ວນຂະຫຍາຍ) ແມ່ນ:
ມີອິດທິພົນຕໍ່ ຄ່າ ບົດລາຍງານ
"influ-o-text-n" ຫຼື "influ-no-text-n"
ອ້າງອີງຂ້າມ by ກໍລະນີ
"ກໍລະນີ-ຂໍ້ຄວາມ-n"
ອ້າງອີງຂ້າມ by ລະດັບ
"ຫ້ອງຮຽນຂໍ້ຄວາມ-n"
ຫຼື, ຖ້າ report_mode ຖືກ overridden ກັບ "data":
ມີອິດທິພົນຕໍ່ ຄ່າ ບົດລາຍງານ
"influ-o-data-n" ຫຼື "influ-no-data-n"
ອ້າງອີງຂ້າມ by ກໍລະນີ
"ກໍລະນີ-ຂໍ້ມູນ-n"
ອ້າງອີງຂ້າມ by ລະດັບ
"ຂໍ້ມູນຫ້ອງຮຽນ-n"
ບ່ອນທີ່ n ແມ່ນຕົວເລກການຈັດປະເພດຈາກໄຟລ໌ "ຜົນໄດ້ຮັບ". ທໍາອິດຫຼືດີທີ່ສຸດ
ການຈັດປະເພດແມ່ນເລກ 1, ທີ່ດີທີ່ສຸດ 2 ຕໍ່ໄປ, ແລະອື່ນໆ. ຄ່າເລີ່ມຕົ້ນແມ່ນການສ້າງບົດລາຍງານ
ພຽງແຕ່ສໍາລັບການຈັດປະເພດທີ່ດີທີ່ສຸດໃນໄຟລ໌ "ຜົນໄດ້ຮັບ". ທ່ານສາມາດຜະລິດບົດລາຍງານສໍາລັບການອື່ນໆ
ບັນທຶກການຈັດປະເພດໂດຍການໃຊ້ຄໍາສໍາຄັນຂອງບົດລາຍງານ n_clsfs ແລະ clsf_n_list. ໄດ້
"influ-o-text-n" ປະເພດໄຟລ໌ແມ່ນຄ່າເລີ່ມຕົ້ນ (order_attributes_by_influence_p = true), ແລະ
ລາຍຊື່ຄຸນລັກສະນະຂອງແຕ່ລະຊັ້ນຮຽນຕາມລໍາດັບ descending ຂອງມູນຄ່າອິດທິພົນຂອງຄຸນລັກສະນະ. ຖ້າ
ມູນຄ່າຂອງ order_attributes_by_influence_p ແມ່ນ overridden ເປັນ false ໃນ <...>.r-params
ໄຟລ໌, ຫຼັງຈາກນັ້ນຄຸນລັກສະນະຂອງແຕ່ລະຊັ້ນຮຽນຈະຖືກສະແດງຢູ່ໃນລໍາດັບຈາກນ້ອຍຫາໃຫຍ່ໂດຍຈໍານວນຄຸນລັກສະນະ.
ສ່ວນຂະຫຍາຍຂອງໄຟລ໌ທີ່ສ້າງຂຶ້ນຈະເປັນ "influ-no-text-n". ວິທີການບັນຊີລາຍຊື່ນີ້
ອໍານວຍຄວາມສະດວກໃນການປຽບທຽບສາຍຕາຂອງຄຸນຄ່າຂອງຄຸນລັກສະນະລະຫວ່າງຫ້ອງຮຽນ.
ສໍາລັບຕົວຢ່າງ, ຄໍາສັ່ງນີ້:
autoclass -reports ຕົວຢ່າງ/imports-85c.results-bin
sample/imports-85c.search ຕົວຢ່າງ/imports-85c.r-params
ກັບແຖວນີ້ຢູ່ໃນໄຟລ໌ ".r-params":
xref_class_report_att_list = 2, 5, 6
ຈະສ້າງໄຟລ໌ຜົນຜະລິດເຫຼົ່ານີ້:
imports-85.influ-o-text-1
imports-85.case-text-1
imports-85.class-text-1
ໄດ້ AutoClass C ບົດລາຍງານສະຫນອງຄວາມສາມາດໃນການຄິດໄລ່ຄ່າ contour ຫ້ອງ sigma ສໍາລັບການ
ກໍານົດຄູ່ຂອງຄຸນລັກສະນະທີ່ມີຄຸນຄ່າທີ່ແທ້ຈິງ, ເມື່ອສ້າງລາຍງານມູນຄ່າອິດທິພົນ
ກັບທາງເລືອກຂໍ້ມູນ (report_mode = "data"). ໃຫ້ສັງເກດວ່າ contours ຫ້ອງຮຽນ sigma ບໍ່ແມ່ນ
ສ້າງຂຶ້ນຈາກຄຸນລັກສະນະປະເພດແຍກກັນ.
Sigma contours ແມ່ນສອງມິຕິທຽບເທົ່າຂອງແຖບຄວາມຜິດພາດ n-sigma ໃນຫນຶ່ງ.
ມິຕິ. ໂດຍສະເພາະ, ສໍາລັບສອງຄຸນລັກສະນະເອກະລາດ, contour n-sigma ຖືກກໍານົດເປັນ
ellipse ບ່ອນທີ່
((x − xMean) / xSigma)^2 + ((y - yMean) / ySigma)^2 == n
ດ້ວຍຄຸນລັກສະນະ covariant, contours n-sigma ຖືກກໍານົດຄືກັນ, ໃນການຫມຸນ.
ລະບົບປະສານງານຂອງແກນຫຼັກຂອງການແຈກຢາຍ. ດັ່ງນັ້ນຄຸນລັກສະນະເອກະລາດໃຫ້
ellipses ຮັດກຸມຂະຫນານກັບແກນຄຸນລັກສະນະ, ໃນຂະນະທີ່ແກນຂອງ contours sigma ຂອງ
ຄຸນລັກສະນະ covariant ແມ່ນ rotated ກ່ຽວກັບສູນກາງທີ່ກໍານົດໂດຍວິທີການ. ໃນກໍລະນີໃດກໍ່ຕາມ
contour sigma ເປັນຕົວແທນຂອງເສັ້ນທີ່ຄວາມເປັນໄປໄດ້ຂອງຊັ້ນຮຽນແມ່ນຄົງທີ່, ໂດຍບໍ່ສົນເລື່ອງ
ຄວາມເປັນໄປໄດ້ຂອງຫ້ອງຮຽນອື່ນໆ.
ດ້ວຍຄຸນສົມບັດສາມຢ່າງ ຫຼືຫຼາຍກວ່ານັ້ນ, ຮູບຊົງ n-sigma ກາຍເປັນຮູບສ້ວຍມິຕິ k-dimensional.
ດ້ານ. ລະຫັດນີ້ໃຊ້ປະໂຫຍດຈາກຄວາມຈິງທີ່ວ່າການຄາດຄະເນຂະຫນານຂອງ n-
ຮູບຮີມິຕິ, ຢູ່ເທິງຍົນ 2 ມືດ, ຖືກຜູກມັດດ້ວຍຮູບຮີ. ໃນນີ້ງ່າຍ
ກໍລະນີທີ່ສະແດງຮູບວົງວຽນ sigma ດຽວໃສ່ແຜນທີ່ປະສານງານ, ມັນຍັງເປັນຄວາມຈິງ
ວ່າຄວາມແປປວນ 2-dim ຂອງຮູບຮີນີ້ແມ່ນເທົ່າກັບອົງປະກອບທີ່ສອດຄ້ອງກັນຂອງ
n-dim ellipsoid's coariances. ລະບົບ Eigen ຂອງ 2-dim covariance ຫຼັງຈາກນັ້ນໃຫ້
ຄວາມແຕກຕ່າງຂອງອົງປະກອບຫຼັກຂອງ eclipse, ແລະການຫມຸນທີ່ສອດຄ່ອງມັນ.
ກັບຂໍ້ມູນ. ນີ້ສະແດງເຖິງວິທີທີ່ດີທີ່ສຸດເພື່ອສະແດງການແຈກຢາຍຢູ່ໃນຂອບ
ຍົນ.
ເພື່ອໃຫ້ໄດ້ຮັບຄ່າ contour, ກໍານົດຄໍາສໍາຄັນ sigma_contours_att_list ບັນຊີລາຍຊື່ຂອງມູນຄ່າທີ່ແທ້ຈິງ
attribute indices (ຈາກໄຟລ໌ .hd2), ແລະຮ້ອງຂໍໃຫ້ມີບົດລາຍງານມູນຄ່າອິດທິພົນກັບຂໍ້ມູນ
ທາງເລືອກ. ຍົກຕົວຢ່າງ,
report_mode = "ຂໍ້ມູນ"
sigma_contours_att_list = 3, 4, 5, 8, 15
OUTPUT ລາຍວຽກ PARAMETERS
ເນື້ອໃນຂອງບົດລາຍງານຜົນຜະລິດແມ່ນຄວບຄຸມໂດຍໄຟລ໌ ".r-params". ໃນເອກະສານນີ້,
ເສັ້ນຫວ່າງເປົ່າ ຫຼື ເສັ້ນທີ່ເລີ່ມຕົ້ນດ້ວຍໜຶ່ງໃນຕົວອັກສອນເຫຼົ່ານີ້ຖືກປະຕິບັດເປັນຄຳເຫັນ:
"#", "!", ຫຼື ";". ຊື່ພາລາມິເຕີແລະມູນຄ່າຂອງມັນສາມາດຖືກແຍກອອກໂດຍເຄື່ອງຫມາຍເທົ່າທຽມກັນ, a
ຍະຫວ່າງ ຫຼືແຖບ:
n_clsfs 1
n_clsfs = 1
n_clsfs 1
ຊ່ອງຫວ່າງຖືກລະເລີຍຖ້າ "=" ຫຼື " " ຖືກໃຊ້ເປັນຕົວແຍກ. ໝາຍເຫດວ່າບໍ່ມີການຕໍ່ທ້າຍ
ຈໍ້າຈຸດ.
ຕໍ່ໄປນີ້ແມ່ນພາລາມິເຕີທີ່ອະນຸຍາດ ແລະຄ່າເລີ່ມຕົ້ນຂອງພວກມັນ:
n_clsfs = 1
ຈໍານວນ clsfs ໃນໄຟລ໌ .results ທີ່ຈະສ້າງລາຍງານ, ເລີ່ມຕົ້ນດ້ວຍ
ທໍາອິດຫຼື "ດີທີ່ສຸດ".
clsf_n_list =
ຖ້າລະບຸ, ນີ້ແມ່ນລາຍການດັດສະນີທີ່ອີງໃສ່ຫນຶ່ງຂອງ clsfs ໃນລໍາດັບ clsf ອ່ານ.
ຈາກໄຟລ໌ .results. ມັນ overrides "n_clsfs". ຍົກຕົວຢ່າງ:
clsf_n_list = 1, 2
ຈະຜະລິດຜົນຜະລິດດຽວກັນກັບ
n_clsfs = 2
ແຕ່
clsf_n_list = 2
ຈະອອກພຽງແຕ່ບົດລາຍງານການຈັດປະເພດ "ດີທີ່ສຸດທີສອງ".
ປະເພດລາຍງານ =
ປະເພດຂອງບົດລາຍງານທີ່ຈະສ້າງ: "ທັງຫມົດ", "influence_values", "xref_case", ຫຼື
"xref_class".
report_mode =
ຮູບແບບຂອງບົດລາຍງານທີ່ຈະສ້າງ. "ຂໍ້ຄວາມ" ແມ່ນການຈັດຮູບແບບຂໍ້ຄວາມ. "ຂໍ້ມູນ" ແມ່ນຕົວເລກ
-- ເຫມາະສໍາລັບການປຸງແຕ່ງຕໍ່ໄປ.
comment_data_headers_p = ບໍ່ຖືກຕ້ອງ
the default value does not insert # in column 1 of most report_mode = "data" header
ສາຍ. ຖ້າລະບຸວ່າເປັນຄວາມຈິງ, ຕົວອັກສອນຄຳເຫັນຈະຖືກໃສ່ໃນສ່ວນຫົວສ່ວນໃຫຍ່
ສາຍ.
num_atts_to_list =
ຖ້າລະບຸ, ຈໍານວນຂອງຄຸນລັກສະນະທີ່ຈະລາຍຊື່ໃນລາຍງານມູນຄ່າອິດທິພົນ. ຖ້າບໍ່
ລະບຸ, ທັງຫມົດ ຄຸນລັກສະນະຈະຖືກລະບຸໄວ້. (ເຊັ່ນ: "num_atts_to_list = 5")
xref_class_report_att_list =
ຖ້າລະບຸ, ບັນຊີລາຍຊື່ຂອງຕົວເລກຄຸນລັກສະນະ (ຕາມສູນ), ມູນຄ່າຂອງມັນຈະເປັນຜົນຜະລິດ
ໃນບົດລາຍງານ "xref_class" ພ້ອມກັບຄວາມເປັນໄປໄດ້ຂອງກໍລະນີ. ຖ້າບໍ່ໄດ້ລະບຸ, ບໍ່ແມ່ນ
ຄຸນຄ່າຄຸນລັກສະນະຈະເປັນຜົນຜະລິດ. (ເຊັ່ນ: "xref_class_report_att_list = 1, 2, 3")
order_attributes_by_influence_p = ຈິງ
ຄ່າເລີ່ມຕົ້ນຈະສະແດງຄຸນລັກສະນະຂອງແຕ່ລະຊັ້ນຮຽນຕາມລໍາດັບຈາກໃຫຍ່ຫານ້ອຍຂອງຄຸນລັກສະນະ
ຄ່າອິດທິພົນ, ແລະໃຊ້ ".influ-o-text-n" ເປັນໄຟລ໌ລາຍງານມູນຄ່າອິດທິພົນ
ປະເພດ. ຖ້າລະບຸວ່າເປັນຜິດ, ຄຸນລັກສະນະຂອງແຕ່ລະຊັ້ນຮຽນຈະຖືກລະບຸໄວ້ໃນ
ລໍາດັບຕັ້ງຊັນຂຶ້ນຕາມຈໍານວນຄຸນສົມບັດ. ສ່ວນຂະຫຍາຍຂອງໄຟລ໌ທີ່ສ້າງຂຶ້ນຈະເປັນ
"influ-no-text-n".
break_on_warnings_p = ຈິງ
ຄ່າເລີ່ມຕົ້ນຖາມຜູ້ໃຊ້ວ່າຈະສືບຕໍ່ຫຼືບໍ່ໃນເວລາທີ່ກໍານົດຂໍ້ມູນ
ພົບເຫັນການເຕືອນໄພ. ຖ້າລະບຸວ່າເປັນຜິດ, ຫຼັງຈາກນັ້ນ AutoClass ຈະສືບຕໍ່, ເຖິງແມ່ນວ່າ
ການເຕືອນໄພ -- ການເຕືອນໄພຈະສືບຕໍ່ໄດ້ຮັບການສົ່ງອອກໄປຍັງສະຖານທີ່.
free_storage_p = ຈິງ
ຄ່າເລີ່ມຕົ້ນບອກ AutoClass ເພື່ອປົດປ່ອຍພື້ນທີ່ຈັດເກັບຂໍ້ມູນສ່ວນໃຫຍ່ທີ່ຈັດສັນໄວ້ຂອງມັນ.
ນີ້ບໍ່ຈໍາເປັນຕ້ອງ, ແລະໃນກໍລະນີຂອງ DEC Alpha ເຮັດໃຫ້ເກີດການ dump ຫຼັກ [ນີ້ແມ່ນ
ຍັງແທ້ບໍ?]. ຖ້າລະບຸວ່າເປັນຜິດ, AutoClass ຈະບໍ່ພະຍາຍາມເພີ່ມພື້ນທີ່ຈັດເກັບຂໍ້ມູນ.
max_num_xref_class_probs = 5
ກຳນົດວ່າຄວາມໜ້າຈະເປັນໄປໄດ້ຂອງຊັ້ນຕ່ຳຈະຖືກພິມອອກຫຼາຍປານໃດສຳລັບກໍລະນີ ແລະ
ບົດລາຍງານການອ້າງອີງຂ້າມຊັ້ນຮຽນ. ຄ່າເລີ່ມຕົ້ນແມ່ນການພິມປະເພດທີ່ເປັນໄປໄດ້ທີ່ສຸດ
ຄ່າຄວາມເປັນໄປໄດ້ ແລະສູງເຖິງ 4 ຄວາມເປັນໄປໄດ້ຂອງຊັ້ນຕ່ຳ. ໃຫ້ສັງເກດວ່ານີ້ແມ່ນຄວາມຈິງສໍາລັບ
ທັງ "ຂໍ້ຄວາມ" ແລະ "ຂໍ້ມູນ" ບົດລາຍງານການອ້າງອິງແບບຂ້າມຊັ້ນ, ແຕ່ເປັນຄວາມຈິງພຽງແຕ່ສໍາລັບ
"ຂໍ້ມູນ" ກໍລະນີການອ້າງອິງຂ້າມລາຍງານ. ບົດລາຍງານການອ້າງອິງຂ້າມກໍລະນີ "ຂໍ້ຄວາມ" ເທົ່ານັ້ນ
ມີຄວາມເປັນໄປໄດ້ໃນຊັ້ນຮຽນຫຼາຍທີ່ສຸດ.
sigma_contours_att_list =
ຖ້າລະບຸ, ບັນຊີລາຍຊື່ຂອງຕົວຊີ້ວັດຄຸນລັກສະນະທີ່ມີຄຸນຄ່າທີ່ແທ້ຈິງ (ຈາກໄຟລ໌ .hd2) ຈະເປັນ
ຄິດໄລ່ຄ່າ contour ຊັ້ນຮຽນ sigma, ເມື່ອສ້າງມູນຄ່າອິດທິພົນລາຍງານດ້ວຍ
ທາງເລືອກຂໍ້ມູນ (report_mode = "ຂໍ້ມູນ"). ຖ້າບໍ່ລະບຸ, ຈະບໍ່ມີ sigma
ຜົນຜະລິດ contour ຫ້ອງຮຽນ. (ເຊັ່ນ: "sigma_contours_att_list = 3, 4, 5, 8, 15")
ການສົນທະນາ OF ອັດຕະໂນມັດ ຜົນໄດ້ຮັບ
ແມ່ນຫຍັງ ມີ ທ່ານ ໄດ້ແລ້ວ?
ດຽວນີ້ເຈົ້າໄດ້ແລ່ນແລ້ວ AutoClass ໃນຊຸດຂໍ້ມູນຂອງທ່ານ -- ເຈົ້າໄດ້ຫຍັງ? ໂດຍປົກກະຕິ, ໄດ້
AutoClass ຂັ້ນຕອນການຄົ້ນຫາຊອກຫາການຈັດປະເພດຫຼາຍ, ແຕ່ວ່າພຽງແຕ່ຊ່ວຍປະຢັດຈໍານວນຫນ້ອຍທີ່ດີທີ່ສຸດ. ເຫຼົ່ານີ້
ດຽວນີ້ມີໃຫ້ກວດກາ ແລະຕີຄວາມໝາຍແລ້ວ. ຕົວຊີ້ວັດທີ່ສໍາຄັນທີ່ສຸດຂອງ
ຄຸນງາມຄວາມດີທີ່ກ່ຽວຂ້ອງຂອງການຈັດປະເພດທາງເລືອກເຫຼົ່ານີ້ແມ່ນບັນທຶກຄວາມເປັນໄປໄດ້ຫລັງທັງຫມົດ
ຄ່າ. ໃຫ້ສັງເກດວ່າເນື່ອງຈາກຄວາມເປັນໄປໄດ້ແມ່ນຢູ່ລະຫວ່າງ 1 ແລະ 0, ບັນທຶກທີ່ສອດຄ້ອງກັນ
ຄວາມເປັນໄປໄດ້ແມ່ນທາງລົບແລະລະຫວ່າງ 0 ຫາ infinity ລົບ. ຄວາມແຕກຕ່າງລະຫວ່າງ
ຄ່າຄວາມເປັນໄປໄດ້ຂອງບັນທຶກເຫຼົ່ານີ້ທີ່ຍົກຂຶ້ນມາເປັນພະລັງງານ e ໃຫ້ຄວາມເປັນໄປໄດ້ທີ່ສົມທຽບຂອງ
ການຈັດປະເພດທາງເລືອກ. ດັ່ງນັ້ນຄວາມແຕກຕ່າງຂອງ, ເວົ້າວ່າ 100, ຫມາຍຄວາມວ່າການຈັດປະເພດຫນຶ່ງແມ່ນ
e^100 ~= 10^43 ອາດຈະຫຼາຍກວ່າອັນອື່ນ. ຢ່າງໃດກໍຕາມ, ຕົວເລກເຫຼົ່ານີ້ສາມາດເຮັດໃຫ້ເຂົ້າໃຈຜິດຫຼາຍ,
ເນື່ອງຈາກພວກເຂົາໃຫ້ຄວາມເປັນໄປໄດ້ຂອງການຈັດປະເພດທາງເລືອກພາຍໃຕ້
AutoClass ຂໍ້ສົມມຸດຕິຖານ.
ສົມມຸດຕິຖານ
ໂດຍສະເພາະ, ສໍາຄັນທີ່ສຸດ AutoClass ສົມມຸດຕິຖານແມ່ນການນໍາໃຊ້ແບບປົກກະຕິສໍາລັບ
ຕົວແປທີ່ແທ້ຈິງ, ແລະການສົມມຸດຕິຖານຂອງເອກະລາດຂອງຄຸນລັກສະນະພາຍໃນຫ້ອງຮຽນ. ນັບຕັ້ງແຕ່
ການສົມມຸດຕິຖານເຫຼົ່ານີ້ມັກຈະຖືກລະເມີດໃນການປະຕິບັດ, ຄວາມແຕກຕ່າງຂອງຄວາມເປັນໄປໄດ້ຫລັງ
ການຈັດປະເພດທາງເລືອກສາມາດເປັນບາງສ່ວນເນື່ອງຈາກການຈັດປະເພດຫນຶ່ງທີ່ໃກ້ຊິດກັບ
ພໍໃຈສົມມຸດຕິຖານກ່ວາອື່ນ, ແທນທີ່ຈະເປັນຄວາມແຕກຕ່າງທີ່ແທ້ຈິງໃນ
ຄຸນນະພາບການຈັດປະເພດ. ແຫຼ່ງອື່ນຂອງຄວາມບໍ່ແນ່ນອນກ່ຽວກັບຜົນປະໂຫຍດຂອງ Log
ຄຸນຄ່າຄວາມເປັນໄປໄດ້ແມ່ນວ່າພວກເຂົາເຈົ້າບໍ່ໄດ້ຄໍານຶງເຖິງຄວາມຮູ້ກ່ອນຫນ້າທີ່ສະເພາະໃດຫນຶ່ງ
ຜູ້ໃຊ້ອາດຈະມີກ່ຽວກັບໂດເມນ. ນີ້ຫມາຍຄວາມວ່າມັນມັກຈະມີມູນຄ່າຊອກຫາທາງເລືອກ
ການຈັດປະເພດເພື່ອເບິ່ງວ່າທ່ານສາມາດຕີຄວາມຫມາຍໃຫ້ພວກເຂົາໄດ້, ແຕ່ວ່າມັນເປັນມູນຄ່າເລີ່ມຕົ້ນຈາກຫຼາຍທີ່ສຸດ
ອາດຈະເປັນຄັ້ງທໍາອິດ. ໃຫ້ສັງເກດວ່າຖ້າຄ່າຄວາມເປັນໄປໄດ້ຂອງບັນທຶກແມ່ນຫຼາຍກ່ວານັ້ນສໍາລັບ
ກໍລະນີຊັ້ນຫນຶ່ງ, ມັນແມ່ນເວົ້າວ່າມີຫຼັກຖານ overwhelming ສໍາລັບການ ບາງ ໂຄງປະກອບການໃນ
ຂໍ້ມູນ, ແລະສ່ວນຫນຶ່ງຂອງໂຄງສ້າງນີ້ໄດ້ຖືກເກັບກໍາໂດຍ AutoClass ການຈັດປະເພດ.
ປະສົບການ ລາຍວຽກ
ດັ່ງນັ້ນ, ທ່ານໄດ້ເລືອກເອົາການຈັດປະເພດທີ່ທ່ານຕ້ອງການກວດສອບ, ໂດຍອີງໃສ່ຄວາມເປັນໄປໄດ້ຂອງບັນທຶກຂອງມັນ
ມູນຄ່າ; ເຈົ້າກວດເບິ່ງມັນແນວໃດ? ສິ່ງທໍາອິດທີ່ຕ້ອງເຮັດຄືການສ້າງບົດລາຍງານ "ອິດທິພົນ".
ກ່ຽວກັບການຈັດປະເພດໂດຍນໍາໃຊ້ສະຖານທີ່ການຜະລິດບົດລາຍງານທີ່ບັນທຶກໄວ້ໃນ
/usr/share/doc/autoclass/reports-c.text. ບົດລາຍງານອິດທິພົນໄດ້ຖືກອອກແບບເພື່ອສະຫຼຸບ
ຂໍ້ມູນທີ່ສໍາຄັນຝັງຢູ່ໃນ AutoClass ໂຄງສ້າງຂໍ້ມູນ.
ສ່ວນທໍາອິດຂອງບົດລາຍງານນີ້ໃຫ້ຫ້ອງຮຽນ heuristic "ຄວາມເຂັ້ມແຂງ". ຫ້ອງຮຽນ "ຄວາມເຂັ້ມແຂງ" ແມ່ນ
ໃນທີ່ນີ້ກໍານົດເປັນຄວາມເປັນໄປໄດ້ geometric ຫມາຍຄວາມວ່າ instance ໃດ "ຂຶ້ນກັບ" ຫ້ອງຮຽນ,
ຈະຖືກສ້າງມາຈາກຮູບແບບຄວາມເປັນໄປໄດ້ຂອງຊັ້ນຮຽນ. ດັ່ງນັ້ນຈຶ່ງສະຫນອງການ heuristic
ການວັດແທກວ່າແຕ່ລະຊັ້ນຄາດຄະເນ "ຂອງມັນ" ຕົວຢ່າງທີ່ເຂັ້ມແຂງແນວໃດ.
ສ່ວນທີສອງແມ່ນບັນຊີລາຍຊື່ຂອງ "ອິດທິພົນ" ໂດຍລວມຂອງແຕ່ລະຄຸນລັກສະນະທີ່ໃຊ້ໃນ
ການຈັດປະເພດ. ເຫຼົ່ານີ້ໃຫ້ມາດຕະການ heuristic rough ຂອງຄວາມສໍາຄັນພີ່ນ້ອງຂອງ
ແຕ່ລະຄຸນລັກສະນະໃນການຈັດປະເພດ. ຄຸນລັກສະນະ "ຄຸນຄ່າອິດທິພົນ" ແມ່ນປະເພດ
ຄວາມເປັນໄປໄດ້ຂອງນ້ໍາຫນັກສະເລ່ຍຂອງ "ອິດທິພົນ" ຂອງແຕ່ລະຄຸນລັກສະນະໃນຫ້ອງຮຽນ, ເປັນ
ອະທິບາຍຂ້າງລຸ່ມນີ້.
ສ່ວນຕໍ່ໄປຂອງບົດລາຍງານແມ່ນລາຍລະອຽດສະຫຼຸບຂອງແຕ່ລະຊັ້ນຮຽນ. ຫ້ອງຮຽນ
ແມ່ນຖືກນັບຕາມ arbitrarily ຈາກ 0 ເຖິງ n, ໃນຄໍາສັ່ງຂອງ descending class weight. ຫ້ອງຮຽນ
ນ້ ຳ ໜັກ ຂອງ ຄຳ ເວົ້າ 34.1 ໝາຍ ຄວາມວ່າຜົນລວມນ້ ຳ ໜັກ ຂອງຄວາມເປັນໄປໄດ້ຂອງສະມາຊິກ ສຳ ລັບຊັ້ນຮຽນແມ່ນ
34.1. ໃຫ້ສັງເກດວ່ານ້ໍາຫນັກຂອງ 34 ບໍ່ໄດ້ຫມາຍຄວາມວ່າ 34 ກໍລະນີເປັນຂອງ
ຊັ້ນຮຽນນັ້ນ, ເພາະວ່າຫຼາຍໆກໍລະນີອາດມີສະມາຊິກບາງສ່ວນໃນຊັ້ນຮຽນນັ້ນເທົ່ານັ້ນ. ພາຍໃນແຕ່ລະ
ຊັ້ນ, ຄຸນລັກສະນະຫຼືຊຸດຄຸນສົມບັດແມ່ນຈັດລໍາດັບໂດຍ "ອິດທິພົນ" ຂອງໄລຍະຕົວແບບຂອງເຂົາເຈົ້າ.
CROSS ENTROPY
ມາດຕະການທີ່ໃຊ້ທົ່ວໄປຂອງຄວາມແຕກຕ່າງລະຫວ່າງການແຈກຢາຍຄວາມເປັນໄປໄດ້ສອງຢ່າງແມ່ນ
cross entropy: ຜົນລວມຂອງຄ່າທີ່ເປັນໄປໄດ້ທັງໝົດ x, ຂອງ P(x|c...)*log[P(x|c...)/P(x|g...)],
ບ່ອນທີ່ c ... ແລະ g ... ກໍານົດການແຈກຢາຍ. ມັນມີຂອບເຂດຈາກສູນ, ສໍາລັບຄືກັນ
ການແຈກຢາຍ, ຈົນເຖິງອັນເປັນນິດສຳລັບການແຈກຢາຍທີ່ວາງຄວາມເປັນໄປໄດ້ 1 ກ່ຽວກັບຄ່າທີ່ແຕກຕ່າງຂອງ
ຄຸນລັກສະນະ. ດ້ວຍເງື່ອນໄຂທີ່ເປັນເອກະລາດຕາມເງື່ອນໄຂໃນການແຈກຢາຍຄວາມເປັນໄປໄດ້,
ຂ້າມ entropy ສາມາດຖືກປັດໄຈເປັນຜົນລວມໃນໄລຍະຂໍ້ກໍານົດເຫຼົ່ານີ້. ປັດໃຈເຫຼົ່ານີ້ສະຫນອງມາດຕະການ
ອິດທິພົນຂອງຄຸນລັກສະນະແບບຈໍາລອງທີ່ສອດຄ້ອງກັນໃນການແຍກຄວາມແຕກຕ່າງທັງສອງ
ການແຈກຈ່າຍ.
ພວກເຮົາກໍານົດ "ອິດທິພົນ" ຂອງຄໍາສັບແບບຈໍາລອງໃນຊັ້ນຮຽນເພື່ອເປັນຄໍາສັບຂ້າມ entropy ສໍາລັບ
ການແຈກຢາຍຊັ້ນຮຽນ wrt ການແຈກຢາຍລະດັບໂລກຂອງຊັ້ນດຽວ
ການຈັດປະເພດ. ດັ່ງນັ້ນ, "ອິດທິພົນ" ແມ່ນຕົວຊີ້ບອກເຖິງວິທີທີ່ຕົວແບບຈໍາລອງຊ່ວຍໄດ້
ແຍກຊັ້ນຮຽນຈາກຊຸດຂໍ້ມູນທັງໝົດ. ໂດຍມີຄຸນສົມບັດແບບຈໍາລອງເປັນເອກະລາດ,
ອິດທິພົນສາມາດຖືກ ກຳ ນົດຢ່າງຖືກຕ້ອງກັບຄຸນລັກສະນະຂອງມັນເອງ. ກັບ correlated ຫຼື
covariant attributes ກໍານົດ, ປັດໄຈ entropy ຂ້າມແມ່ນຫນ້າທີ່ຂອງຊຸດທັງຫມົດ, ແລະ
ພວກເຮົາແຈກຢາຍຄຸນຄ່າອິດທິພົນເທົ່າທຽມກັນກັບຄຸນລັກສະນະແບບຈໍາລອງ.
ຄຸນສົມບັດ ປະສົບການ VALUES
ໃນບົດລາຍງານ "ອິດທິພົນ" ໃນແຕ່ລະຫ້ອງຮຽນ, ຕົວກໍານົດການຄຸນລັກສະນະສໍາລັບຫ້ອງຮຽນນັ້ນແມ່ນໄດ້ມອບໃຫ້
ຕາມລໍາດັບຂອງມູນຄ່າອິດທິພົນທີ່ສູງທີ່ສຸດສໍາລັບຊຸດຄຸນລັກສະນະໄລຍະຕົວແບບ. ພຽງແຕ່ຈໍານວນຫນ້ອຍທໍາອິດ
ຊຸດຄຸນລັກສະນະມັກຈະມີມູນຄ່າອິດທິພົນທີ່ສໍາຄັນ. ຖ້າມູນຄ່າອິດທິພົນຫຼຸດລົງ
ຕ່ໍາກວ່າປະມານ 20% ຂອງມູນຄ່າສູງສຸດ, ຫຼັງຈາກນັ້ນມັນອາດຈະບໍ່ສໍາຄັນ, ແຕ່ທັງຫມົດ
ຊຸດຄຸນສົມບັດຖືກລະບຸໄວ້ເພື່ອຄວາມສົມບູນ. ນອກເຫນືອໄປຈາກມູນຄ່າອິດທິພົນຕໍ່ແຕ່ລະຄົນ
attribute set, ຄ່າຂອງ attribute set parameters ໃນ class ນັ້ນແມ່ນໃຫ້ຕາມ
ກັບຄ່າ "ທົ່ວໂລກ" ທີ່ສອດຄ້ອງກັນ. ຄ່າທົ່ວໂລກແມ່ນຄິດໄລ່ໂດຍກົງຈາກ
ຂໍ້ມູນເປັນເອກະລາດຂອງການຈັດປະເພດ. ຕົວຢ່າງ, ຖ້າ class mean of attribute
"ອຸນຫະພູມ" ແມ່ນ 90 ທີ່ມີມາດຕະຖານ deviation ຂອງ 2.5, ແຕ່ສະເລ່ຍຂອງໂລກແມ່ນ 68 ກັບ a.
ມາດຕະຖານ deviation ຂອງ 16.3, ຫຼັງຈາກນັ້ນຫ້ອງຮຽນນີ້ໄດ້ເລືອກເອົາກໍລະນີທີ່ມີຫຼາຍກ່ວາຫຼາຍກ່ວາ
ອຸນຫະພູມສະເລ່ຍ, ແລະການແຜ່ກະຈາຍເລັກນ້ອຍໃນລະດັບສູງນີ້. ເຊັ່ນດຽວກັນ, ສໍາລັບ
ຊຸດຄຸນລັກສະນະທີ່ແຍກກັນ, ຄວາມເປັນໄປໄດ້ຂອງແຕ່ລະຜົນໄດ້ຮັບໃນຊັ້ນຮຽນແມ່ນໃຫ້, ພ້ອມ
ກັບຄວາມເປັນໄປໄດ້ທົ່ວໂລກທີ່ສອດຄ້ອງກັນ - ຈັດລໍາດັບໂດຍຄວາມສໍາຄັນຂອງມັນ: ຢ່າງແທ້ຈິງ
ຄ່າຂອງ (ບັນທຶກ { / }). ສັນຍາລັກຂອງຄວາມສໍາຄັນ
ມູນຄ່າສະແດງໃຫ້ເຫັນທິດທາງຂອງການປ່ຽນແປງຈາກລະດັບໂລກ. ຂໍ້ມູນນີ້ເຮັດໃຫ້ເປັນ
ພາບລວມຂອງແຕ່ລະຫ້ອງຮຽນແຕກຕ່າງຈາກຄ່າສະເລ່ຍສໍາລັບຂໍ້ມູນທັງຫມົດ, ຕາມລໍາດັບຫຼາຍທີ່ສຸດ
ຄວາມແຕກຕ່າງທີ່ ສຳ ຄັນ.
CLASS ແລະ ກໍລະນີ ບົດລາຍງານ
ໂດຍໄດ້ຮັບຄໍາອະທິບາຍກ່ຽວກັບຊັ້ນຮຽນຈາກບົດລາຍງານ "ອິດທິພົນ", ທ່ານອາດຈະຕ້ອງການ
ການຕິດຕາມເພື່ອເບິ່ງວ່າຫ້ອງຮຽນທີ່ກໍລະນີ favorite ຂອງທ່ານໄດ້ສິ້ນສຸດລົງໃນ. ກົງກັນຂ້າມ, ທ່ານອາດຈະຕ້ອງການ
ເພື່ອເບິ່ງວ່າກໍລະນີໃດຂຶ້ນກັບຫ້ອງຮຽນສະເພາະ. ສໍາລັບປະເພດຂອງການອ້າງອີງຂ້າມນີ້
ຂໍ້ມູນສອງບົດລາຍງານທີ່ສົມບູນແບບສາມາດຖືກສ້າງຂຶ້ນ. ສິ່ງເຫຼົ່ານີ້ແມ່ນມີເອກະສານຄົບຖ້ວນກວ່າ
in /usr/share/doc/autoclass/reports-c.text. ບົດລາຍງານ "ຊັ້ນ", ລາຍຊື່ກໍລະນີທັງຫມົດ
ມີສະມາຊິກທີ່ສໍາຄັນໃນແຕ່ລະຊັ້ນຮຽນແລະລະດັບທີ່ແຕ່ລະກໍລະນີດັ່ງກ່າວເປັນ
ກັບຫ້ອງຮຽນນັ້ນ. ກໍລະນີທີ່ສະມາຊິກຊັ້ນຮຽນມີໜ້ອຍກວ່າ 90% ໃນຊັ້ນຮຽນປະຈຸບັນມີ
ສະມາຊິກໃນຊັ້ນຮຽນອື່ນໆຂອງເຂົາເຈົ້າມີລາຍຊື່ເຊັ່ນກັນ. ກໍລະນີພາຍໃນຫ້ອງຮຽນແມ່ນສັ່ງຢູ່ໃນ
ຈໍານວນກໍລະນີເພີ່ມຂຶ້ນ. ບົດລາຍງານ "ກໍລະນີ" ທາງເລືອກລະບຸວ່າຊັ້ນ (ຫຼືຊັ້ນຮຽນ) ກ
ກໍລະນີເປັນຂອງ, ແລະຄວາມເປັນໄປໄດ້ຂອງສະມາຊິກໃນຊັ້ນຮຽນທີ່ເປັນໄປໄດ້ຫຼາຍທີ່ສຸດ. ສອງນີ້
ບົດລາຍງານອະນຸຍາດໃຫ້ທ່ານຊອກຫາກໍລະນີໃດເປັນຂອງຫ້ອງຮຽນຫຼືວິທີການອື່ນໆປະມານ. ຖ້າ
ເກືອບທຸກໆກໍລະນີມີສະມາຊິກເກືອບ 99% ໃນຫ້ອງຮຽນດຽວ, ມັນຫມາຍຄວາມວ່າ
ຫ້ອງຮຽນຖືກແຍກອອກໄດ້ດີ, ໃນຂະນະທີ່ລະດັບສູງຂອງສະມາຊິກຂ້າມແມ່ນຊີ້ໃຫ້ເຫັນວ່າ
ຫ້ອງຮຽນຖືກທັບຊ້ອນກັນຫຼາຍ. ຊັ້ນຮຽນທີ່ທັບຊ້ອນກັນສູງເປັນຕົວຊີ້ບອກເຖິງຄວາມຄິດ
ການຈັດປະເພດແມ່ນແຕກຫັກແລະກຸ່ມຂອງຫ້ອງຮຽນທີ່ທັບຊ້ອນກັນສູງ,
ປະເພດຂອງຊັ້ນ meta, ແມ່ນອາດຈະເປັນວິທີທີ່ດີກວ່າທີ່ຈະເຂົ້າໃຈຂໍ້ມູນ.
ການປຽບທຽບ CLASS ນໍ້າ ໜັກ ແລະ ຫ້ອງຮຽນ/ກໍລະນີ ລາຍວຽກ ວຽກງານ
ນ້ ຳ ໜັກ ຂອງຊັ້ນຮຽນທີ່ໃຫ້ເປັນພາລາມິເຕີຄວາມເປັນໄປໄດ້ຂອງຊັ້ນຮຽນ, ໂດຍທົ່ວໄປແລ້ວແມ່ນຜົນລວມຂອງທັງໝົດ
ຂໍ້ມູນຕົວຢ່າງ, ຂອງຄວາມເປັນໄປໄດ້ປົກກະຕິທີ່ instance ເປັນສະມາຊິກຂອງຫ້ອງຮຽນ.
ມັນອາດຈະເປັນຂໍ້ຜິດພາດໃນສ່ວນຂອງພວກເຮົາທີ່ພວກເຮົາຈັດຮູບແບບຕົວເລກນີ້ເປັນຈໍານວນເຕັມໃນ
ບົດລາຍງານ, ແທນທີ່ຈະເນັ້ນຫນັກໃສ່ລັກສະນະທີ່ແທ້ຈິງຂອງມັນ. ເຈົ້າຈະພົບເຫັນມູນຄ່າທີ່ແທ້ຈິງ
ບັນທຶກເປັນພາລາມິເຕີ w_j ໃນໂຄງສ້າງ class_DS ໃນໄຟລ໌ .results[-bin] ໃດໆກໍຕາມ.
ບົດລາຍງານ .case ແລະ .class ໃຫ້ຄວາມເປັນໄປໄດ້ວ່າກໍລະນີແມ່ນສະມາຊິກຂອງຫ້ອງຮຽນ. ໃດ
ການມອບຫມາຍກໍລະນີໃຫ້ຫ້ອງຮຽນຮຽກຮ້ອງໃຫ້ມີກົດລະບຽບການຕັດສິນໃຈບາງຢ່າງ. ຄວາມເປັນໄປໄດ້ສູງສຸດ
ກົດລະບຽບການມອບຫມາຍມັກຈະຖືກສົມມຸດຕິຖານໂດຍ implicitly, ແຕ່ມັນບໍ່ສາມາດຄາດຫວັງວ່າຜົນໄດ້ຮັບ
ຂະຫນາດການແບ່ງປັນຈະເທົ່າກັບນ້ໍາຫ້ອງເວັ້ນເສຍແຕ່ເກືອບທັງຫມົດສະມາຊິກໃນຫ້ອງຮຽນ
ຄວາມເປັນໄປໄດ້ແມ່ນຢ່າງມີປະສິດທິພາບໜຶ່ງ ຫຼືສູນ. ດ້ວຍຄວາມເປັນໄປໄດ້ທີ່ບໍ່ແມ່ນສະມາຊິກ 1/0,
ການຈັບຄູ່ນ້ໍາຫນັກຂອງຫ້ອງຮຽນຮຽກຮ້ອງໃຫ້ມີການສະຫຼຸບຄວາມເປັນໄປໄດ້.
ນອກຈາກນັ້ນ, ຍັງມີຄໍາຖາມກ່ຽວກັບຄວາມສົມບູນຂອງ EM (ຄວາມຄາດຫວັງສູງສຸດ)
ການໂຮມ. EM ສະລັບກັນລະຫວ່າງການປະເມີນຄ່າພາລາມິເຕີຂອງຊັ້ນຮຽນ ແລະການປະເມີນຊັ້ນຮຽນ
ຄວາມເປັນໄປໄດ້ຂອງສະມາຊິກ. ການຄາດຄະເນເຫຼົ່ານີ້ມາຮ່ວມກັນ, ແຕ່ບໍ່ເຄີຍໃນຕົວຈິງ
ຕອບສະຫນອງ. AutoClass ປະຕິບັດວິທີການ convergence ຫຼາຍຢ່າງທີ່ມີການຢຸດສະຫຼັບ
ເງື່ອນໄຂທີ່ໃຊ້ພາລາມິເຕີທີ່ເຫມາະສົມໃນໄຟລ໌ .s-params. ການຕັ້ງຄ່າທີ່ເຫມາະສົມຂອງເຫຼົ່ານີ້
ຕົວກໍານົດການ, ເພື່ອໃຫ້ໄດ້ຮັບ convergence ສົມເຫດສົມຜົນສົມບູນແລະປະສິດທິພາບອາດຈະຮຽກຮ້ອງໃຫ້ມີ
ການທົດລອງ.
ALTERNATIVE ການຈັດປະເພດ
ສະຫລຸບລວມແລ້ວ, ບົດລາຍງານຕ່າງໆທີ່ສາມາດສ້າງໄດ້ໃຫ້ທ່ານມີວິທີການເບິ່ງ
ການຈັດປະເພດໃນປະຈຸບັນ. ປົກກະຕິແລ້ວມັນເປັນຄວາມຄິດທີ່ດີທີ່ຈະເບິ່ງການຈັດປະເພດທາງເລືອກ
ເຖິງແມ່ນວ່າພວກມັນບໍ່ມີຄ່າຄວາມເປັນໄປໄດ້ຂອງບັນທຶກຕໍາ່ສຸດທີ່. ອື່ນໆເຫຼົ່ານີ້
ການຈັດປະເພດປົກກະຕິແລ້ວມີຫ້ອງຮຽນທີ່ສອດຄ້ອງກັນຢ່າງໃກ້ຊິດກັບຫ້ອງຮຽນທີ່ເຂັ້ມແຂງໃນອື່ນໆ
ການຈັດປະເພດ, ແຕ່ສາມາດແຕກຕ່າງກັນໃນຫ້ອງຮຽນອ່ອນແອ. "ຄວາມເຂັ້ມແຂງ" ຂອງຫ້ອງຮຽນພາຍໃນ a
ໂດຍທົ່ວໄປແລ້ວການຈັດປະເພດສາມາດຖືກຕັດສິນໂດຍວິທີການຢ່າງຫຼວງຫຼາຍຂອງມູນຄ່າອິດທິພົນສູງສຸດ
ຄຸນລັກສະນະໃນຊັ້ນຮຽນແຕກຕ່າງຈາກຄຸນລັກສະນະທົ່ວໂລກທີ່ສອດຄ້ອງກັນ. ຖ້າບໍ່ມີ
ການຈັດປະເພດເບິ່ງຄືວ່າເປັນທີ່ພໍໃຈ, ມັນເປັນໄປໄດ້ສະເຫມີທີ່ຈະດໍາເນີນການ AutoClass ອີກເທື່ອຫນຶ່ງເພື່ອ
ສ້າງການຈັດປະເພດໃຫມ່.
ແມ່ນຫຍັງ ຕໍ່ໄປ?
ສຸດທ້າຍ, ຄໍາຖາມຂອງສິ່ງທີ່ຕ້ອງເຮັດຫຼັງຈາກທີ່ທ່ານໄດ້ພົບເຫັນການຈັດປະເພດຄວາມເຂົ້າໃຈ
ເກີດຂື້ນ. ໂດຍປົກກະຕິແລ້ວ, ການຈັດປະເພດແມ່ນຂັ້ນຕອນການວິເຄາະຂໍ້ມູນເບື້ອງຕົ້ນສໍາລັບການກວດສອບຊຸດ
ຂອງກໍລະນີ (ສິ່ງຕ່າງໆ, ຕົວຢ່າງ, ແລະອື່ນໆ) ເພື່ອເບິ່ງວ່າພວກເຂົາສາມາດຖືກຈັດກຸ່ມເພື່ອໃຫ້ສະມາຊິກຂອງ
ກຸ່ມແມ່ນ "ຄ້າຍຄືກັນ" ກັບກັນແລະກັນ. AutoClass ໃຫ້ການຈັດກຸ່ມດັ່ງກ່າວໂດຍບໍ່ມີຜູ້ໃຊ້
ຕ້ອງໄດ້ກໍານົດມາດຕະການທີ່ຄ້າຍຄືກັນ. ການກໍ່ສ້າງໃນ "ຄວາມຄ້າຍຄືກັນ" ແມ່ນການວັດແທກເຊິ່ງກັນແລະກັນ
ການຄາດຄະເນຂອງກໍລະນີ. ຂັ້ນຕອນຕໍ່ໄປແມ່ນພະຍາຍາມ "ອະທິບາຍ" ວ່າເປັນຫຍັງວັດຖຸບາງອັນ
ຄືກັບຄົນອື່ນໆຫຼາຍກວ່າຜູ້ທີ່ຢູ່ໃນກຸ່ມທີ່ແຕກຕ່າງກັນ. ປົກກະຕິແລ້ວ, ຄວາມຮູ້ໂດເມນຊີ້ໃຫ້ເຫັນເຖິງ
ຄໍາຕອບ. ສໍາລັບຕົວຢ່າງ, ການຈັດປະເພດຂອງປະຊາຊົນໂດຍອີງໃສ່ລາຍຮັບ, ນິໄສການຊື້, ສະຖານທີ່,
ອາຍຸ, ແລະອື່ນໆ, ອາດຈະເປີດເຜີຍໃຫ້ເຫັນຫ້ອງຮຽນທາງສັງຄົມໂດຍສະເພາະທີ່ບໍ່ຊັດເຈນກ່ອນ
ການວິເຄາະການຈັດປະເພດ. ເພື່ອໃຫ້ໄດ້ຮັບຂໍ້ມູນເພີ່ມເຕີມກ່ຽວກັບຫ້ອງຮຽນດັ່ງກ່າວ, ເພີ່ມເຕີມ
ຂໍ້ມູນຂ່າວສານ, ເຊັ່ນ: ຈໍານວນຂອງລົດ, ສິ່ງທີ່ໂທລະພາບໄດ້ຮັບການເບິ່ງ, ແລະອື່ນໆ, ຈະເປີດເຜີຍເຖິງແມ່ນວ່າ
ຂໍ້ມູນເພີ່ມເຕີມ. ການສຶກສາຕາມລວງຍາວຈະໃຫ້ຂໍ້ມູນກ່ຽວກັບຫ້ອງຮຽນສັງຄົມແນວໃດ
ເກີດຂຶ້ນແລະສິ່ງທີ່ມີອິດທິພົນຕໍ່ທັດສະນະຄະຂອງເຂົາເຈົ້າ - ທັງຫມົດແມ່ນວິທີການນອກເຫນືອໄປຈາກເບື້ອງຕົ້ນ
ການຈັດປະເພດ.
ການຄາດຄະເນ
ການຈັດປະເພດສາມາດຖືກໃຊ້ເພື່ອຄາດຄະເນການເປັນສະມາຊິກຊັ້ນຮຽນສໍາລັບກໍລະນີໃຫມ່. ດັ່ງນັ້ນນອກຈາກນັ້ນ
ອາດຈະໃຫ້ທ່ານມີຄວາມເຂົ້າໃຈບາງຢ່າງກ່ຽວກັບໂຄງສ້າງທີ່ຢູ່ເບື້ອງຫລັງຂໍ້ມູນຂອງທ່ານ, ຕອນນີ້ທ່ານສາມາດນໍາໃຊ້ໄດ້
AutoClass ໂດຍກົງເພື່ອເຮັດໃຫ້ການຄາດຄະເນ, ແລະປຽບທຽບ AutoClass ກັບລະບົບການຮຽນຮູ້ອື່ນໆ.
ເຕັກນິກນີ້ສໍາລັບການຄາດຄະເນຄວາມເປັນໄປໄດ້ຂອງຫ້ອງຮຽນແມ່ນໃຊ້ໄດ້ກັບຄຸນລັກສະນະທັງຫມົດ,
ໂດຍບໍ່ຄໍານຶງເຖິງປະເພດຂອງຂໍ້ມູນ / sub_type ຫຼືປະເພດເງື່ອນໄຂຂອງຮູບແບບຄວາມເປັນໄປໄດ້.
ໃນກໍລະນີທີ່ສະມາຊິກໃນຊັ້ນຮຽນຂອງກໍລະນີຂໍ້ມູນບໍ່ເກີນ 0.0099999 ສໍາລັບອັນໃດນຶ່ງ.
ຫ້ອງຮຽນ "ການຝຶກອົບຮົມ", ຂໍ້ຄວາມຕໍ່ໄປນີ້ຈະປາກົດຢູ່ໃນຜົນຜະລິດຫນ້າຈໍສໍາລັບແຕ່ລະຄົນ
ກໍລະນີ:
xref_get_data: case_num xxx => class 9999
ສະມາຊິກຫ້ອງຮຽນ 9999 ຈະປາກົດຢູ່ໃນ "ກໍລະນີ" ແລະ "ຊັ້ນ" ບົດລາຍງານການອ້າງອິງຂ້າມກັບ a
ສະມາຊິກຊັ້ນຮຽນຂອງ 1.0.
ຈຸດລະວັງ:
ວິທີການປົກກະຕິຂອງການນໍາໃຊ້ AutoClass ແມ່ນເພື່ອເອົາຂໍ້ມູນຂອງທ່ານທັງຫມົດໄວ້ໃນ data_file, ອະທິບາຍວ່າ
ຂໍ້ມູນທີ່ມີຮູບແບບແລະໄຟລ໌ header, ແລະດໍາເນີນການ "autoclass -search". ໃນປັດຈຸບັນ, ແທນທີ່ຈະເປັນຫນຶ່ງ
data_file ທ່ານຈະມີສອງ, training_data_file ແລະ test_data_file.
ມັນເປັນສິ່ງສໍາຄັນທີ່ສຸດທີ່ຖານຂໍ້ມູນທັງສອງມີຄືກັນ AutoClass ຕົວແທນພາຍໃນ.
ນີ້ບໍ່ຄວນເປັນຄວາມຈິງ, AutoClass ຈະອອກ, ຫຼືອາດຈະຢູ່ໃນບາງສະຖານະການ, crash.
ຮູບແບບການຄາດຄະເນໄດ້ຖືກອອກແບບເພື່ອຫວັງວ່າຈະຊີ້ນໍາຜູ້ໃຊ້ໃຫ້ສອດຄ່ອງກັບສິ່ງນີ້
ຮຽກຮ້ອງຕ້ອງການ.
ການກຽມ:
ການຄາດເດົາຮຽກຮ້ອງໃຫ້ມີການຈັດປະເພດການຝຶກອົບຮົມແລະຖານຂໍ້ມູນການທົດສອບ. ການຝຶກອົບຮົມ
ການຈັດປະເພດແມ່ນສ້າງຂຶ້ນໂດຍການແລ່ນ "autoclass -search" ໃນການຝຶກອົບຮົມ
data_file ("data/soybean/soyc.db2"), ຕົວຢ່າງ:
autoclass -search data/soybean/soyc.db2 data/soybean/soyc.hd2
data/soybean/soyc.model data/soybean/soyc.s-params
ນີ້ຈະຜະລິດ "soyc.results-bin" ແລະ "soyc.search". ຫຼັງຈາກນັ້ນ, ສ້າງພາລາມິເຕີ "ບົດລາຍງານ".
ໄຟລ໌ເຊັ່ນ "soyc.r-params" (ເບິ່ງ /usr/share/doc/autoclass/reports-c.text), ແລະແລ່ນ
AutoClass ໃນຮູບແບບ "ບົດລາຍງານ", ເຊັ່ນ:
autoclass -reports data/soybean/soyc.results-bin
data/soybean/soyc.search data/soybean/soyc.r-params
ນີ້ຈະສ້າງໄຟລ໌ອ້າງອີງຂ້າມຊັ້ນຮຽນ ແລະກໍລະນີ, ແລະໄຟລ໌ຄຸນຄ່າທີ່ມີອິດທິພົນ.
ຊື່ໄຟລ໌ແມ່ນອີງໃສ່ຊື່ໄຟລ໌ ".r-params":
data/soybean/soyc.class-text-1
data/soybean/soyc.case-text-1
data/soybean/soyc.influ-text-1
ສິ່ງເຫຼົ່ານີ້ຈະອະທິບາຍເຖິງຊັ້ນຮຽນທີ່ພົບເຫັນຢູ່ໃນໄຟລ໌ training_data_file. ໃນປັດຈຸບັນການຈັດປະເພດນີ້
ສາມາດໃຊ້ເພື່ອຄາດຄະເນການເປັນສະມາຊິກຊັ້ນຮຽນທີ່ເປັນໄປໄດ້ຂອງ test_data_file case
("data/soybean/soyc-predict.db2") ໃນຫ້ອງຮຽນ training_data_file.
autoclass -predict data/soybean/soyc-predict.db2
data/soybean/soyc.results-bin data/soybean/soyc.search
data/soybean/soyc.r-params
ນີ້ຈະສ້າງໄຟລ໌ອ້າງອີງຂ້າມຊັ້ນຮຽນ ແລະກໍລະນີສໍາລັບກໍລະນີ test_data_file
ຄາດຄະເນການເປັນສະມາຊິກຊັ້ນຮຽນທີ່ເປັນໄປໄດ້ຂອງເຂົາເຈົ້າໃນຫ້ອງຮຽນ training_data_file. ໄດ້
ຊື່ໄຟລ໌ແມ່ນອີງໃສ່ຊື່ໄຟລ໌ ".db2":
data/soybean/soyc-predict.class-text-1
data/soybean/soyc-predict.case-text-1
ໃຊ້ autoclass ອອນໄລນ໌ໂດຍໃຊ້ບໍລິການ onworks.net