ພາສາອັງກິດພາສາຝຣັ່ງແອສປາໂຍນ

Ad


OnWorks favicon

autoclass - ອອນລາຍໃນຄລາວ

ເປີດໃຊ້ autoclass ໃນ OnWorks ຜູ້ໃຫ້ບໍລິການໂຮດຕິ້ງຟຣີຜ່ານ Ubuntu Online, Fedora Online, Windows online emulator ຫຼື MAC OS online emulator

ນີ້ແມ່ນຄໍາສັ່ງ autoclass ທີ່ສາມາດດໍາເນີນການໄດ້ໃນ OnWorks ຜູ້ໃຫ້ບໍລິການໂຮດຕິ້ງຟຣີໂດຍໃຊ້ຫນຶ່ງໃນຫຼາຍໆບ່ອນເຮັດວຽກອອນໄລນ໌ຂອງພວກເຮົາເຊັ່ນ Ubuntu Online, Fedora Online, Windows online emulator ຫຼື MAC OS online emulator

ໂຄງການ:

NAME


autoclass - ຄົ້ນພົບຊັ້ນຮຽນໂດຍອັດຕະໂນມັດໃນຂໍ້ມູນ

ສະຫຼຸບສັງລວມ


autoclass - ຄົ້ນຫາ data_file header_file model_file s_param_file
autoclass - ລາຍ​ງານ​ results_file search_file r_params_file
autoclass - ຄາດ​ຄະ​ເນ​ results_file search_file results_file

ລາຍລະອຽດ


AutoClass ແກ້ໄຂບັນຫາການຄົ້ນພົບອັດຕະໂນມັດຂອງຫ້ອງຮຽນໃນຂໍ້ມູນ (ບາງຄັ້ງເອີ້ນວ່າ
clustering, ຫຼື unsupervised ການຮຽນຮູ້), ທີ່ແຕກຕ່າງຈາກການຜະລິດຂອງຫ້ອງຮຽນ
ຄໍາອະທິບາຍຈາກຕົວຢ່າງທີ່ມີປ້າຍຊື່ (ເອີ້ນວ່າການຮຽນຮູ້ທີ່ມີການຄວບຄຸມ). ມັນມີຈຸດປະສົງເພື່ອຄົ້ນພົບ
ຫ້ອງຮຽນ "ທໍາມະຊາດ" ໃນຂໍ້ມູນ. AutoClass ແມ່ນໃຊ້ໄດ້ກັບການສັງເກດຂອງສິ່ງທີ່ສາມາດເຮັດໄດ້
ຖືກອະທິບາຍໂດຍຊຸດຂອງຄຸນລັກສະນະ, ໂດຍບໍ່ມີການອ້າງອີງເຖິງສິ່ງອື່ນໆ. ຄຸນຄ່າຂອງຂໍ້ມູນ
ທີ່​ສອດ​ຄ້ອງ​ກັນ​ກັບ​ຄຸນ​ລັກ​ສະ​ນະ​ຂອງ​ແຕ່​ລະ​ແມ່ນ​ຈໍາ​ກັດ​ເປັນ​ຕົວ​ເລກ​ຫຼື​ອົງ​ປະ​ກອບ​ຂອງ a
ຊຸດສັນຍາລັກຄົງທີ່. ດ້ວຍຂໍ້ມູນຕົວເລກ, ຕ້ອງມີຂໍ້ຜິດພາດໃນການວັດແທກ.

AutoClass ກໍາລັງຊອກຫາການຈັດປະເພດທີ່ດີທີ່ສຸດຂອງຂໍ້ມູນທີ່ມັນສາມາດຊອກຫາໄດ້. ກ
ການ​ຈັດ​ປະ​ເພດ​ແມ່ນ​ປະ​ກອບ​ດ້ວຍ​:

1) ຊຸດຂອງຫ້ອງຮຽນ, ແຕ່ລະຄົນໄດ້ຖືກອະທິບາຍໂດຍຊຸດຂອງຕົວກໍານົດການຫ້ອງຮຽນ, ເຊິ່ງ
ລະບຸວິທີການແຈກຢາຍຫ້ອງຮຽນຕາມຄຸນລັກສະນະຕ່າງໆ. ຍົກ​ຕົວ​ຢ່າງ,
"ຄວາມສູງປົກກະຕິແຈກຢາຍໂດຍສະເລ່ຍ 4.67 ຟຸດແລະມາດຕະຖານ deviation .32 ft",

2) ຊຸດນ້ໍາຫນັກຂອງຊັ້ນຮຽນ, ອະທິບາຍເຖິງອັດຕາສ່ວນຂອງກໍລະນີທີ່ອາດຈະຢູ່ໃນ
ແຕ່ລະຫ້ອງຮຽນ.

3) ການມອບໝາຍຄວາມເປັນໄປໄດ້ຂອງກໍລະນີໃນຂໍ້ມູນໃຫ້ກັບຫ້ອງຮຽນເຫຼົ່ານີ້. Ie ສໍາລັບແຕ່ລະຄົນ
ກໍ​ລະ​ນີ​, ຄວາມ​ເປັນ​ໄປ​ໄດ້​ທີ່​ເປັນ​ສະ​ມາ​ຊິກ​ຂອງ​ແຕ່​ລະ​ຫ້ອງ​.

ໃນຖານະເປັນລະບົບ Bayesian ຢ່າງເຂັ້ມງວດ (ຍອມຮັບບໍ່ມີການທົດແທນ!), ການວັດແທກຄຸນນະພາບ AutoClass ການນໍາໃຊ້
ແມ່ນຄວາມເປັນໄປໄດ້ທັງ ໝົດ ທີ່ເຈົ້າບໍ່ຮູ້ຫຍັງກ່ຽວກັບຂໍ້ມູນຂອງທ່ານຫຼືໂດເມນຂອງມັນ, ເຈົ້າ
ຈະພົບເຫັນຊຸດຂໍ້ມູນນີ້ທີ່ສ້າງຂຶ້ນໂດຍຕົວແບບພື້ນຖານນີ້. ນີ້ປະກອບມີ
ຄວາມເປັນໄປໄດ້ກ່ອນຫນ້າທີ່ວ່າ "ໂລກ" ຈະເລືອກເອົາຈໍານວນຫ້ອງຮຽນນີ້, ຊຸດນີ້
ນ້ ຳ ໜັກ ຂອງຫ້ອງຮຽນທີ່ກ່ຽວຂ້ອງ, ແລະຊຸດຂອງຕົວ ກຳ ນົດນີ້ ສຳ ລັບແຕ່ລະຊັ້ນຮຽນ, ແລະຄວາມເປັນໄປໄດ້ນັ້ນ
ຊຸດຂອງຫ້ອງຮຽນດັ່ງກ່າວຈະສ້າງຊຸດຂອງຄ່ານີ້ສໍາລັບຄຸນລັກສະນະໃນ
ກໍ​ລະ​ນີ​ຂໍ້​ມູນ​.

ຄວາມເປັນໄປໄດ້ເຫຼົ່ານີ້ແມ່ນມີຫນ້ອຍຫຼາຍ, ຢູ່ໃນຂອບເຂດຂອງ e^-30000, ແລະດັ່ງນັ້ນແມ່ນປົກກະຕິແລ້ວ.
ສະ​ແດງ​ອອກ​ໃນ​ຫມາຍ​ເຫດ exponential​.

ໃນເວລາທີ່ດໍາເນີນການກັບ - ຄົ້ນຫາ ຄໍາສັ່ງ, AutoClass ຄົ້ນ​ຫາ​ສໍາ​ລັບ​ການ​ຈັດ​ປະ​ເພດ​. ທີ່ຕ້ອງການ
ການໂຕ້ຖຽງແມ່ນເສັ້ນທາງໄປສູ່ສີ່ໄຟລ໌ປ້ອນຂໍ້ມູນ, ເຊິ່ງສະຫນອງຂໍ້ມູນ, ຮູບແບບຂໍ້ມູນ,
ຮູບແບບການຈັດປະເພດທີ່ຕ້ອງການ, ແລະຕົວກໍານົດການຊອກຫາ, ຕາມລໍາດັບ.

ໂດຍຕົວຢ່າງ, AutoClass ຂຽນຜົນໄດ້ຮັບລະດັບປານກາງໃນໄຟລ໌ຖານສອງ. ກັບ - ລາຍ​ງານ​
ຄໍາສັ່ງ, AutoClass ສ້າງບົດລາຍງານ ASCII. ການໂຕ້ຖຽງແມ່ນຊື່ເສັ້ນທາງເຕັມຂອງ
ໄຟລ໌ .results, .search, ແລະ .r-params.

ໃນເວລາທີ່ດໍາເນີນການກັບ - ຄາດ​ຄະ​ເນ​ ຄໍາສັ່ງ, AutoClass ຄາດຄະເນການເປັນສະມາຊິກຫ້ອງຮຽນຂອງ "ການທົດສອບ"
ຊຸດຂໍ້ມູນໂດຍອີງໃສ່ຊັ້ນຮຽນທີ່ພົບເຫັນຢູ່ໃນຊຸດຂໍ້ມູນ "ການຝຶກອົບຮົມ" (ເບິ່ງ "PREDICTIONS" ຂ້າງລຸ່ມນີ້).

ປັດໄຈນໍາເຂົ້າ ເອກະສານ


ຊຸດຂໍ້ມູນ AutoClass ຢູ່ໃນສອງໄຟລ໌. ມີໄຟລ໌ header (ປະເພດໄຟລ໌ "hd2") ທີ່
ອະທິບາຍຮູບແບບຂໍ້ມູນສະເພາະ ແລະຄຳນິຍາມຄຸນສົມບັດ. ມູນຄ່າຂໍ້ມູນຕົວຈິງແມ່ນ
ໃນໄຟລ໌ຂໍ້ມູນ (ປະເພດໄຟລ໌ "db2"). ພວກເຮົາໃຊ້ສອງໄຟລ໌ເພື່ອອະນຸຍາດໃຫ້ແກ້ໄຂຄໍາອະທິບາຍຂໍ້ມູນ
ໂດຍບໍ່ມີການຈັດການກັບຊຸດຂໍ້ມູນທັງຫມົດ. ນີ້ເຮັດໃຫ້ມັນງ່າຍຕໍ່ການທົດລອງ
ຄໍາອະທິບາຍທີ່ແຕກຕ່າງກັນຂອງຖານຂໍ້ມູນໂດຍບໍ່ຈໍາເປັນຕ້ອງຜະລິດຊຸດຂໍ້ມູນ.
ພາຍໃນ, ໂຄງສ້າງຖານຂໍ້ມູນ AutoClass ຖືກລະບຸໂດຍສ່ວນຫົວແລະໄຟລ໌ຂໍ້ມູນ,
ແລະຈໍານວນຂໍ້ມູນທີ່ຖືກໂຫລດ.

ສໍາລັບລາຍລະອຽດເພີ່ມເຕີມກ່ຽວກັບຮູບແບບຂອງໄຟລ໌ເຫຼົ່ານີ້, ເບິ່ງ
/usr/share/doc/autoclass/preparation-c.text.

ຂໍ້ມູນ ເອກະສານ
ໄຟລ​໌​ຂໍ້​ມູນ​ປະ​ກອບ​ດ້ວຍ​ລໍາ​ດັບ​ຂອງ​ວັດ​ຖຸ​ຂໍ້​ມູນ (datum ຫຼື​ກໍ​ລະ​ນີ​) ສິ້ນ​ສຸດ​ລົງ​ຂອງ​
ໄຟລ໌. ຈຳນວນຂອງຄ່າສຳລັບແຕ່ລະວັດຖຸຂໍ້ມູນຕ້ອງເທົ່າກັບຈຳນວນຂອງ
ຄຸນລັກສະນະທີ່ຖືກກໍານົດໄວ້ໃນໄຟລ໌ສ່ວນຫົວ. ວັດຖຸຂໍ້ມູນຕ້ອງເປັນກຸ່ມຂອງໂທເຄັນທີ່ຂັ້ນດ້ວຍ
"ສາຍໃຫມ່". ຄຸນສົມບັດຖືກພິມເປັນ REAL, DISCRETE, ຫຼື DUMMY. ຄຸນ​ລັກ​ສະ​ນະ​ທີ່​ແທ້​ຈິງ​ແມ່ນ​
ຕົວເລກ, ຈໍານວນເຕັມຫຼືຈຸດລອຍ. ຄຸນ​ຄ່າ​ຄຸນ​ສົມ​ບັດ​ທີ່​ແຕກ​ຕ່າງ​ກັນ​ສາ​ມາດ​ເປັນ​ສະ​ຕ​ຣິ​ງ​,
ສັນຍາລັກ, ຫຼືຈໍານວນເຕັມ. ຄ່າຄຸນສົມບັດ dummy ສາມາດເປັນປະເພດໃດກໍໄດ້. dummys ແມ່ນອ່ານ
ໃນແຕ່ຖືກລະເລີຍ - ພວກມັນຈະຖືກຕັ້ງເປັນສູນໃນຖານຂໍ້ມູນພາຍໃນ. ດັ່ງນັ້ນ
ມູນຄ່າຕົວຈິງຈະບໍ່ສາມາດໃຊ້ໄດ້ສໍາລັບການລາຍງານຜົນໄດ້ຮັບ. ເພື່ອໃຫ້ມີຄຸນລັກສະນະເຫຼົ່ານີ້
ຄ່າທີ່ມີຢູ່, ໃຊ້ປະເພດ REAL ຫຼືປະເພດ DISCRETE, ແລະກໍານົດປະເພດຕົວແບບຂອງພວກເຂົາເປັນ
ບໍ່ສົນໃຈໃນໄຟລ໌ .model. ຄ່າທີ່ຂາດຫາຍໄປສໍາລັບປະເພດຄຸນລັກສະນະໃດນຶ່ງອາດຈະຖືກສະແດງໂດຍ
ທັງ "?", ຫຼື token ອື່ນໆທີ່ລະບຸໄວ້ໃນໄຟລ໌ສ່ວນຫົວ. ທັງຫມົດແມ່ນແປເປັນພິເສດ
ມູນຄ່າທີ່ເປັນເອກະລັກຫຼັງຈາກການອ່ານ, ດັ່ງນັ້ນສັນຍາລັກນີ້ຖືກສະຫງວນໄວ້ຢ່າງມີປະສິດທິພາບສໍາລັບການບໍ່ຮູ້ / ຫາຍໄປ
ຄ່າ.

ຍົກ​ຕົວ​ຢ່າງ:
ຂາວ 38.991306 0.54248405 2 2 1
ສີແດງ 25.254923 0.5010235 9 2 1
ສີເຫຼືອງ 32.407973 ? 8 2 1
all_white 28.953982 0.5267696 0 1 1

ຫົວ ໜ້າ ເອກະສານ
ໄຟລ໌ header ກໍານົດຮູບແບບໄຟລ໌ຂໍ້ມູນ, ແລະຄໍານິຍາມຂອງຂໍ້ມູນ
ຄຸນ​ລັກ​ສະ​ນະ. ຂໍ້ມູນສະເພາະຂອງ header file ປະກອບມີສອງພາກສ່ວນ -- ຂໍ້ມູນ
ກໍານົດການກໍານົດຮູບແບບສະເພາະ, ແລະຕົວອະທິບາຍຄຸນລັກສະນະ. ";" ໃນຖັນ 1
ກໍານົດຄໍາເຫັນ.

ໄຟລ໌ສ່ວນຫົວປະຕິບັດຕາມຮູບແບບທົ່ວໄປນີ້:

;; num_db2_format_defs ຄ່າ (ຈໍານວນຂອງເສັ້ນ def ຮູບແບບ
;; ທີ່ປະຕິບັດຕາມ), ຊ່ວງຂອງ n ແມ່ນ 1 -> 5
num_db2_format_defs ນ
;; number_of_attributes token ແລະຄ່າທີ່ຕ້ອງການ
number_of_attributes
;; ຕໍ່ໄປນີ້ແມ່ນເປັນທາງເລືອກ - ຄ່າເລີ່ມຕົ້ນແມ່ນລະບຸໄວ້
separator_char ' '
comment_char ';'
unknown_token '?'
separator_char ','

;; ຕົວອະທິບາຍຄຸນລັກສະນະ
;;
;;

ແຕ່ລະຕົວອະທິບາຍຄຸນລັກສະນະແມ່ນແຖວຂອງ:

ດັດຊະນີຄຸນສົມບັດ (ຕາມສູນ, ເລີ່ມຕົ້ນໃນຖັນ 1)
ປະເພດຄຸນສົມບັດ. ເບິ່ງຂ້າງລຸ່ມນີ້.
ລັກສະນະຍ່ອຍ. ເບິ່ງຂ້າງລຸ່ມນີ້
ລາຍ​ລະ​ອຽດ​ຄຸນ​ສົມ​ບັດ​: ສັນ​ຍາ​ລັກ (ບໍ່​ມີ​ຊ່ອງ​ຫວ່າງ​ຝັງ​) ຫຼື​
ຊ່ອຍແນ່; <= 40 ຕົວອັກສອນ
ຊັບສິນສະເພາະ ແລະຄູ່ມູນຄ່າ.
ການປະສົມປະສານທີ່ມີຢູ່ໃນປັດຈຸບັນ:

ປະເພດຊັບສິນປະເພດຍ່ອຍ
------------------------------------
dummy none/nil --
ຂອບເຂດນາມສະກຸນ
ຄວາມ​ຜິດ​ພາດ​ສະ​ຖານ​ທີ່​ທີ່​ແທ້​ຈິງ​
ຕົວຈິງ scalar zero_point rel_error

ຄຸນສົມບັດ ERROR ຄວນເປັນຕົວແທນຂອງການຄາດຄະເນທີ່ດີທີ່ສຸດຂອງທ່ານກ່ຽວກັບຄວາມຜິດພາດສະເລ່ຍທີ່ຄາດໄວ້
ການວັດແທກ ແລະການບັນທຶກຄຸນສົມບັດທີ່ແທ້ຈິງນັ້ນ. ຂາດຂໍ້ມູນທີ່ດີກວ່າ, ໄດ້
ຄວາມ​ຜິດ​ພາດ​ສາ​ມາດ​ໄດ້​ຮັບ​ການ​ປະ​ຕິ​ບັດ​ເປັນ 1/2 ຄວາມ​ແຕກ​ຕ່າງ​ທີ່​ເປັນ​ໄປ​ໄດ້​ຕໍາ​່​ສຸດ​ທີ່​ລະ​ຫວ່າງ​ຄ່າ​ວັດ​ແທກ​. ມັນ​ສາ​ມາດ
ມີການໂຕ້ຖຽງວ່າຄຸນຄ່າທີ່ແທ້ຈິງມັກຈະຖືກຕັດອອກ, ດັ່ງນັ້ນຄວາມຜິດພາດທີ່ນ້ອຍກວ່າອາດຈະເປັນເຫດຜົນ,
ໂດຍສະເພາະສໍາລັບຂໍ້ມູນທີ່ສ້າງຂຶ້ນ. ແຕ່ AutoClass ພຽງແຕ່ເຫັນຄ່າທີ່ບັນທຶກໄວ້. ສະນັ້ນມັນ
ຕ້ອງການຄວາມຜິດພາດໃນຄ່າທີ່ບັນທຶກໄວ້, ແທນທີ່ຈະເປັນຄວາມຜິດພາດການວັດແທກຕົວຈິງ. ການຕັ້ງຄ່າ
ຄວາມ​ຜິດ​ພາດ​ນີ້​ຫຼາຍ​ຂະ​ຫນາດ​ນ້ອຍ​ກ​່​ວາ​ຄວາມ​ແຕກ​ຕ່າງ​ສະ​ແດງ​ອອກ​ຕໍາ​່​ສຸດ​ທີ່​ຫມາຍ​ຄວາມ​ເປັນ​ໄປ​ໄດ້​ຂອງ
ຄ່າທີ່ບໍ່ສາມາດສະແດງອອກໃນຂໍ້ມູນ. ຮ້າຍແຮງໄປກວ່ານັ້ນ, ມັນຫມາຍຄວາມວ່າສອງຄ່າດຽວກັນ
ຕ້ອງສະແດງເຖິງການວັດແທກທີ່ໃກ້ຊິດກວ່າທີ່ຕົວຈິງແລ້ວ.
ນີ້ນໍາໄປສູ່ການ over-fitting ຂອງການຈັດປະເພດ.

ຄຸນສົມບັດ REL_ERROR ຖືກນໍາໃຊ້ສໍາລັບ SCALAR reals ເມື່ອຄວາມຜິດພາດແມ່ນອັດຕາສ່ວນກັບ
ມູນຄ່າການວັດແທກ. ບໍ່ຮອງຮັບຄຸນສົມບັດ ERROR.

AutoClass ໃຊ້ຄວາມຜິດພາດເປັນຂອບເຂດຕ່ໍາກ່ຽວກັບຄວາມກວ້າງຂອງການແຈກຢາຍປົກກະຕິ. ດັ່ງນັ້ນ
ການ​ຄາດ​ຄະ​ເນ​ຄວາມ​ຜິດ​ພາດ​ຂະ​ຫນາດ​ນ້ອຍ​ມີ​ແນວ​ໂນ້ມ​ທີ່​ຈະ​ໃຫ້​ຈຸດ​ສູງ​ສຸດ​ແຄບ​ແລະ​ເພີ່ມ​ຂຶ້ນ​ທັງ​ສອງ​ຈໍາ​ນວນ​ຂອງ
ຫ້ອງຮຽນແລະຄວາມເປັນໄປໄດ້ການຈັດປະເພດ. ການຄາດຄະເນຄວາມຜິດພາດຢ່າງກວ້າງຂວາງມີແນວໂນ້ມທີ່ຈະຈໍາກັດການ
ຈໍາ​ນວນ​ຂອງ​ຫ້ອງ​ຮຽນ​.

ຄຸນສົມບັດ ZERO_POINT scalar ແມ່ນຄ່ານ້ອຍທີ່ສຸດທີ່ຂະບວນການວັດແທກສາມາດເຮັດໄດ້
ໄດ້ຜະລິດ. ນີ້ມັກຈະເປັນ 0.0, ຫຼືຫນ້ອຍລົງໂດຍບາງຂອບເຂດຄວາມຜິດພາດ. ເຊັ່ນດຽວກັນ, ຂອບເຂດ
ຄຸນສົມບັດຂັ້ນຕ່ຳ ແລະສູງສຸດຂອງແທ້ແມ່ນເປັນຂອບເຂດສະເພາະໃນຂະບວນການສ້າງຄຸນສົມບັດ.
ສໍາລັບອັດຕາສ່ວນການຄິດໄລ່ເຫຼົ່ານີ້ຈະເປັນ 0-e ແລະ 100+e, ບ່ອນທີ່ e ເປັນຄ່າຄວາມຜິດພາດ. ໄດ້
ຊ່ວງຂອງຄຸນລັກສະນະແຍກແມ່ນຈຳນວນຂອງຄ່າທີ່ເປັນໄປໄດ້ທີ່ຄຸນສົມບັດສາມາດນຳໃຊ້ໄດ້.
ໄລຍະນີ້ຕ້ອງລວມເຖິງຄ່າທີ່ບໍ່ຮູ້ຈັກເມື່ອຄ່າດັ່ງກ່າວເກີດຂຶ້ນ.

ຕົວຢ່າງໄຟລ໌ສ່ວນຫົວ:

!#; ໄຟລ໌ສ່ວນຫົວ AutoClass C -- extension .hd2
!#; ຕົວອັກສອນຕໍ່ໄປນີ້ໃນຖັນທີ 1 ເຮັດໃຫ້ເສັ້ນສະແດງຄວາມຄິດເຫັນ:
!#; '!', '#', ';', ' ', ແລະ '\n' (ແຖວຫວ່າງເປົ່າ)

;#! num_db2_format_defs
num_db2_format_defs 2
;; ຕ້ອງການ
number_of_attributes 7
;; ທາງເລືອກ - ຄ່າເລີ່ມຕົ້ນແມ່ນລະບຸໄວ້
;; separator_char ' '
;; comment_char ';'
;; unknown_token '?'
separator_char ','

;;

0 dummy nil "ຊັ້ນທີ່ແທ້ຈິງ, ໄລຍະ = 1 - 3"
1 ສະຖານທີ່ທີ່ແທ້ຈິງ "ສະຖານທີ່ X, m. ໃນລະຫວ່າງ 25.0 - 40.0" ຄວາມຜິດພາດ .25
2 ສະຖານທີ່ທີ່ແທ້ຈິງ "Y ສະຖານທີ່, m. ໃນລະຫວ່າງ 0.5 - 0.7" ຄວາມຜິດພາດ .05
3 ສະ​ເກັດ​ຕົວ​ຈິງ "ນ້ຳ​ໜັກ, ກິ​ໂລ. ໃນ​ລະ​ດັບ 5.0 - 10.0" zero_point 0.0
rel_error .001
4 discrete nominal "ຄ່າຄວາມຈິງ, range = 1 - 2" range 2
5 ນາມສະກຸນ "ສີຂອງ foobar, 10 ຄ່າ" ຊ່ວງ 10
6 ໄລຍະກຸ່ມ Spectral_color_group ສະເພາະ 6

MODEL ເອກະສານ
ການຈັດປະເພດຂອງຊຸດຂໍ້ມູນແມ່ນເຮັດກ່ຽວກັບຕົວແບບທີ່ລະບຸຮູບແບບຂອງ
ຟັງຊັນການແຈກຢາຍຄວາມເປັນໄປໄດ້ສໍາລັບຊັ້ນຮຽນໃນຊຸດຂໍ້ມູນນັ້ນ. ປົກກະຕິຮູບແບບ
ໂຄງສ້າງແມ່ນຖືກກໍານົດໄວ້ໃນໄຟລ໌ແບບຈໍາລອງ (ປະເພດໄຟລ໌ "ຮູບແບບ"), ເຊິ່ງປະກອບດ້ວຍຫນຶ່ງຫຼືຫຼາຍແບບ.
ພາຍໃນ, ຮູບແບບແມ່ນຖືກກໍານົດທີ່ກ່ຽວຂ້ອງກັບຖານຂໍ້ມູນສະເພາະ. ດັ່ງນັ້ນຈຶ່ງໄດ້ຖືກກໍານົດ
ໂດຍຖານຂໍ້ມູນທີ່ສອດຄ້ອງກັນ, ໄຟລ໌ຕົວແບບຂອງຕົວແບບແລະຕໍາແຫນ່ງລໍາດັບຂອງມັນຢູ່ໃນ
ຍື່ນ.

ແຕ່ລະແບບຈໍາລອງຖືກລະບຸໄວ້ໂດຍສາຍຄໍານິຍາມກຸ່ມແບບຈໍາລອງໜຶ່ງ ຫຼືຫຼາຍກວ່ານັ້ນ. ແຕ່ລະກຸ່ມຕົວແບບ
line associates attribute indices with a model term type.

ນີ້ແມ່ນຕົວຢ່າງໄຟລ໌ຕົວຢ່າງ:

# ໄຟລ໌ຕົວແບບ AutoClass C -- extension .model
model_index 0 7
ບໍ່ສົນໃຈ 0
single_normal_cn 3
single_normal_cn 17 18 21
multi_normal_cn 1 2
multi_normal_cn 8 9 10
multi_normal_cn 11 12 13
single_multinomial ຄ່າເລີ່ມຕົ້ນ

ນີ້, ແຖວທໍາອິດແມ່ນຄໍາເຫັນ. ຕົວອັກສອນຕໍ່ໄປນີ້ຢູ່ໃນຖັນທີ 1 ເຮັດໃຫ້ເສັ້ນ a
ຄໍາເຫັນ: `!', `#', ` ', `;', ແລະ `\n' (ແຖວຫວ່າງເປົ່າ).

ໂທເຄັນ "model_index n m" ຕ້ອງປາກົດຢູ່ໃນແຖວທີ່ບໍ່ແມ່ນຄໍາເຫັນທໍາອິດ, ແລະນໍາຫນ້າ
ສາຍຄຳນິຍາມຂອງຕົວແບບ. n ແມ່ນດັດຊະນີຕົວແບບທີ່ອີງໃສ່ສູນ, ໂດຍປົກກະຕິແມ່ນ 0 ບ່ອນທີ່ມີ
ຮູບແບບດຽວເທົ່ານັ້ນ - ສ່ວນໃຫຍ່ຂອງສະຖານະການຄົ້ນຫາ. m ແມ່ນຈໍານວນຂອງໄລຍະຕົວແບບ
ເສັ້ນຄໍານິຍາມທີ່ປະຕິບັດຕາມ.

ເຈັດສາຍສຸດທ້າຍແມ່ນສາຍກຸ່ມຕົວແບບ. ແຕ່ລະສາຍກຸ່ມແບບຈໍາລອງປະກອບດ້ວຍ:

ປະເພດຄໍາສັບແບບຈໍາລອງ (ຫນຶ່ງໃນ single_multinomial, single_normal_cm, single_normal_cn,
multi_normal_cn, ຫຼື ບໍ່ສົນໃຈ).

ບັນຊີລາຍຊື່ຂອງຕົວຊີ້ວັດຄຸນລັກສະນະ (ບັນຊີລາຍຊື່ທີ່ກໍານົດໄວ້ຄຸນລັກສະນະ), ຫຼືສັນຍາລັກ Default. ຄຸນ​ລັກ​ສະ​ນະ
ດັດຊະນີແມ່ນອີງໃສ່ສູນ. ຂໍ້ກໍານົດຂອງຕົວແບບດຽວອາດມີຕົວຊີ້ວັດຄຸນສົມບັດໜຶ່ງ ຫຼືຫຼາຍອັນ
ແຕ່​ລະ​ແຖວ, ໃນ​ຂະ​ນະ​ທີ່​ຂໍ້​ກໍາ​ນົດ​ຕົວ​ແບບ​ຫຼາຍ​ຮຽກ​ຮ້ອງ​ໃຫ້​ມີ​ສອງ​ຫຼື​ຫຼາຍ​ດັດ​ຊະ​ນີ​ຄຸນ​ສົມ​ບັດ​ຕໍ່​ແຖວ. ອັນ
ດັດຊະນີຄຸນລັກສະນະຕ້ອງບໍ່ປາກົດຫຼາຍກວ່າຫນຶ່ງຄັ້ງໃນລາຍການແບບຈໍາລອງ.

ຫມາຍເຫດ:

1) ຕ້ອງມີນິຍາມຕົວແບບຢ່າງໜ້ອຍໜຶ່ງອັນ (model_index token).

2) ອາດຈະມີຫຼາຍລາຍການຢູ່ໃນຕົວແບບສໍາລັບປະເພດຄໍາທີ່ໃຊ້ແບບຈໍາລອງໃດໜຶ່ງ.

3​) ປະ​ເພດ​ຄໍາ​ສັບ​ຕົວ​ແບບ​ປະ​ຈຸ​ບັນ​ປະ​ກອບ​ດ້ວຍ​:

single_multinomial
ແບບຈໍາລອງແຍກຄຸນລັກສະນະເປັນ multinomials, ທີ່ມີຄ່າທີ່ຂາດຫາຍໄປ.

single_normal_cn
ແບບຈໍາລອງຄຸນລັກສະນະທີ່ມີຄຸນຄ່າທີ່ແທ້ຈິງຕາມປົກກະຕິ; ບໍ່ມີຄ່າທີ່ຂາດຫາຍໄປ.

single_normal_cm
ແບບຈໍາລອງຄຸນລັກສະນະທີ່ມີຄຸນຄ່າທີ່ແທ້ຈິງທີ່ມີຄ່າທີ່ຂາດຫາຍໄປ.

multi_normal_cn
ແມ່ນຕົວແບບປົກກະຕິຂອງ covariant ໂດຍບໍ່ມີຄ່າທີ່ຂາດຫາຍໄປ.

ບໍ່ສົນໃຈ ອະນຸຍາດໃຫ້ຕົວແບບບໍ່ສົນໃຈໜຶ່ງ ຫຼືຫຼາຍຄຸນສົມບັດ. ບໍ່ສົນໃຈ ບໍ່ຖືກຕ້ອງ
ປະເພດໄລຍະຕົວແບບເລີ່ມຕົ້ນ.

ເບິ່ງເອກະສານໃນ model-c.text ສໍາລັບຂໍ້ມູນເພີ່ມເຕີມກ່ຽວກັບຕົວແບບສະເພາະ
ຂໍ້ ກຳ ນົດ.

4) Single_normal_cn, single_normal_cm, ແລະ multi_normal_cn ຂໍ້ມູນແບບຈໍາລອງ, ປະເພດຍ່ອຍຂອງມັນ
is ຜິວ ໜັງ (ການແຈກຢາຍມູນຄ່າຢູ່ຫ່າງຈາກ 0.0, ແລະດັ່ງນັ້ນຈຶ່ງບໍ່ແມ່ນ "ປົກກະຕິ"
ການແຜ່ກະຈາຍ) ຈະຖືກປ່ຽນບັນທຶກ ແລະສ້າງແບບຈໍາລອງດ້ວຍຕົວແບບບັນທຶກ-ປົກກະຕິ. ສໍາລັບ
ຂໍ້ມູນປະເພດຍ່ອຍແມ່ນ ສະຖານທີ່ (ການແຈກຢາຍມູນຄ່າແມ່ນປະມານ 0.0), ບໍ່ມີການປ່ຽນແປງ
ເຮັດແລ້ວ, ແລະຮູບແບບປົກກະຕິຖືກນໍາໃຊ້.

SEARCHING


AutoClass, ເມື່ອຖືກເອີ້ນໃນໂຫມດ "ຄົ້ນຫາ" ຈະກວດເບິ່ງຄວາມຖືກຕ້ອງຂອງຊຸດຂໍ້ມູນ,
ຫົວ, ຕົວແບບ, ແລະໄຟລ໌ພາລາມິເຕີຄົ້ນຫາ. ຄວາມຜິດພາດຈະຢຸດການຄົ້ນຫາຈາກການເລີ່ມຕົ້ນ, ແລະ
ຄຳເຕືອນຈະຖາມຜູ້ໃຊ້ວ່າຈະສືບຕໍ່ຫຼືບໍ່. ປະຫວັດຂອງຄວາມຜິດພາດແລະການເຕືອນໄພ
ຂໍ້ຄວາມຖືກບັນທຶກໄວ້, ໂດຍຄ່າເລີ່ມຕົ້ນ, ໃນໄຟລ໌ບັນທຶກ.

ເມື່ອທ່ານປະສົບຜົນສໍາເລັດໃນການອະທິບາຍຂໍ້ມູນຂອງທ່ານດ້ວຍໄຟລ໌ header ແລະຮູບແບບໄຟລ໌ທີ່
ຜ່ານການກວດສອບການປ້ອນຂໍ້ມູນ AUTOCLASS -SEARCH <...>, ທ່ານຈະໄດ້ເຂົ້າໄປໃນໂດເມນຄົ້ນຫາ.
ບ່ອນທີ່ AutoClass ຈັດປະເພດຂໍ້ມູນຂອງທ່ານ. (ໃນ​ທີ່​ສຸດ!)

ຫນ້າທີ່ຕົ້ນຕໍທີ່ຈະໃຊ້ໃນການຊອກຫາການຈັດປະເພດທີ່ດີຂອງຂໍ້ມູນຂອງທ່ານແມ່ນ AUTOCLASS
-Search, ແລະ​ການ​ນໍາ​ໃຊ້​ມັນ​ຈະ​ໃຊ້​ເວ​ລາ​ຫຼາຍ​ທີ່​ສຸດ​ຂອງ​ການ​ຄິດ​ໄລ່​. ການ​ຊອກ​ຫາ​ແມ່ນ​ຮຽກ​ຮ້ອງ​ໃຫ້​ມີ​:

autoclass -search <.db2 file path> <.hd2 file path>
<.model file path> <.s-params file path>

ໄຟລ໌ທັງໝົດຈະຕ້ອງຖືກລະບຸວ່າເປັນຊື່ທີ່ສົມທຽບ ຫຼືຊື່ເສັ້ນທາງຢ່າງແທ້ຈິງ. ຊື່​ເອ​ກະ​ສານ
ສ່ວນຂະຫຍາຍ (ປະເພດໄຟລ໌) ສໍາລັບໄຟລ໌ທັງຫມົດຖືກບັງຄັບໃຫ້ຄ່າ canonical ທີ່ຕ້ອງການໂດຍ
ໂປຣແກມ AutoClass:

ໄຟລ໌ຂໍ້ມູນ ("ascii") db2
ໄຟລ໌ຂໍ້ມູນ ("binary") db2-bin
ໄຟລ໌ຫົວ hd2
ຮູບແບບໄຟລ໌ແບບຈໍາລອງ
params ຄົ້ນຫາໄຟລ໌ s-params

ຕົວ​ຢ່າງ​ການ​ດໍາ​ເນີນ​ງານ (/usr/share/doc/autoclass/example/) ທີ່​ມາ​ກັບ​ AutoClass ສະແດງໃຫ້ເຫັນບາງ
ການຄົ້ນຫາຕົວຢ່າງ, ແລະການທ່ອງເວັບເຫຼົ່ານີ້ອາດຈະເປັນວິທີທີ່ໄວທີ່ສຸດເພື່ອໃຫ້ຄຸ້ນເຄີຍກັບວິທີການ
ເພື່ອເຮັດການຄົ້ນຫາ. ຊຸດຂໍ້ມູນການທົດສອບທີ່ຕັ້ງຢູ່ພາຍໃຕ້ /usr/share/doc/autoclass/example/ ຈະ
ສະແດງໃຫ້ທ່ານເຫັນບາງສ່ວນຫົວອື່ນ (.hd2), ຮູບແບບ (.model), ແລະໄຟລ໌ params (.s-params) ຊອກຫາ
ການຕັ້ງຄ່າ. ສ່ວນທີ່ເຫຼືອຂອງພາກນີ້ອະທິບາຍວິທີການຄົ້ນຫາໃນບາງສ່ວນເພີ່ມເຕີມ
ລາຍລະອຽດ.

ໄດ້ ກ້າຫານ ປະເຊີນຫນ້າ tokens ຂ້າງລຸ່ມນີ້ແມ່ນໂດຍທົ່ວໄປແລ້ວຊອກຫາຕົວກໍານົດການໄຟລ໌ parameters. ສໍາລັບການເພີ່ມເຕີມ
ຂໍ້ມູນກ່ຽວກັບໄຟລ໌ s-params, ເບິ່ງ ຄົ້ນຫາ PARAMETERS ຂ້າງລຸ່ມນີ້, ຫຼື
/usr/share/doc/autoclass/search-c.text.gz.

ແມ່ນ​ຫຍັງ ຜົນໄດ້ຮັບ ARE
AutoClass ກໍາລັງຊອກຫາການຈັດປະເພດທີ່ດີທີ່ສຸດຂອງຂໍ້ມູນທີ່ມັນສາມາດຊອກຫາໄດ້. ກ
ການ​ຈັດ​ປະ​ເພດ​ແມ່ນ​ປະ​ກອບ​ດ້ວຍ​:

1) ຊຸດຂອງຫ້ອງຮຽນ, ແຕ່ລະຄົນໄດ້ຖືກອະທິບາຍໂດຍຊຸດຂອງຕົວກໍານົດການຫ້ອງຮຽນ, ເຊິ່ງ
ລະບຸວິທີການແຈກຢາຍຫ້ອງຮຽນຕາມຄຸນລັກສະນະຕ່າງໆ. ຍົກ​ຕົວ​ຢ່າງ,
"ຄວາມສູງປົກກະຕິແຈກຢາຍໂດຍສະເລ່ຍ 4.67 ຟຸດແລະມາດຕະຖານ deviation .32 ft",

2) ຊຸດນ້ໍາຫນັກຂອງຊັ້ນຮຽນ, ອະທິບາຍອັດຕາສ່ວນຂອງກໍລະນີທີ່ອາດຈະຢູ່ໃນ
ແຕ່ລະຫ້ອງຮຽນ.

3) ການມອບໝາຍຄວາມເປັນໄປໄດ້ຂອງກໍລະນີໃນຂໍ້ມູນໃຫ້ກັບຫ້ອງຮຽນເຫຼົ່ານີ້. Ie ສໍາລັບແຕ່ລະຄົນ
ກໍ​ລະ​ນີ​, ຄວາມ​ເປັນ​ໄປ​ໄດ້​ທີ່​ເປັນ​ສະ​ມາ​ຊິກ​ຂອງ​ແຕ່​ລະ​ຫ້ອງ​.

ໃນຖານະເປັນລະບົບ Bayesian ຢ່າງເຂັ້ມງວດ (ຍອມຮັບບໍ່ມີການທົດແທນ!), ການວັດແທກຄຸນນະພາບ AutoClass ການນໍາໃຊ້
ແມ່ນຄວາມເປັນໄປໄດ້ທັງ ໝົດ ທີ່ເຈົ້າບໍ່ຮູ້ຫຍັງກ່ຽວກັບຂໍ້ມູນຂອງທ່ານຫຼືໂດເມນຂອງມັນ, ເຈົ້າ
ຈະພົບເຫັນຊຸດຂໍ້ມູນນີ້ທີ່ສ້າງຂຶ້ນໂດຍຕົວແບບພື້ນຖານນີ້. ນີ້ປະກອບມີ
ຄວາມເປັນໄປໄດ້ກ່ອນຫນ້າທີ່ວ່າ "ໂລກ" ຈະເລືອກເອົາຈໍານວນຫ້ອງຮຽນນີ້, ຊຸດນີ້
ນ້ ຳ ໜັກ ຂອງຫ້ອງຮຽນທີ່ກ່ຽວຂ້ອງ, ແລະຊຸດຂອງຕົວ ກຳ ນົດນີ້ ສຳ ລັບແຕ່ລະຊັ້ນຮຽນ, ແລະຄວາມເປັນໄປໄດ້ນັ້ນ
ຊຸດຂອງຫ້ອງຮຽນດັ່ງກ່າວຈະສ້າງຊຸດຂອງຄ່ານີ້ສໍາລັບຄຸນລັກສະນະໃນ
ກໍ​ລະ​ນີ​ຂໍ້​ມູນ​.

ຄວາມເປັນໄປໄດ້ເຫຼົ່ານີ້ແມ່ນມີຫນ້ອຍຫຼາຍ, ຢູ່ໃນຂອບເຂດຂອງ e^-30000, ແລະດັ່ງນັ້ນແມ່ນປົກກະຕິແລ້ວ.
ສະ​ແດງ​ອອກ​ໃນ​ຫມາຍ​ເຫດ exponential​.

ແມ່ນ​ຫຍັງ ຜົນໄດ້ຮັບ ໝາຍ ຄວາມວ່າ
ມັນເປັນສິ່ງ ສຳ ຄັນທີ່ຈະຕ້ອງຈື່ໄວ້ວ່າຄວາມເປັນໄປໄດ້ທັງ ໝົດ ເຫຼົ່ານີ້ແມ່ນໃຫ້ຕົວແບບທີ່ແທ້ຈິງ
ຢູ່ໃນຄອບຄົວຕົວແບບນັ້ນ AutoClass ໄດ້ຈໍາກັດຄວາມສົນໃຈຂອງຕົນ. ຖ້າ AutoClass is
ຊອກຫາຫ້ອງຮຽນ Gaussian ແລະຫ້ອງຮຽນທີ່ແທ້ຈິງແມ່ນ Poisson, ຫຼັງຈາກນັ້ນຄວາມຈິງທີ່ວ່າ
AutoClass ພົບ 5 ຫ້ອງຮຽນ Gaussian ອາດຈະບໍ່ເວົ້າຫຼາຍກ່ຽວກັບຈໍານວນຫ້ອງຮຽນ Poisson ຢູ່ທີ່ນັ້ນ
ແມ່ນແທ້.

ຄວາມເປັນໄປໄດ້ທີ່ກ່ຽວຂ້ອງລະຫວ່າງການຈັດປະເພດທີ່ແຕກຕ່າງກັນທີ່ພົບເຫັນສາມາດມີຂະຫນາດໃຫຍ່ຫຼາຍ, ເຊັ່ນ
e^1000, ດັ່ງນັ້ນການຈັດປະເພດທີ່ດີທີ່ສຸດທີ່ພົບເຫັນແມ່ນມັກຈະມີຄວາມເປັນໄປໄດ້ຫຼາຍກວ່າ
ສ່ວນທີ່ເຫຼືອ (ແລະ overwhelmingly ເປັນໄປໄດ້ຫນ້ອຍກ່ວາການຈັດປະເພດທີ່ດີກວ່າໃດໆໃນປັດຈຸບັນ
ບໍ່​ໄດ້​ຄົ້ນ​ພົບ). ຖ້າ AutoClass ຄວນຈັດການເພື່ອຊອກຫາສອງການຈັດປະເພດທີ່ຢູ່ພາຍໃນ
ປະມານ exp(5-10) ຂອງກັນແລະກັນ (ເຊັ່ນ: ພາຍໃນ 100 ຫາ 10,000 ເທົ່າທີ່ເປັນໄປໄດ້) ຫຼັງຈາກນັ້ນທ່ານ.
ຄວນພິຈາລະນາວ່າພວກມັນຈະເປັນໄປໄດ້ເທົ່າທຽມກັນ, ເພາະວ່າການຄິດໄລ່ຂອງພວກເຮົາມັກຈະບໍ່ຫຼາຍ
ຖືກຕ້ອງກວ່ານີ້ (ແລະບາງຄັ້ງກໍ່ຫນ້ອຍລົງ).

ວິທີການ IT WORKS
AutoClass repeatedly ສ້າງການຈັດປະເພດແບບສຸ່ມແລະຫຼັງຈາກນັ້ນພະຍາຍາມນວດນີ້ເຂົ້າໄປໃນ a
ການຈັດປະເພດຄວາມເປັນໄປໄດ້ສູງເຖິງແມ່ນວ່າການປ່ຽນແປງໃນທ້ອງຖິ່ນ, ຈົນກ່ວາມັນ converges ກັບບາງ "ທ້ອງຖິ່ນ
ສູງສຸດ" ຫຼັງຈາກນັ້ນມັນຈື່ສິ່ງທີ່ມັນພົບແລະເລີ່ມຕົ້ນອີກເທື່ອຫນຶ່ງ, ສືບຕໍ່ຈົນກ່ວາເຈົ້າ
ບອກໃຫ້ຢຸດ. ຄວາມພະຍາຍາມແຕ່ລະຄົນເອີ້ນວ່າ "ພະຍາຍາມ", ແລະຄວາມເປັນໄປໄດ້ທີ່ຄິດໄລ່ແມ່ນມີຈຸດປະສົງ
ເພື່ອໃຫ້ກວມເອົາປະລິມານທັງຫມົດໃນຊ່ອງພາລາມິເຕີປະມານສູງສຸດນີ້, ແທນທີ່ຈະພຽງແຕ່
ຈຸດສູງສຸດ.

ວິທີການມາດຕະຖານສໍາລັບການນວດແມ່ນເພື່ອ

1) ຄິດ​ໄລ່​ການ​ເປັນ​ສະ​ມາ​ຊິກ​ຊັ້ນ​ຮຽນ​ທີ່​ເປັນ​ໄປ​ໄດ້​ຂອງ​ກໍ​ລະ​ນີ​ໂດຍ​ນໍາ​ໃຊ້​ຕົວ​ກໍາ​ນົດ​ການ​ຊັ້ນ​ຮຽນ​ແລະ​
ຄວາມເປັນໄປໄດ້ຂອງພີ່ນ້ອງທີ່ບົ່ງບອກ.

2) ການ​ນໍາ​ໃຊ້​ສະ​ມາ​ຊິກ​ຫ້ອງ​ຮຽນ​ໃຫມ່​, ການ​ຄິດ​ໄລ່​ສະ​ຖິ​ຕິ​ຂອງ​ຫ້ອງ​ຮຽນ (ເຊັ່ນ​: ສະ​ເລ່ຍ​) ແລະ​ປັບ​ປຸງ​
ຕົວກໍານົດການຫ້ອງຮຽນ.

ແລະເຮັດເລື້ມຄືນຈົນກ່ວາພວກເຂົາຢຸດເຊົາການປ່ຽນແປງ. ມີສາມວິທີ convergence ທີ່ມີຢູ່:
"converge_search_3" (ຄ່າເລີ່ມຕົ້ນ), "converge_search_4" ແລະ "converge". ຂອງພວກເຂົາ
ຂໍ້ມູນສະເພາະແມ່ນຖືກຄວບຄຸມໂດຍພາລາມິເຕີໄຟລ໌ການຄົ້ນຫາ parameter try_fn_type.

ເມື່ອ​ໃດ​ ເຖິງ STOP
ເຈົ້າສາມາດບອກ AUTOCLASS -SEARCH ໃຫ້ຢຸດໂດຍ: 1) ໃຫ້ a ໄລຍະເວລາສູງສຸດ (ໃນວິນາທີ) ການໂຕ້ຖຽງ
ໃນຕອນຕົ້ນ; 2) ການໃຫ້ ກ ສູງສຸດ_n_ພະຍາຍາມ (integer) ການໂຕ້ຖຽງໃນຕອນຕົ້ນ; ຫຼື 3) ໂດຍ
ພິມ "q" ແລະ ຫຼັງຈາກທີ່ເຈົ້າໄດ້ເຫັນຄວາມພະຍາຍາມພຽງພໍ. ໄດ້ ໄລຍະເວລາສູງສຸດ ແລະ
ສູງສຸດ_n_ພະຍາຍາມ ການໂຕ້ຖຽງແມ່ນເປັນປະໂຫຍດຖ້າທ່ານຕ້ອງການດໍາເນີນການ AUTOCLASS -SEARCH ໃນຮູບແບບ batch. ຖ້າ
ທ່ານກໍາລັງ restart AUTOCLASS -SEARCH ຈາກການຄົ້ນຫາທີ່ຜ່ານມາ, ມູນຄ່າຂອງ ສູງສຸດ_n_ພະຍາຍາມ ທ່ານ
ໃຫ້, ສໍາລັບການຍົກຕົວຢ່າງ, 3, ຈະບອກໂຄງການທີ່ຈະຄິດໄລ່ 3 ພະຍາຍາມເພີ່ມເຕີມນອກເຫນືອໄປຈາກ
ຢ່າງ ໃດ ກໍ ຕາມ ຈໍາ ນວນ ຫຼາຍ ມັນ ໄດ້ ເຮັດ ແລ້ວ. ພຶດຕິກໍາການເພີ່ມຂຶ້ນດຽວກັນໄດ້ຖືກສະແດງໂດຍ
ໄລຍະເວລາສູງສຸດ.

ການ​ຕັດສິນ​ໃຈ​ວ່າ​ເວລາ​ໃດ​ທີ່​ຈະ​ຢຸດ​ແມ່ນ​ການ​ຮ້ອງ​ຟ້ອງ​ແລະ​ຂຶ້ນ​ກັບ​ທ່ານ. ນັບຕັ້ງແຕ່ການຄົ້ນຫາປະກອບມີ a
ອົງປະກອບແບບສຸ່ມ, ມີໂອກາດສະເຫມີວ່າຖ້າທ່ານປ່ອຍໃຫ້ມັນສືບຕໍ່ມັນຈະພົບ
ບາງສິ່ງບາງຢ່າງທີ່ດີກວ່າ. ດັ່ງນັ້ນ, ທ່ານຈໍາເປັນຕ້ອງໄດ້ຊື້ຂາຍອອກຫຼາຍປານໃດທີ່ດີກວ່າມັນອາດຈະຢູ່ກັບດົນປານໃດ
ອາດຈະໃຊ້ເວລາເພື່ອຊອກຫາມັນ. ສະຖານະການຄົ້ນຫາລາຍງານທີ່ຖືກພິມອອກໃນເວລາທີ່ໃຫມ່ທີ່ດີທີ່ສຸດ
ການ​ຈັດ​ປະ​ເພດ​ແມ່ນ​ພົບ​ເຫັນ​ມີ​ຈຸດ​ປະ​ສົງ​ເພື່ອ​ໃຫ້​ທ່ານ​ຂໍ້​ມູນ​ທີ່​ຈະ​ຊ່ວຍ​ໃຫ້​ທ່ານ​ເຮັດ​ໃຫ້​ນີ້​
ການແລກປ່ຽນ.

ສັນຍານທີ່ຊັດເຈນອັນຫນຶ່ງທີ່ທ່ານອາດຈະຢຸດເຊົາແມ່ນຖ້າການຈັດປະເພດສ່ວນໃຫຍ່ທີ່ພົບເຫັນ
ຊໍ້າກັນຂອງອັນກ່ອນໜ້າ (ໝາຍໂດຍ "dup" ຍ້ອນວ່າພວກມັນຖືກພົບເຫັນ). ນີ້ພຽງແຕ່ຄວນຈະເກີດຂຶ້ນ
ສໍາ​ລັບ​ຊຸດ​ຂໍ້​ມູນ​ຂະ​ຫນາດ​ນ້ອຍ​ຫຼາຍ​ຫຼື​ໃນ​ເວ​ລາ​ທີ່​ການ​ແກ້​ໄຂ​ຈໍາ​ນວນ​ຂະ​ຫນາດ​ນ້ອຍ​ຫຼາຍ​ຂອງ​ຫ້ອງ​ຮຽນ​, ເຊັ່ນ​: ສອງ​.

ປະສົບການຂອງພວກເຮົາແມ່ນວ່າສໍາລັບຊຸດຂໍ້ມູນຂະຫນາດໃຫຍ່ປານກາງເຖິງຂະຫນາດໃຫຍ່ທີ່ສຸດ (~200 ຫາ ~ 10,000.
datum), ມັນເປັນສິ່ງຈໍາເປັນທີ່ຈະດໍາເນີນການ AutoClass ສໍາລັບຢ່າງຫນ້ອຍ 50 ການທົດລອງ.

ແມ່ນ​ຫຍັງ ຮັບຜົນປະໂຫຍດ ສົ່ງຄືນແລ້ວ
ກ່ອນຈະກັບມາ, AUTOCLASS -SEARCH ຈະໃຫ້ຄຳອະທິບາຍສັ້ນໆກ່ຽວກັບສິ່ງທີ່ດີທີ່ສຸດ
ພົບ​ປະ​ເພດ​. ວິທີການຈໍານວນຫຼາຍຈະໄດ້ຮັບການອະທິບາຍສາມາດຄວບຄຸມໄດ້ n_final_summary.

ໂດຍຄ່າເລີ່ມຕົ້ນ AUTOCLASS -SEARCH ຈະຂຽນໄຟລ໌ຈໍານວນຫນຶ່ງ, ທັງໃນຕອນທ້າຍແລະ
ເປັນໄລຍະໆໃນລະຫວ່າງການຄົ້ນຫາ (ໃນກໍລະນີທີ່ລະບົບຂອງທ່ານຂັດຂ້ອງກ່ອນທີ່ມັນຈະສໍາເລັດ). ເຫຼົ່ານີ້
ໄຟລ໌ທັງຫມົດຈະມີຊື່ດຽວກັນ (ເອົາມາຈາກຊື່ເສັ້ນທາງ params ຄົ້ນຫາ [ .s-
params]), ແລະແຕກຕ່າງກັນພຽງແຕ່ໃນນາມສະກຸນໄຟລ໌ຂອງເຂົາເຈົ້າ. ຖ້າການຄົ້ນຫາຂອງທ່ານແມ່ນຍາວຫຼາຍແລະ
ມີຄວາມເປັນໄປໄດ້ທີ່ເຄື່ອງຂອງທ່ານອາດຈະຂັດ, ທ່ານສາມາດມີ "ຜົນໄດ້ຮັບ" ລະດັບປານກາງ.
ໄຟລ໌ທີ່ຂຽນອອກ. ເຫຼົ່ານີ້ສາມາດຖືກນໍາໃຊ້ເພື່ອ restart ການຄົ້ນຫາຂອງທ່ານກັບການສູນເສຍຕໍາ່ສຸດທີ່ຂອງ
ຄວາມພະຍາຍາມຄົ້ນຫາ. ເບິ່ງເອກະສານເອກະສານ /usr/share/doc/autoclass/checkpoint-c.text.

ໄຟລ໌ ".log" ຈະຖືລາຍຊື່ຂອງສິ່ງທີ່ຖືກພິມອອກໃນໜ້າຈໍສ່ວນໃຫຍ່
ແລ່ນ, ເວັ້ນເສຍແຕ່ວ່າທ່ານຕັ້ງ log_file_p ຕົວະທີ່ຈະເວົ້າວ່າເຈົ້າຕ້ອງການບໍ່ມີຄວາມໂງ່ຈ້າ. ເວັ້ນເສຍແຕ່
results_file_p ບໍ່ຖືກຕ້ອງ, ເປັນໄຟລ໌ ".results-bin" ໄບນາຣີ (ຄ່າເລີ່ມຕົ້ນ) ຫຼື ASCII ".results"
ໄຟລ໌ຂໍ້ຄວາມ, ຈະຖືການຈັດປະເພດທີ່ດີທີ່ສຸດທີ່ຖືກສົ່ງຄືນ, ແລະເວັ້ນເສຍແຕ່ search_file_p
ບໍ່ຖືກຕ້ອງ, ໄຟລ໌ ".search" ຈະບັນທຶກການພະຍາຍາມຄົ້ນຫາ. save_compact_p
ຄວບຄຸມວ່າໄຟລ໌ "ຜົນໄດ້ຮັບ" ຖືກບັນທຶກເປັນຂໍ້ຄວາມຄູ່ ຫຼື ASCII.

ຖ້າຕົວແປທົ່ວໂລກ C "G_safe_file_writing_p" ຖືກກໍານົດເປັນ TRUE ໃນ "autoclass-
c/prog/globals.c", ຊື່ຂອງໄຟລ໌ "ຜົນໄດ້ຮັບ" (ໄຟລ໌ທີ່ບັນຈຸບັນທຶກ
classifications) ຖືກດັດແກ້ພາຍໃນບັນຊີສໍາລັບການຂຽນໄຟລ໌ຊ້ໍາຊ້ອນ. ຖ້າ
ຊື່ໄຟລ໌ params ຄົ້ນຫາແມ່ນ "my_saved_clsfs" ທ່ານຈະເຫັນໄຟລ໌ "ຜົນໄດ້ຮັບ" ຕໍ່ໄປນີ້.
ຊື່ (ບໍ່ສົນໃຈໄດເລກະທໍລີແລະຊື່ເສັ້ນທາງສໍາລັບຕົວຢ່າງນີ້)

save_compact_p = ຈິງ --
"my_saved_clsfs.results-bin" - ໄຟລ໌ລາຍລັກອັກສອນຢ່າງສົມບູນ
"my_saved_clsfs.results-tmp-bin" - ໄຟລ໌ທີ່ຂຽນເປັນບາງສ່ວນ, ປ່ຽນຊື່
ເມື່ອສໍາເລັດ

save_compact_p = ບໍ່​ຈິງ --
"my_saved_clsfs.results" - ໄຟລ໌ລາຍລັກອັກສອນຢ່າງສົມບູນ
"my_saved_clsfs.results-tmp" - ໄຟລ໌ທີ່ຂຽນເປັນບາງສ່ວນ, ປ່ຽນຊື່
ເມື່ອສໍາເລັດ

ຖ້າການກວດສອບຖືກເຮັດ, ຊື່ເພີ່ມເຕີມເຫຼົ່ານີ້ຈະປາກົດ

save_compact_p = ຈິງ --
"my_saved_clsfs.chkpt-bin" - ໄຟລ໌ດ່ານທີ່ຂຽນຢ່າງສົມບູນ
"my_saved_clsfs.chkpt-tmp-bin" - ໄຟລ໌ດ່ານທີ່ຂຽນເປັນບາງສ່ວນ,
ປ່ຽນຊື່ເມື່ອສໍາເລັດ
save_compact_p = ບໍ່​ຈິງ --
"my_saved_clsfs.chkpt" - ໄຟລ໌ດ່ານລາຍລັກອັກສອນຢ່າງສົມບູນ
"my_saved_clsfs.chkpt-tmp" - ໄຟລ໌ດ່ານທີ່ຂຽນເປັນບາງສ່ວນ,
ປ່ຽນຊື່ເມື່ອສໍາເລັດ

ວິທີການ ເຖິງ GET ເລີ່ມຕົ້ນ
ວິທີການເອີ້ນ AUTOCLASS -SEARCH ແມ່ນ:

autoclass -search <.db2 file path> <.hd2 file path>
<.model file path> <.s-params file path>

ເພື່ອເລີ່ມຕົ້ນການຄົ້ນຫາທີ່ຜ່ານມາ, ໃຫ້ລະບຸວ່າ force_new_search_p ມີຄ່າທີ່ບໍ່ຖືກຕ້ອງຢູ່ໃນ
ໄຟລ໌ params ຄົ້ນຫາ, ເນື່ອງຈາກວ່າຄ່າເລີ່ມຕົ້ນຂອງມັນແມ່ນຄວາມຈິງ. ການລະບຸບໍ່ຖືກຕ້ອງບອກ AUTOCLASS -SEARCH
ເພື່ອພະຍາຍາມຊອກຫາການຄົ້ນຫາທີ່ເຂົ້າກັນໄດ້ກ່ອນໜ້ານີ້ (<...>.results[-bin] & <...>.search) ໄປຫາ
ສືບຕໍ່ຈາກ, ແລະຈະ restart ການນໍາໃຊ້ມັນຖ້າຫາກວ່າພົບເຫັນ. ເພື່ອບັງຄັບການຄົ້ນຫາໃຫມ່ແທນທີ່ຈະເປັນ
restarting ອັນເກົ່າ, ໃຫ້ພາລາມິເຕີ force_new_search_p ຄ່າຂອງຄວາມຈິງ, ຫຼືໃຊ້
ຄ່າເລີ່ມຕົ້ນ. ຖ້າມີການຄົ້ນຫາທີ່ມີຢູ່ແລ້ວ (<...>.results[-bin] & <...>.search), ຜູ້ໃຊ້
ຈະຖືກຮ້ອງຂໍໃຫ້ຢືນຢັນການສືບຕໍ່ນັບຕັ້ງແຕ່ການສືບຕໍ່ຈະຍົກເລີກການຄົ້ນຫາທີ່ມີຢູ່.

ຖ້າການຄົ້ນຫາຜ່ານມາສືບຕໍ່, ຂໍ້ຄວາມ "ການເລີ່ມຕົ້ນການຄົ້ນຫາຄືນໃຫມ່" ຈະຖືກມອບໃຫ້ແທນ
ຂອງປົກກະຕິ "ເລີ່ມຕົ້ນການຄົ້ນຫາ". ໂດຍທົ່ວໄປແລ້ວມັນດີກວ່າທີ່ຈະສືບຕໍ່ການຄົ້ນຫາທີ່ຜ່ານມາ
ກ່ວາທີ່ຈະເລີ່ມຕົ້ນໃຫມ່, ເວັ້ນເສຍແຕ່ວ່າທ່ານກໍາລັງພະຍາຍາມວິທີການຄົ້ນຫາທີ່ແຕກຕ່າງກັນຢ່າງຫຼວງຫຼາຍ, ໃນ
ສະຖິຕິກໍລະນີໃດຈາກການຄົ້ນຫາຜ່ານມາອາດຈະເຮັດໃຫ້ຄົນປະຈຸບັນເຂົ້າໃຈຜິດ.

STATUS ບົດລາຍງານ
ຄໍາຄິດຄໍາເຫັນທີ່ເຮັດວຽກຢູ່ໃນການຄົ້ນຫາຈະຖືກພິມອອກໃສ່ຫນ້າຈໍແລະໄຟລ໌ບັນທຶກ
(ເວັ້ນເສຍແຕ່ log_file_p ບໍ່ຖືກຕ້ອງ). ກະລຸນາຮັບຊາບວ່າໄຟລ໌ ".log" ຈະມີລາຍຊື່ທັງໝົດ
ຄ່າເລີ່ມຕົ້ນຂອງການຄົ້ນຫາ params, ແລະຄ່າຂອງ params ທັງຫມົດທີ່ overridden.

ຫຼັງຈາກແຕ່ລະຄົນພະຍາຍາມມີບົດລາຍງານສັ້ນຫຼາຍ (ພຽງແຕ່ສອງສາມຕົວອັກສອນຍາວ) ແມ່ນໃຫ້. ຫຼັງຈາກແຕ່ລະຄົນໃຫມ່
ການ​ຈັດ​ປະ​ເພດ​ທີ່​ດີ​ທີ່​ສຸດ​, ບົດ​ລາຍ​ງານ​ທີ່​ຍາວ​ກວ່າ​ແມ່ນ​ໄດ້​ຮັບ​, ແຕ່​ບໍ່​ມີ​ຫຼາຍ​ກວ່າ​ min_report_period
(ຄ່າເລີ່ມຕົ້ນແມ່ນ 30 ວິນາທີ).

ຄົ້ນຫາ ວາລະສານ
AUTOCLASS -SEARCH ໂດຍຄ່າເລີ່ມຕົ້ນໃຊ້ວິທີການຄົ້ນຫາມາດຕະຖານທີ່ແນ່ນອນ ຫຼື "ລອງຟັງຊັນ"
(try_fn_type = "converge_search_3"). ອີກສອງອັນຍັງມີຢູ່: "converge_search_4"
ແລະ "converge"). ພວກເຂົາເຈົ້າໄດ້ຖືກສະຫນອງໃຫ້ໃນກໍລະນີທີ່ບັນຫາຂອງທ່ານແມ່ນຫນຶ່ງທີ່ອາດຈະເກີດຂຶ້ນເພື່ອຜົນປະໂຫຍດ
ຈາກພວກເຂົາ. ໂດຍ​ທົ່ວ​ໄປ​ວິ​ທີ​ການ​ໃນ​ຕອນ​ຕົ້ນ​ຈະ​ສົ່ງ​ຜົນ​ໃຫ້​ການ​ຊອກ​ຫາ​ການ​ຈັດ​ປະ​ເພດ​ທີ່​ດີກ​ວ່າ​ທີ່
ຄ່າໃຊ້ຈ່າຍຂອງເວລາຄົ້ນຫາທີ່ຍາວກວ່າ. ຄ່າເລີ່ມຕົ້ນໄດ້ຖືກເລືອກເພື່ອໃຫ້ເປັນທີ່ເຂັ້ມແຂງ, ໃຫ້
ເຖິງແມ່ນວ່າການປະຕິບັດໃນທົ່ວບັນຫາຫຼາຍ. ທາງເລືອກທີ່ເປັນຄ່າເລີ່ມຕົ້ນອາດຈະດີກວ່າ
ບາງບັນຫາ, ແຕ່ອາດຈະເຮັດໃຫ້ຄົນອື່ນຮ້າຍແຮງກວ່າເກົ່າ.

"converge_search_3" ໃຊ້ເງື່ອນໄຂການຢຸດເຊົາຢ່າງແທ້ຈິງ (rel_delta_range, ຄ່າເລີ່ມຕົ້ນຂອງ
0.0025) ເຊິ່ງທົດສອບການປ່ຽນແປງຂອງແຕ່ລະຊັ້ນຂອງ delta ຂອງບັນທຶກໂດຍປະມານ-
marginal-likelihood ຂອງສະຖິຕິຊັ້ນຮຽນໂດຍເຄົາລົບ-ການສົມມຸດຕິຖານຂອງຫ້ອງຮຽນ
(class->log_a_w_s_h_j) ແບ່ງດ້ວຍນ້ຳໜັກຂອງຊັ້ນຮຽນ (class->w_j) ລະຫວ່າງຕົວຕໍ່ໆກັນ
ຮອບວຽນລວມກັນ. ການ​ເພີ່ມ​ຂຶ້ນ​ຄ່າ​ນີ້​ເຮັດ​ໃຫ້​ການ​ຫຼຸດ​ລົງ​ແລະ​ຫຼຸດ​ຜ່ອນ​ຈໍາ​ນວນ​
ຂອງຮອບວຽນ. ການຫຼຸດລົງມູນຄ່ານີ້ tightens convergence ແລະເພີ່ມຈໍານວນຂອງ
ຮອບວຽນ. n_ສະເລ່ຍ (ຄ່າເລີ່ມຕົ້ນຂອງ 3) ລະບຸຈຳນວນຮອບວຽນຕໍ່ເນື່ອງຕ້ອງຕອບສະໜອງໄດ້
ການຢຸດຕິເກນກ່ອນທີ່ການທົດລອງຈະສິ້ນສຸດລົງ.

"converge_search_4" ໃຊ້ເງື່ອນໄຂການຢຸດເຊົາຢ່າງແທ້ຈິງ (cs4_delta_range, ຄ່າເລີ່ມຕົ້ນຂອງ
0.0025) ເຊິ່ງການທົດສອບການປ່ຽນແປງຂອງແຕ່ລະຊັ້ນຂອງຄວາມຊັນສໍາລັບແຕ່ລະຊັ້ນຂອງບັນທຶກ
approximate-marginal-likelihood ຂອງສະຖິຕິຊັ້ນຮຽນດ້ວຍຄວາມເຄົາລົບຕໍ່ຊັ້ນຮຽນ
ສົມມຸດຕິຖານ (ຊັ້ນຮຽນ ->log_a_w_s_h_j) ແບ່ງດ້ວຍນ້ໍາຫນັກຊັ້ນ (ຊັ້ນຮຽນ -> w_j) ເກີນ
sigma_beta_n_values (ຄ່າເລີ່ມຕົ້ນ 6) ຮອບວຽນລວມ. ການເພີ່ມມູນຄ່າຂອງ
cs4_delta_range loosens convergence ແລະຫຼຸດຜ່ອນຈໍານວນຂອງຮອບວຽນ. ຫຼຸດລົງນີ້
ຄ່າ tightens ການ convergence ແລະເພີ່ມຈໍານວນຂອງຮອບວຽນ. ການຄິດໄລ່, ນີ້
ຟັງຊັນ try ແມ່ນລາຄາແພງກວ່າ "converge_search_3", ແຕ່ອາດຈະເປັນປະໂຫຍດຖ້າ
"ສິ່ງລົບກວນ" ຂອງການຄິດໄລ່ແມ່ນມີຄວາມສໍາຄັນເມື່ອທຽບກັບການປ່ຽນແປງຂອງຄ່າທີ່ຄິດໄລ່.
ການຄິດໄລ່ທີ່ສໍາຄັນແມ່ນເຮັດຢູ່ໃນຈຸດເລື່ອນຄວາມແມ່ນຍໍາສອງເທົ່າ, ແລະສໍາລັບຂໍ້ມູນທີ່ໃຫຍ່ທີ່ສຸດ
ພື້ນຖານທີ່ພວກເຮົາໄດ້ທົດສອບມາເຖິງຕອນນັ້ນ (5,420 ກໍລະນີຂອງ 93 ຄຸນລັກສະນະ), ສຽງລົບກວນຂອງຄອມພິວເຕີ້ບໍ່ໄດ້.
ເປັນບັນຫາ, ເຖິງແມ່ນວ່າມູນຄ່າຂອງ max_cycles ຈໍາເປັນຕ້ອງໄດ້ເພີ່ມຂຶ້ນເປັນ 400.

"converge" ໃຊ້ຫນຶ່ງໃນສອງເງື່ອນໄຂການຢຸດເຊົາຢ່າງແທ້ຈິງເຊິ່ງທົດສອບການປ່ຽນແປງຂອງ
ການຈັດປະເພດ (clsf) log_marginal (clsf->log_a_x_h) delta ລະຫວ່າງ convergence ຢ່າງຕໍ່ເນື່ອງ
ຮອບວຽນ. ທີ່ໃຫຍ່ທີ່ສຸດຂອງ ໄລຍະຢຸດ (ຄ່າເລີ່ມຕົ້ນ 0.5) ແລະ halt_factor *
current_clsf_log_marginal) ຖືກໃຊ້ (ຄ່າເລີ່ມຕົ້ນຂອງ halt_factor ແມ່ນ 0.0001). ເພີ່ມຂຶ້ນ
ຄຸນ​ຄ່າ​ເຫຼົ່າ​ນີ້ loosens ການ convergence ແລະ​ຫຼຸດ​ຜ່ອນ​ຈໍາ​ນວນ​ຂອງ​ຮອບ​ວຽນ​. ຫຼຸດລົງເຫຼົ່ານີ້
ຄຸນ​ຄ່າ​ທີ່​ເຄັ່ງ​ຄັດ​ຂອງ convergence ແລະ​ເພີ່ມ​ຈໍາ​ນວນ​ຂອງ​ຮອບ​ວຽນ​. n_ສະເລ່ຍ (ຄ່າເລີ່ມຕົ້ນ
ຄ່າຂອງ 3) ກໍານົດຈໍານວນຮອບວຽນຕ້ອງຕອບສະຫນອງເງື່ອນໄຂການຢຸດເຊົາກ່ອນການທົດລອງ
ຢຸດຕິ. ນີ້​ແມ່ນ​ມາດ​ຕະ​ຖານ​ການ​ຢຸດ​ໂດຍ​ປະ​ມານ​ຫຼາຍ​, ແຕ່​ຈະ​ໃຫ້​ທ່ານ​ມີ​ຄວາມ​ຮູ້​ສຶກ​ບາງ​
ສໍາລັບປະເພດຂອງການຈັດປະເພດທີ່ຄາດຫວັງ. ມັນຈະເປັນປະໂຫຍດສໍາລັບການຄົ້ນຫາ "ການສໍາຫຼວດ".
ຂອງ​ຖານ​ຂໍ້​ມູນ​.

ຈຸດປະສົງຂອງ reconverge_type = "chkpt" ແມ່ນເພື່ອສໍາເລັດການຈັດປະເພດຂັດຂວາງໂດຍ
ສືບຕໍ່ຈາກດ່ານສຸດທ້າຍຂອງມັນ. ຈຸດປະສົງຂອງ reconverge_type = "ຜົນໄດ້ຮັບ" ແມ່ນເພື່ອ
ພະຍາຍາມປັບປຸງເພີ່ມເຕີມຂອງການຈັດປະເພດສໍາເລັດທີ່ດີທີ່ສຸດໂດຍໃຊ້ມູນຄ່າທີ່ແຕກຕ່າງກັນຂອງ
try_fn_type ("converge_search_3", "converge_search_4", "converge"). ຖ້າ ສູງສຸດ_n_ພະຍາຍາມ is
ຫຼາຍກ່ວາ 1, ຫຼັງຈາກນັ້ນ, ໃນແຕ່ລະກໍລະນີ, ຫຼັງຈາກ reconvergence ໄດ້ສໍາເລັດ, AutoClass ຈະ
ດໍາເນີນການທົດລອງຄົ້ນຫາຕື່ມອີກໂດຍອີງໃສ່ຄ່າພາລາມິເຕີໃນໄຟລ໌ <...>.s-params.

ດ້ວຍການ ນຳ ໃຊ້ reconverge_type (ຄ່າເລີ່ມຕົ້ນ ""), ທ່ານອາດຈະນໍາໃຊ້ຫຼາຍກວ່າຫນຶ່ງພະຍາຍາມ
ປະຕິບັດຫນ້າທີ່ການຈັດປະເພດ. ເວົ້າວ່າທ່ານສ້າງການທົດລອງການສໍາຫຼວດຫຼາຍໆຄັ້ງໂດຍໃຊ້
try_fn_type = "converge", ແລະອອກຈາກການຄົ້ນຫາທີ່ບັນທຶກໄຟລ໌ .search ແລະ .results[-bin].
ຈາກນັ້ນທ່ານສາມາດເລີ່ມຕົ້ນການຄົ້ນຫາອື່ນດ້ວຍ try_fn_type = "converge_search_3", reconverge_type
= "ຜົນໄດ້ຮັບ", ແລະ ສູງສຸດ_n_ພະຍາຍາມ = 1. ນີ້ຈະສົ່ງຜົນໃຫ້ເກີດການລວມກັນຂອງສິ່ງທີ່ດີທີ່ສຸດ
ການຈັດປະເພດທີ່ສ້າງຂຶ້ນດ້ວຍ try_fn_type = "converge", ກັບ try_fn_type =
"converge_search_3". ເມື່ອ​ໃດ​ AutoClass ສໍາເລັດຄວາມພະຍາຍາມຄົ້ນຫານີ້, ທ່ານຈະມີ
ການຈັດປະເພດທີ່ຫລອມໂລຫະເພີ່ມເຕີມ.

ເປັນວິທີທີ່ດີທີ່ຈະກວດສອບວ່າອັນໃດອັນໜຶ່ງຂອງຕົວສຳຮອງ try_fun_type ກໍາລັງສ້າງນໍ້າສ້າງ
ການຈັດປະເພດ converged ແມ່ນເພື່ອດໍາເນີນການ AutoClass ໃນຮູບແບບການຄາດເດົາກ່ຽວກັບຂໍ້ມູນດຽວກັນທີ່ໃຊ້ສໍາລັບ
ການ​ສ້າງ​ການ​ຈັດ​ປະ​ເພດ​. ຈາກນັ້ນສ້າງ ແລະປຽບທຽບກໍລະນີ ຫຼືຊັ້ນຮຽນທີ່ສອດຄ້ອງກັນ
ໄຟລ໌ອ້າງອີງຂ້າມສໍາລັບການຈັດປະເພດຕົ້ນສະບັບແລະການຄາດຄະເນ. ຂະຫນາດນ້ອຍ
ຄວາມແຕກຕ່າງລະຫວ່າງໄຟລ໌ເຫຼົ່ານີ້ແມ່ນຄາດວ່າຈະມີ, ໃນຂະນະທີ່ຄວາມແຕກຕ່າງຂະຫນາດໃຫຍ່ຊີ້ໃຫ້ເຫັນ
convergence ບໍ່ສົມບູນ. ຄວາມແຕກຕ່າງລະຫວ່າງຄູ່ໄຟລ໌ດັ່ງກ່າວຄວນ, ໂດຍສະເລ່ຍແລະໂມດູໂລ
ການລຶບຫ້ອງຮຽນ, ຫຼຸດລົງ monotonically ກັບ convergence ຕື່ມອີກ.

ວິທີການມາດຕະຖານເພື່ອສ້າງການຈັດປະເພດແບບສຸ່ມເພື່ອເລີ່ມຕົ້ນການທົດລອງແມ່ນຢູ່ກັບຄ່າເລີ່ມຕົ້ນ
ຄ່າຂອງ "ສຸ່ມ" ສໍາລັບ start_fn_type. ໃນຈຸດນີ້, ບໍ່ມີທາງເລືອກອື່ນ. ການລະບຸ
"ຕັນ" ສໍາລັບ start_fn_type ຜະລິດການຄົ້ນຫາທີ່ບໍ່ສຸ່ມຊ້ຳໆ. ນັ້ນແມ່ນວິທີການ
ໄຟລ໌ <..>.s-params ໃນ autoclass-c/data/.. ໄດເລກະທໍລີຍ່ອຍຖືກລະບຸ. ນີ້ແມ່ນວິທີການ
ການທົດສອບການພັດທະນາແມ່ນເຮັດແລ້ວ.

max_cycles ຄວບຄຸມຈໍານວນສູງສຸດຂອງຮອບວຽນ convergence ທີ່ຈະປະຕິບັດໃນໃດໆ
ການທົດລອງຫນຶ່ງໂດຍຫນ້າທີ່ convergence. ຄ່າເລີ່ມຕົ້ນຂອງມັນແມ່ນ 200. ຜົນຜະລິດຫນ້າຈໍ
ສະແດງໃຫ້ເຫັນໄລຍະເວລາ (".") ສໍາລັບແຕ່ລະວົງຈອນສໍາເລັດ. ຖ້າ​ຫາກ​ວ່າ​ການ​ທົດ​ລອງ​ການ​ຊອກ​ຫາ​ຂອງ​ທ່ານ​ດໍາ​ເນີນ​ການ​ສໍາ​ລັບ 200 ຮອບ​ວຽນ​,
ຫຼັງ​ຈາກ​ນັ້ນ​ທັງ​ຖານ​ຂໍ້​ມູນ​ຂອງ​ທ່ານ​ແມ່ນ​ຊັບ​ຊ້ອນ​ຫຼາຍ (ເພີ່ມ​ມູນ​ຄ່າ​)​, ຫຼື​ try_fn_type ບໍ່​ແມ່ນ
ພຽງພໍກັບສະຖານະການ (ລອງໃຊ້ອັນອື່ນທີ່ມີ, ແລະໃຊ້ converge_print_p ໄດ້​ຮັບ
ຂໍ້ມູນເພີ່ມເຕີມກ່ຽວກັບສິ່ງທີ່ເກີດຂຶ້ນ).

ການລະບຸ converge_print_p ຄວາມຈິງຈະສ້າງການພິມອອກໂດຍຫຍໍ້ສໍາລັບແຕ່ລະວົງຈອນ
ເຊິ່ງຈະໃຫ້ຂໍ້ມູນເພື່ອໃຫ້ທ່ານສາມາດດັດແປງຄ່າເລີ່ມຕົ້ນຂອງ
rel_delta_range & n_ສະເລ່ຍ ສໍາລັບ "converge_search_3"; cs4_delta_range & sigma_beta_n_values
ສໍາລັບ "converge_search_4"; ແລະ ໄລຍະຢຸດ, halt_factor, ແລະ n_ສະເລ່ຍ ສໍາລັບ "converge". ຂອງພວກເຂົາ
ຄ່າເລີ່ມຕົ້ນແມ່ນໃຫ້ຢູ່ໃນໄຟລ໌ <..>.s-params ໃນ autoclass-c/data/.. sub-
ລາຍການ.

ວິທີການ ຫຼາຍ ຫ້ອງຮຽນ?
ການພະຍາຍາມໃໝ່ແຕ່ລະຄັ້ງເລີ່ມຕົ້ນດ້ວຍຈໍານວນຫ້ອງຮຽນທີ່ແນ່ນອນ ແລະອາດຈະຈົບລົງດ້ວຍຕົວເລກທີ່ນ້ອຍກວ່າ,
ເນື່ອງຈາກວ່າບາງຫ້ອງຮຽນອາດຈະລຸດອອກຈາກ convergence. ໂດຍທົ່ວໄປ, ທ່ານຕ້ອງການເລີ່ມຕົ້ນການທົດລອງ
ກັບຈໍານວນຫ້ອງຮຽນຈໍານວນຫນຶ່ງທີ່ຄວາມພະຍາຍາມທີ່ຜ່ານມາໄດ້ຊີ້ໃຫ້ເຫັນເບິ່ງດີ, ແລະທ່ານ
ຕ້ອງການໃຫ້ແນ່ໃຈວ່າທ່ານກໍາລັງຫາປາຢູ່ບ່ອນອື່ນໃນກໍລະນີທີ່ທ່ານພາດບາງສິ່ງບາງຢ່າງກ່ອນ.

n_classes_fn_type = "random_ln_normal" ແມ່ນວິທີເລີ່ມຕົ້ນເພື່ອເຮັດໃຫ້ທາງເລືອກນີ້. ມັນເຫມາະກັບ a
ບັນທຶກປົກກະຕິກັບຈໍານວນຫ້ອງຮຽນ (ປົກກະຕິແລ້ວເອີ້ນວ່າ "j" ສໍາລັບສັ້ນ) ຂອງ 10 ທີ່ດີທີ່ສຸດ
ການຈັດປະເພດທີ່ພົບເຫັນມາເຖິງຕອນນັ້ນ, ແລະເລືອກແບບສຸ່ມຈາກນັ້ນ. ໃນປັດຈຸບັນບໍ່ມີ
ທາງເລືອກ.

ເພື່ອເລີ່ມເກມປິດ, ຄ່າເລີ່ມຕົ້ນແມ່ນຈະລົງ start_j_list ສໍາລັບສອງສາມພະຍາຍາມທໍາອິດ, ແລະ
ຫຼັງຈາກນັ້ນປ່ຽນ n_classes_fn_type. ຖ້າຫາກວ່າທ່ານເຊື່ອວ່າຈໍານວນອາດຈະເປັນຂອງຫ້ອງຮຽນໃນ
ຖານຂໍ້ມູນຂອງທ່ານແມ່ນເວົ້າວ່າ 75, ຫຼັງຈາກນັ້ນແທນທີ່ຈະໃຊ້ຄ່າເລີ່ມຕົ້ນຂອງ start_j_list (2, 3, ທ.
5, 7, 10, 15, 25), ລະບຸບາງອັນເຊັ່ນ: 50, 60, 70, 80, 90, 100.

ຖ້າໃຜຕ້ອງການຊອກຫາສະເຫມີ, ເວົ້າວ່າ, ສາມຫ້ອງຮຽນ, ຫນຶ່ງສາມາດໃຊ້ fixed_j ແລະ override ໄດ້
ຂ້າງເທິງ. ບົດລາຍງານສະຖານະການຄົ້ນຫາຈະອະທິບາຍວ່າວິທີການປະຈຸບັນສໍາລັບການເລືອກ j ແມ່ນຫຍັງ.

DO I ມີ ພຽງ​ພໍ ຫນ່ວຍຄວາມຈໍາ ແລະ ຈານ ຊ່ອງ?
ພາຍໃນ, ຄວາມຕ້ອງການເກັບຮັກສາໃນລະບົບປະຈຸບັນແມ່ນຄໍາສັ່ງ n_classes_per_clsf
* (n_data + n_stored_clsfs * n_attributes * n_attribute_values). ນີ້ແມ່ນຂຶ້ນກັບ
ຈຳນວນກໍລະນີ, ຈຳນວນຄຸນສົມບັດ, ຄ່າຕໍ່ຄຸນລັກສະນະ (ໃຊ້ 2 ຖ້າເປັນຈິງ
value), ແລະຈໍານວນຂອງການຈັດປະເພດເກັບຮັກສາໄວ້ຫ່າງສໍາລັບການປຽບທຽບເພື່ອເບິ່ງວ່າຄົນອື່ນແມ່ນ
ຊໍ້າກັນ - ຄວບຄຸມໂດຍ max_n_store (ຄ່າເລີ່ມຕົ້ນ = 10). ຂະບວນການຄົ້ນຫາບໍ່ໄດ້
ຕົວຂອງມັນເອງບໍລິໂພກຄວາມຊົງຈໍາທີ່ສໍາຄັນ, ແຕ່ການເກັບຮັກສາຜົນໄດ້ຮັບອາດຈະເຮັດແນວນັ້ນ.

AutoClass C ຖືກຕັ້ງຄ່າເພື່ອຈັດການສູງສຸດ 999 ຄຸນລັກສະນະ. ຖ້າເຈົ້າພະຍາຍາມແລ່ນ
ຫຼາຍກວ່ານັ້ນ, ທ່ານຈະໄດ້ຮັບການລະເມີດ array bound. ໃນກໍລະນີດັ່ງກ່າວນີ້, ການປ່ຽນແປງເຫຼົ່ານີ້
ຕົວກໍານົດການກໍາຫນົດຄ່າໃນ prog/autoclass.h ແລະ recompile AutoClass C:

#define ALL_ATTRIBUTES 999
#define VERY_LONG_STRING_LENGTH 20000
#define VERY_LONG_TOKEN_LENGTH 500

ຕົວຢ່າງ, ຄ່າເຫຼົ່ານີ້ຈະຈັດການຫຼາຍພັນຄຸນລັກສະນະ:

#define ALL_ATTRIBUTES 9999
#define VERY_LONG_STRING_LENGTH 50000
#define VERY_LONG_TOKEN_LENGTH 50000

ພື້ນທີ່ດິດຖືກເອົາຂຶ້ນໂດຍໄຟລ໌ "ບັນທຶກ" ແນ່ນອນຈະຂຶ້ນກັບໄລຍະເວລາຂອງການຄົ້ນຫາ.
n_save (ຄ່າເລີ່ມຕົ້ນ = 2) ກໍານົດວິທີການຈໍາແນກທີ່ດີທີ່ສຸດໄດ້ຖືກບັນທຶກໄວ້ໃນ
".results[-bin]" ໄຟລ໌. save_compact_p ຄວບຄຸມວ່າ "ຜົນໄດ້ຮັບ" ແລະ "ຈຸດກວດກາ"
ໄຟລ໌ຖືກບັນທຶກເປັນ binary. ໄຟລ​໌​ຖານ​ສອງ​ແມ່ນ​ໄວ​ແລະ​ຫນາ​ແຫນ້ນ​ຫຼາຍ​, ແຕ່​ບໍ່​ແມ່ນ​
ແບບພົກພາ. ຄ່າເລີ່ມຕົ້ນຂອງ save_compact_p ເປັນຄວາມຈິງ, ເຊິ່ງເຮັດໃຫ້ໄຟລ໌ໄບນາຣີເປັນ
ຂຽນ.

ຖ້າເວລາທີ່ຈະບັນທຶກໄຟລ໌ "ຜົນໄດ້ຮັບ" ມີບັນຫາ, ພິຈາລະນາເພີ່ມຂຶ້ນ
min_save_period (ຄ່າເລີ່ມຕົ້ນ = 1800 ວິນາທີ ຫຼື 30 ນາທີ). ໄຟລ໌ຖືກບັນທຶກໄວ້ໃນແຜ່ນ
ນີ້ເລື້ອຍໆຖ້າມີສິ່ງທີ່ແຕກຕ່າງກັນທີ່ຈະລາຍງານ.

ພຽງແຕ່ ວິທີການ ຊ້າ IS ໄອທີບໍ?
ເວລາຄິດໄລ່ແມ່ນເປັນຄໍາສັ່ງ n_data * n_attributes * n_classes * n_tries *
converge_cycles_per_try. ຄວາມບໍ່ແນ່ນອນທີ່ສໍາຄັນໃນນີ້ແມ່ນຈໍານວນຂອງກັບຄືນໄປບ່ອນພື້ນຖານແລະ
ຮອບວຽນຕໍ່ໄປຈົນກ່ວາ convergence ໃນແຕ່ລະພະຍາຍາມ, ແລະແນ່ນອນຈໍານວນຂອງຄວາມພະຍາຍາມ. ຈໍານວນ
ຂອງຮອບວຽນຕໍ່ການທົດລອງແມ່ນປົກກະຕິ 10-100 ສໍາລັບ try_fn_type "converge", ແລະ 10-200+ ສໍາລັບ
"converge_search_3" ແລະ "converge_search-4". ຈໍານວນສູງສຸດແມ່ນກໍານົດໂດຍ
ສູງສຸດ_n_ພະຍາຍາມ (ຄ່າເລີ່ມຕົ້ນ = 200). ຈໍາ​ນວນ​ການ​ທົດ​ລອງ​ແມ່ນ​ຂຶ້ນ​ກັບ​ທ່ານ​ແລະ​ທີ່​ມີ​ຢູ່​ຂອງ​ທ່ານ​
ຊັບ​ພະ​ຍາ​ກອນ​ຄອມ​ພິວ​ເຕີ​.

ເວລາແລ່ນຂອງຊຸດຂໍ້ມູນຂະຫນາດໃຫຍ່ຫຼາຍຈະບໍ່ແນ່ນອນ. ພວກເຮົາແນະນໍາວ່າຈໍານວນຫນ້ອຍ
ການທົດສອບຂະໜາດນ້ອຍຈະດໍາເນີນຢູ່ໃນລະບົບຂອງເຈົ້າເພື່ອກໍານົດເສັ້ນພື້ນຖານ. ລະບຸ n_data to
ຈໍາກັດຈໍານວນ vectors ຂໍ້ມູນຖືກອ່ານ. ເນື່ອງຈາກຂໍ້ມູນຈໍານວນຫຼວງຫຼາຍ, AutoClass ອາດຈະ
ຊອກ​ຫາ​ການ​ຈັດ​ປະ​ເພດ​ທີ່​ເປັນ​ໄປ​ໄດ້​ທີ່​ສຸດ​ຂອງ​ຕົນ​ຢູ່​ທີ່​ສູງ​ກວ່າ​ຂອງ​ຮ້ອຍ​ຫ້ອງ​ຮຽນ​, ແລະ​ນີ້​ຈະ​
ຮຽກຮ້ອງໃຫ້ມີວ່າ start_j_list ໄດ້​ຮັບ​ການ​ລະ​ບຸ​ຢ່າງ​ເຫມາະ​ສົມ (ເບິ່ງ​ພາກ​ສ່ວນ​ຂ້າງ​ເທິງ​ ວິທີການ ຫຼາຍ
ຫ້ອງຮຽນ?). ຖ້າຫາກວ່າທ່ານມີຄວາມແນ່ນອນວ່າທ່ານຕ້ອງການພຽງແຕ່ສອງສາມຫ້ອງຮຽນ, ທ່ານສາມາດບັງຄັບ
AutoClass ເພື່ອຄົ້ນຫາດ້ວຍຈໍານວນຫ້ອງຮຽນຄົງທີ່ທີ່ລະບຸໄວ້ໂດຍ fixed_j. ຫຼັງຈາກນັ້ນທ່ານຈະ
ຈໍາເປັນຕ້ອງດໍາເນີນການຄົ້ນຫາແຍກຕ່າງຫາກທີ່ມີແຕ່ລະປະເພດຄົງທີ່ທີ່ແຕກຕ່າງກັນ.

ການປ່ຽນແປງ FILENAMES IN A ບັນທຶກໄວ້ CLASSIFICATION ເອກະສານ
AutoClass cache ຂໍ້ມູນ, header, ແລະ model filenames ໃນການຈັດປະເພດທີ່ບັນທຶກໄວ້
ໂຄງສ້າງຂອງໄບນາຣີ (.results-bin") ຫຼືໄຟລ໌ ASCII (.results") "ຜົນໄດ້ຮັບ". ຖ້າ
ໄຟລ໌ "ຜົນໄດ້ຮັບ" ແລະ "ຄົ້ນຫາ" ຖືກຍ້າຍໄປບ່ອນອື່ນ, ການຄົ້ນຫາ
ບໍ່ສາມາດຣີສະຕາດໄດ້ສຳເລັດຖ້າທ່ານໄດ້ໃຊ້ຊື່ເສັ້ນທາງຢ່າງແທ້ຈິງ. ດັ່ງນັ້ນຈຶ່ງເປັນ
ປະໂຫຍດທີ່ຈະດໍາເນີນການ invoke AutoClass ໃນໄດເລກະທໍລີຫຼັກຂອງຂໍ້ມູນ, ສ່ວນຫົວ, ແລະຕົວແບບ
ໄຟລ໌, ດັ່ງນັ້ນຊື່ເສັ້ນທາງທີ່ກ່ຽວຂ້ອງສາມາດຖືກນໍາໃຊ້. ນັບຕັ້ງແຕ່ຊື່ເສັ້ນທາງທີ່ເກັບໄວ້ໃນຖານຄວາມຈໍາຫຼັງຈາກນັ້ນຈະເປັນ
ພີ່ນ້ອງ, ໄຟລ໌ສາມາດຖືກຍ້າຍໄປທີ່ໂຮດອື່ນຫຼືລະບົບໄຟລ໌ແລະ restarted --
ການຈັດລຽງລຳດັບຊື່ເສັ້ນທາງທີ່ກ່ຽວຂ້ອງກັນມີຢູ່.

ຢ່າງໃດກໍຕາມ, ເນື່ອງຈາກໄຟລ໌ ".results" ເປັນຂໍ້ຄວາມ ASCII, ຊື່ເສັ້ນທາງເຫຼົ່ານັ້ນສາມາດຖືກປ່ຽນດ້ວຍ a
ຕົວແກ້ໄຂຂໍ້ຄວາມ (save_compact_p ຕ້ອງໄດ້ຮັບການລະບຸວ່າເປັນ false).

ຄົ້ນຫາ PARAMETERS
ການຄົ້ນຫາຖືກຄວບຄຸມໂດຍໄຟລ໌ ".s-params". ໃນໄຟລ໌ນີ້, ເສັ້ນຫວ່າງຫຼືເສັ້ນ
ເລີ່ມຕົ້ນດ້ວຍຕົວລະຄອນໃດໜຶ່ງເຫຼົ່ານີ້ຖືກປະຕິບັດເປັນຄໍາຄິດເຫັນ: "#", "!", ຫຼື ";". ໄດ້
ຊື່ພາລາມິເຕີແລະຄ່າຂອງມັນສາມາດຖືກແຍກອອກດ້ວຍເຄື່ອງຫມາຍເທົ່າທຽມກັນ, ຊ່ອງຫວ່າງ, ຫຼືແຖບ:

n_clsfs 1
n_clsfs = 1
n_clsfs 1

ຊ່ອງຫວ່າງຖືກລະເລີຍຖ້າ "=" ຫຼື " " ຖືກໃຊ້ເປັນຕົວແຍກ. ໝາຍເຫດວ່າບໍ່ມີການຕໍ່ທ້າຍ
ຈໍ້າຈຸດ.

ຕົວກໍານົດການຊອກຫາ, ທີ່ມີຄ່າເລີ່ມຕົ້ນຂອງພວກມັນ, ມີດັ່ງນີ້:

rel_error = 0.01
ລະບຸການວັດແທກຄວາມແຕກຕ່າງຂອງພີ່ນ້ອງທີ່ໃຊ້ໂດຍ clsf-DS-%=, ເມື່ອຕັດສິນໃຈວ່າ a
clsf ໃຫມ່ແມ່ນຊ້ໍາກັນຂອງອັນເກົ່າ.

start_j_list = 2, 3, 5, 7, 10, 15, 25
ໃນເບື້ອງຕົ້ນພະຍາຍາມຈໍານວນຊັ້ນຮຽນເຫຼົ່ານີ້, ເພື່ອບໍ່ໃຫ້ການຄົ້ນຫາແຄບເກີນໄປ.
ສະຖານະຂອງລາຍຊື່ນີ້ຖືກບັນທຶກໄວ້ໃນໄຟລ໌ <..>.search ແລະໃຊ້ໃນການຣີສະຕາດ,
ເວັ້ນ ເສຍ ແຕ່ ຂໍ້ ກໍາ ນົດ override ຂອງ start_j_list ແມ່ນເຮັດຢູ່ໃນໄຟລ໌ .s-params ສໍາລັບ
restart ແລ່ນ. ບັນຊີລາຍຊື່ນີ້ຄວນຈະວົງເລັບຈໍານວນທີ່ຄາດໄວ້ຂອງຫ້ອງຮຽນ, ແລະໂດຍ
ຂອບກ້ວາງ! "start_j_list = -999" ລະບຸລາຍຊື່ຫວ່າງເປົ່າ (ອະນຸຍາດສະເພາະໃນ
ຣີສະຕາດ)

n_classes_fn_type = "random_ln_normal"
ເມື່ອໃດທີ່ start_j_list ໝົດ​ແລ້ວ, AutoClass ຈະເອີ້ນຟັງຊັນນີ້ເພື່ອຕັດສິນໃຈວ່າແນວໃດ
ຫ້ອງຮຽນຈໍານວນຫຼາຍທີ່ຈະເລີ່ມຕົ້ນດ້ວຍຄວາມພະຍາຍາມຕໍ່ໄປ, ໂດຍອີງໃສ່ 10 ການຈັດປະເພດທີ່ດີທີ່ສຸດ
ພົບເຫັນມາເຖິງຕອນນັ້ນ. ໃນປັດຈຸບັນມີພຽງແຕ່ "random_ln_normal" ເທົ່ານັ້ນ.

fixed_j = 0
ເມື່ອ​ໃດ​ fixed_j > 0, overrides start_j_list ແລະ n_classes_fn_type, ແລະ AutoClass ຈະ
ສະເຫມີໃຊ້ຄ່ານີ້ສໍາລັບຈໍານວນຊັ້ນຮຽນເບື້ອງຕົ້ນ.

min_report_period = 30
ລໍຖ້າຢ່າງຫນ້ອຍເວລານີ້ (ເປັນວິນາທີ) ນັບຕັ້ງແຕ່ບົດລາຍງານທີ່ຜ່ານມາຈົນກ່ວາການລາຍງານ verbosely
ອີກເທື່ອຫນຶ່ງ. ຄວນຖືກຕັ້ງໄວ້ດົນກວ່າເວລາແລ່ນທີ່ຄາດໄວ້ໃນເວລາກວດສອບ
ການ​ເຮັດ​ເລ​ື້ມ​ຄືນ​ຂອງ​ຜົນ​ໄດ້​ຮັບ​. ສໍາລັບຜົນໄດ້ຮັບຊ້ໍາອີກ, ເບິ່ງ force_new_search_p,
start_fn_type ແລະ randomize_random_p. ຫມາຍ​ເຫດ​: ຢ່າງໜ້ອຍໜຶ່ງໃນ "interactive_p",
"max_duration", ແລະ "max_n_tries" ຈະຕ້ອງມີການເຄື່ອນໄຫວ. ຖ້າບໍ່ດັ່ງນັ້ນ AutoClass ຈະດໍາເນີນການ
ຢ່າງບໍ່ມີກຳນົດ. ເບິ່ງຂ້າງລຸ່ມນີ້.

interactive_p = ຈິງ
ເມື່ອເປັນຜິດ, ອະນຸຍາດໃຫ້ດໍາເນີນການຕໍ່ໄປຈົນກ່ວາການຢຸດເຊົາຖ້າບໍ່ດັ່ງນັ້ນ. ເມື່ອເປັນຄວາມຈິງ, ມາດຕະຖານ
ການປ້ອນຂໍ້ມູນຖືກສອບຖາມໃນແຕ່ລະຮອບສໍາລັບຕົວ quit "q", ເຊິ່ງ, ເມື່ອກວດພົບ,
ເຮັດໃຫ້ເກີດການຢຸດເຊົາໃນທັນທີ.

ໄລຍະເວລາສູງສຸດ = 0
ເມື່ອ = 0, ອະນຸຍາດໃຫ້ດໍາເນີນການຕໍ່ໄປຈົນກ່ວາຢຸດເຊົາຖ້າບໍ່ດັ່ງນັ້ນ. ເມື່ອ > 0, ລະບຸ
ຈໍານວນສູງສຸດຂອງວິນາທີທີ່ຈະດໍາເນີນການ.

ສູງສຸດ_n_ພະຍາຍາມ = 0
ເມື່ອ = 0, ອະນຸຍາດໃຫ້ດໍາເນີນການຕໍ່ໄປຈົນກ່ວາຢຸດເຊົາຖ້າບໍ່ດັ່ງນັ້ນ. ເມື່ອ > 0, ລະບຸ
ຈໍານວນສູງສຸດຂອງຄວາມພະຍາຍາມເພື່ອເຮັດໃຫ້.

n_save = 2
ບັນທຶກ clsfs ຈໍານວນຫຼາຍນີ້ໃສ່ແຜ່ນໃນໄຟລ໌ .results[-bin] ແລະ .search. ຖ້າ 0, ຢ່າ
ບັນທຶກອັນໃດກໍໄດ້ (ບໍ່ມີໄຟລ໌ .search & .results[-bin]).

log_file_p = ຈິງ
ຖ້າຜິດ, ຢ່າຂຽນບັນທຶກ.

search_file_p = ຈິງ
ຖ້າບໍ່ຖືກຕ້ອງ, ຢ່າຂຽນເອກະສານຄົ້ນຫາ.

results_file_p = ຈິງ
ຖ້າຜິດ, ຢ່າຂຽນໄຟລ໌ຜົນໄດ້ຮັບ.

min_save_period = 1800
ປ້ອງກັນການຂັດຂ້ອງຂອງ CPU. ນີ້ກໍານົດເວລາສູງສຸດ, ໃນວິນາທີ, ນັ້ນ AutoClass
ຈະດໍາເນີນການກ່ອນທີ່ມັນຈະບັນທຶກຜົນໄດ້ຮັບໃນປະຈຸບັນໃສ່ແຜ່ນດິດ. ເວລາເລີ່ມຕົ້ນແມ່ນ 30
ນາທີ.

max_n_store = 10
ລະບຸຈໍານວນການຈັດປະເພດສູງສຸດທີ່ເກັບໄວ້ພາຍໃນ.

n_final_summary = 10
ລະບຸຈໍານວນການທົດລອງທີ່ຈະພິມອອກຫຼັງຈາກສິ້ນສຸດການຄົ້ນຫາ.

start_fn_type = "ສຸ່ມ"
ຫນຶ່ງໃນ {"random", "block"}. ນີ້ລະບຸປະເພດຂອງການເລີ່ມຕົ້ນຊັ້ນຮຽນ. ສໍາລັບ
ການຄົ້ນຫາແບບປົກກະຕິ, ໃຊ້ "ສຸ່ມ", ເຊິ່ງເລືອກຕົວຢ່າງແບບສຸ່ມເປັນຊັ້ນຮຽນເບື້ອງຕົ້ນ
ຫມາຍຄວາມວ່າ, ແລະເພີ່ມຄວາມແຕກຕ່າງກັນທີ່ເຫມາະສົມ. ສໍາລັບການທົດສອບກັບການຄົ້ນຫາຊ້ໍາກັນ, ໃຊ້
"block", ເຊິ່ງແບ່ງສ່ວນຖານຂໍ້ມູນເຂົ້າໄປໃນຕັນຢ່າງຕໍ່ເນື່ອງຂອງຂະຫນາດເທົ່າທຽມກັນ.
ສໍາລັບຜົນໄດ້ຮັບຊ້ໍາອີກ, ເບິ່ງ force_new_search_p, min_report_period, ແລະ
randomize_random_p.

try_fn_type = "converge_search_3"
ໜຶ່ງໃນ {"converge_search_3", "converge_search_4", "converge"}. ເຫຼົ່ານີ້ລະບຸ
ເງື່ອນໄຂການຢຸດການຊອກຫາສະລັບກັນ. "converge" ພຽງແຕ່ທົດສອບອັດຕາການປ່ຽນແປງຂອງ
ຄວາມເປັນໄປໄດ້ການຈັດປະເພດ log_marginal (clsf->log_a_x_h), ໂດຍບໍ່ມີການກວດສອບ
ອັດຕາການປ່ຽນແປງຂອງແຕ່ລະຊັ້ນຮຽນ (ເບິ່ງ ໄລຍະຢຸດ ແລະ halt_factor).
"converge_search_3" ແລະ "converge_search_4" ແຕ່ລະຕິດຕາມອັດຕາສ່ວນ
class->log_a_w_s_h_j/class->w_j ສໍາລັບທຸກຊັ້ນຮຽນ, ແລະສືບຕໍ່ convergence ຈົນກ່ວາທັງຫມົດ.
ຜ່ານເງື່ອນໄຂຂອງ quiescence n_ສະເລ່ຍ ຮອບວຽນ. ການທົດສອບ "converge_search_3".
ຄວາມແຕກຕ່າງລະຫວ່າງວົງຈອນການລວມເຂົ້າກັນຢ່າງຕໍ່ເນື່ອງ (ເບິ່ງ rel_delta_range) ນີ້
ສະຫນອງເງື່ອນໄຂການຢຸດເຊົາຈຸດປະສົງທົ່ວໄປທີ່ສົມເຫດສົມຜົນ. "converge_search_4"
ສະເລ່ຍອັດຕາສ່ວນຫຼາຍກວ່າ "sigma_beta_n_values" ຮອບວຽນ (ເບິ່ງ cs4_delta_range) ນີ້
ເປັນທີ່ຕ້ອງການເມື່ອ converge_search_3 ຜະລິດຫຼາຍຊັ້ນຮຽນທີ່ຄ້າຍຄືກັນ.

initial_cycles_p = ຈິງ
ຖ້າຖືກຕ້ອງ, ປະຕິບັດ base_cycle ໃນ initialize_parameters. false ແມ່ນໃຊ້ພຽງແຕ່ສໍາລັບ
ການທົດສອບ.

save_compact_p = ຈິງ
true ບັນທຶກການຈັດປະເພດເປັນຖານສອງທີ່ຂຶ້ນກັບເຄື່ອງຈັກ (.results-bin & .chkpt-bin).
ບັນທຶກທີ່ບໍ່ຖືກຕ້ອງເປັນຂໍ້ຄວາມ ascii (. ຜົນໄດ້ຮັບ & .chkpt)

read_compact_p = ຈິງ
true ອ່ານການຈັດປະເພດເປັນ binary ທີ່ຂຶ້ນກັບເຄື່ອງຈັກ (.results-bin & .chkpt-bin).
false ອ່ານເປັນຂໍ້ຄວາມ ascii (.results & .chkpt).

randomize_random_p = ຈິງ
ເມັດທີ່ບໍ່ຖືກຕ້ອງ lrand48, ການທໍາງານຂອງຕົວເລກ pseudo-random ກັບ 1 ເພື່ອໃຫ້ສາມາດຊ້ໍາໄດ້
ກໍ​ລະ​ນີ​ທົດ​ສອບ​. true ໃຊ້ໂມງເວລາທົ່ວໄປເປັນເມັດພັນ, ໃຫ້ເຄິ່ງສຸ່ມ
ຄົ້ນຫາ. ສໍາລັບຜົນໄດ້ຮັບຊ້ໍາອີກ, ເບິ່ງ force_new_search_p, min_report_period
ແລະ start_fn_type.

n_data = 0
ດ້ວຍ n_data = 0, ຖານຂໍ້ມູນທັງຫມົດຖືກອ່ານຈາກ .db2. ດ້ວຍ n_data > 0, ພຽງແຕ່ນີ້
ຈໍານວນຂໍ້ມູນຖືກອ່ານ.

ໄລຍະຢຸດ = 0.5
ຜ່ານໄປ try_fn_type "converge". ດ້ວຍ "converge" try_fn_type, convergence ແມ່ນ
ຢຸດໃນເວລາທີ່ຂະຫນາດໃຫຍ່ຂອງ halt_range ແລະ (halt_factor * current_log_marginal)
ເກີນຄວາມແຕກຕ່າງລະຫວ່າງຄ່າຂອງວົງຈອນຕໍ່ເນື່ອງຂອງການຈັດປະເພດ
log_marginal (clsf->log_a_x_h). ການຫຼຸດລົງຂອງມູນຄ່ານີ້ອາດຈະເຮັດໃຫ້ convergence ເຄັ່ງຄັດ
ແລະເພີ່ມຈໍານວນຂອງຮອບວຽນ.

halt_factor = 0.0001
ຜ່ານໄປ try_fn_type "converge". ດ້ວຍ "converge" try_fn_type, convergence ແມ່ນ
ຢຸດໃນເວລາທີ່ຂະຫນາດໃຫຍ່ຂອງ halt_range ແລະ (halt_factor * current_log_marginal)
ເກີນຄວາມແຕກຕ່າງລະຫວ່າງຄ່າຂອງວົງຈອນຕໍ່ເນື່ອງຂອງການຈັດປະເພດ
log_marginal (clsf->log_a_x_h). ການຫຼຸດລົງຂອງມູນຄ່ານີ້ອາດຈະເຮັດໃຫ້ convergence ເຄັ່ງຄັດ
ແລະເພີ່ມຈໍານວນຂອງຮອບວຽນ.

rel_delta_range = 0.0025
ຜ່ານການລອງຟັງຊັນ "converge_search_3", ເຊິ່ງຕິດຕາມອັດຕາສ່ວນຂອງບັນທຶກປະມານ-
marginal-likelihood ຂອງສະຖິຕິຊັ້ນຮຽນໂດຍເຄົາລົບ-ການສົມມຸດຕິຖານຂອງຫ້ອງຮຽນ
(class->log_a_w_s_h_j) ແບ່ງດ້ວຍນ້ຳໜັກຂອງຊັ້ນຮຽນ (class->w_j), ສຳລັບແຕ່ລະຊັ້ນຮຽນ.
"converge_search_3" ຢຸດ convergence ເມື່ອຄວາມແຕກຕ່າງລະຫວ່າງຮອບວຽນ, ນີ້
ອັດຕາສ່ວນ, ສໍາລັບແຕ່ລະຊັ້ນຮຽນ, ໄດ້ເກີນ "rel_delta_range" ສໍາລັບ "n_average"
ຮອບວຽນ. ການຫຼຸດລົງ "rel_delta_range" ເຄັ່ງຄັດຂື້ນກັບ convergence ແລະເພີ່ມທະວີການ
ຈໍານວນຂອງຮອບວຽນ.

cs4_delta_range = 0.0025
ຜ່ານການລອງຟັງຊັນ "converge_search_4", ເຊິ່ງຕິດຕາມອັດຕາສ່ວນຂອງ
(class->log_a_w_s_h_j)/(class->w_j), ສຳລັບແຕ່ລະຊັ້ນຮຽນ, ສະເລ່ຍຫຼາຍກວ່າ
"sigma_beta_n_values" ຮອບວຽນລວມກັນ. "converge_search_4" ຢຸດການລວມເຂົ້າກັນ
ເມື່ອຄວາມແຕກຕ່າງສູງສຸດຂອງຄ່າສະເລ່ຍຂອງອັດຕາສ່ວນນີ້ຕໍ່າກວ່າ
"cs4_delta_range". ການຫຼຸດລົງ "cs4_delta_range" ເຄັ່ງຄັດຂື້ນກັບ convergence ແລະ
ເພີ່ມຈໍານວນຂອງຮອບວຽນ.

n_ສະເລ່ຍ = 3
ຜ່ານການລອງຟັງຊັນ "converge_search_3" ແລະ "converge". ຈໍານວນຂອງຮອບວຽນ
ສໍາລັບການທີ່ເງື່ອນໄຂ convergence ຕ້ອງໄດ້ຮັບການພໍໃຈສໍາລັບການທົດລອງທີ່ຈະສິ້ນສຸດ.

sigma_beta_n_values = 6
ຜ່ານໄປ try_fn_type "converge_search_4". ຈຳນວນຂອງຄ່າທີ່ຜ່ານມາທີ່ຈະໃຊ້ໃນ
ຄອມພິວເຕີ sigma^2 (ສິ່ງລົບກວນ) ແລະ beta^2 (ສັນຍານ).

max_cycles = 200
ນີ້ແມ່ນຈຳນວນສູງສຸດຂອງຮອບວຽນທີ່ອະນຸຍາດສຳລັບການລວມຕົວຂອງ a
ການຈັດປະເພດ, ໂດຍບໍ່ຄໍານຶງເຖິງເງື່ອນໄຂການຢຸດເຊົາອື່ນໆ. ນີ້ແມ່ນຂຶ້ນກັບຫຼາຍ
ຕາມຖານຂໍ້ມູນຂອງທ່ານແລະທາງເລືອກຂອງຕົວແບບແລະຕົວກໍານົດການ convergence, ແຕ່ຄວນຈະເປັນ
ປະມານສອງເທົ່າຂອງຈໍານວນຮອບວຽນໂດຍສະເລ່ຍທີ່ລາຍງານຢູ່ໃນຫນ້າຈໍ dump ແລະໄຟລ໌ .log

converge_print_p = ບໍ່ຖືກຕ້ອງ
ຖ້າເປັນຈິງ, ຟັງຊັນ try ທີ່ເລືອກຈະພິມໃສ່ຄ່າໜ້າຈໍທີ່ເປັນປະໂຫຍດໃນ
ການລະບຸຄ່າທີ່ບໍ່ແມ່ນຄ່າເລີ່ມຕົ້ນສຳລັບ ໄລຍະຢຸດ, halt_factor, rel_delta_range,
n_ສະເລ່ຍ, sigma_beta_n_values, ແລະ range_factor.

force_new_search_p = ຈິງ
ຖ້າເປັນຄວາມຈິງ, ຈະບໍ່ສົນໃຈຜົນການຄົ້ນຫາທີ່ຜ່ານມາ, ຍົກເລີກ .search ທີ່ມີຢູ່ແລ້ວ
ແລະ .results[-bin] ໄຟລ໌ຫຼັງຈາກການຢືນຢັນໂດຍຜູ້ໃຊ້; ຖ້າບໍ່ຖືກຕ້ອງ, ຈະສືບຕໍ່
ການຄົ້ນຫາໂດຍໃຊ້ໄຟລ໌ .search ແລະ .results[-bin] ທີ່ມີຢູ່ແລ້ວ. ສໍາລັບການເຮັດຊ້ໍາ
ຜົນໄດ້ຮັບ, ຍັງເບິ່ງ min_report_period, start_fn_type ແລະ randomize_random_p.

ດ່ານ_ປ = ບໍ່ຖືກຕ້ອງ
ຖ້າເປັນຄວາມຈິງ, ຈຸດກວດກາຂອງການຈັດປະເພດໃນປະຈຸບັນຈະຖືກຂຽນທຸກ
"min_checkpoint_period" ວິນາທີ, ດ້ວຍການຂະຫຍາຍໄຟລ໌ .chkpt[-bin]. ນີ້ແມ່ນພຽງແຕ່
ເປັນປະໂຫຍດສໍາລັບການຈັດປະເພດຂະຫນາດໃຫຍ່ຫຼາຍ

min_checkpoint_period = 10800
ຖ້າ checkpoint_p = true, ການຈັດປະເພດ checkpointed ຈະຖືກຂຽນເລື້ອຍໆນີ້
- ໃນ​ວິ​ນາ​ທີ (ຄ່າ​ເລີ່ມ​ຕົ້ນ = 3 ຊົ່ວ​ໂມງ​)

reconverge_type = "
ສາມາດເປັນ "chkpt" ຫຼື "ຜົນໄດ້ຮັບ". ຖ້າ "checkpoint_p" = true ແລະ "reconverge_type"
= "chkpt", ຫຼັງຈາກນັ້ນສືບຕໍ່ convergence ຂອງການຈັດປະເພດທີ່ມີຢູ່ໃນ
<...>.chkpt[-bin]. ຖ້າ "checkpoint_p" = false ແລະ "reconverge_type" = "ຜົນໄດ້ຮັບ",
ສືບຕໍ່ convergence ຂອງການຈັດປະເພດທີ່ດີທີ່ສຸດທີ່ມີຢູ່ໃນ <...>.results[-bin].

screen_output_p = ຈິງ
ຖ້າເປັນຜິດ, ບໍ່ມີຜົນຜະລິດຖືກນໍາໄປຫາຫນ້າຈໍ. ສົມມຸດວ່າ log_file_p = true, ຜົນຜະລິດ
ຈະຖືກນໍາໄປຫາໄຟລ໌ບັນທຶກເທົ່ານັ້ນ.

break_on_warnings_p = ຈິງ
ຄ່າເລີ່ມຕົ້ນຖາມຜູ້ໃຊ້ວ່າຈະສືບຕໍ່ຫຼືບໍ່, ໃນເວລາທີ່ກໍານົດຂໍ້ມູນ
ພົບເຫັນການເຕືອນໄພ. ຖ້າລະບຸວ່າເປັນຜິດ, ຫຼັງຈາກນັ້ນ AutoClass ຈະສືບຕໍ່, ເຖິງແມ່ນວ່າ
ການ​ເຕືອນ​ໄພ -- ການ​ເຕືອນ​ໄພ​ຈະ​ສືບ​ຕໍ່​ໄດ້​ຮັບ​ການ​ສົ່ງ​ອອກ​ໄປ​ຍັງ​ສະ​ຖານ​ທີ່​ແລະ​ບັນ​ທຶກ​ການ​
ຍື່ນ.

free_storage_p = ຈິງ
ຄ່າເລີ່ມຕົ້ນບອກ AutoClass ເພື່ອປົດປ່ອຍພື້ນທີ່ຈັດເກັບຂໍ້ມູນສ່ວນໃຫຍ່ທີ່ຈັດສັນໄວ້ຂອງມັນ.
ນີ້ບໍ່ຈໍາເປັນຕ້ອງ, ແລະໃນກໍລະນີຂອງ DEC Alpha ເຮັດໃຫ້ເກີດ dump ຫຼັກ [ນີ້ແມ່ນ
ຍັງແທ້ບໍ?]. ຖ້າລະບຸວ່າເປັນຜິດ, AutoClass ຈະບໍ່ພະຍາຍາມເພີ່ມພື້ນທີ່ຈັດເກັບຂໍ້ມູນ.

ວິທີການ ເຖິງ GET ອັດຕະໂນມັດ C ເຖິງ ຜະລິດຕະພັນ ຊໍ້າຄືນໄດ້ ຜົນໄດ້ຮັບ
ໃນ​ບາງ​ສະ​ຖາ​ນະ​ການ​, ການ​ຈັດ​ປະ​ເພດ​ຊ​້​ໍ​າ​ແມ່ນ​ຕ້ອງ​ການ​: ການ​ປຽບ​ທຽບ​ຂັ້ນ​ພື້ນ​ຖານ​ AutoClass C
ຄວາມຊື່ສັດໃນເວທີທີ່ແຕກຕ່າງກັນ, porting AutoClass C ໄປສູ່ເວທີໃຫມ່, ແລະອື່ນໆ
ສໍາ​ເລັດ​ສອງ​ສິ່ງ​ນີ້​ແມ່ນ​ມີ​ຄວາມ​ຈໍາ​ເປັນ​: 1​) ການ​ຜະ​ລິດ​ຈໍາ​ນວນ Random ດຽວ​ກັນ​ຕ້ອງ​ເປັນ​
ຖືກນໍາໃຊ້, ແລະ 2) ຕົວກໍານົດການຊອກຫາຕ້ອງຖືກກໍານົດຢ່າງຖືກຕ້ອງ.

ຜູ້ຜະລິດຕົວເລກ Random. ການຈັດຕັ້ງປະຕິບັດນີ້ AutoClass C ໃຊ້ Unix srand48/lrand48
ເຄື່ອງກໍາເນີດຕົວເລກແບບສຸ່ມທີ່ສ້າງຕົວເລກ pseudo-random ໂດຍໃຊ້ເສັ້ນຊື່ທີ່ມີຊື່ສຽງ
congruential algorithm ແລະ 48-bit integer arithmetic. lrand48() ກັບຄືນມາທີ່ບໍ່ແມ່ນລົບ
ຈຳນວນເຕັມທີ່ແຈກຢາຍຢ່າງສະເໝີພາບໃນຊ່ວງໄລຍະ [0, 2**31].

ຄົ້ນຫາພາລາມິເຕີ. ຕົວກໍານົດການໄຟລ໌ .s-params ຕໍ່ໄປນີ້ຄວນຈະຖືກລະບຸ:

force_new_search_p = ຈິງ
start_fn_type "ບລັອກ"
randomize_random_p = ຜິດ
;; ລະບຸຈໍານວນຂອງການທົດລອງທີ່ທ່ານຕ້ອງການທີ່ຈະດໍາເນີນການ
max_n_tries = 50
;; ລະບຸເວລາຫຼາຍກວ່າໄລຍະເວລາຂອງການແລ່ນ
min_report_period = 30000

ໃຫ້ສັງເກດວ່າບໍ່ມີບົດລາຍງານການຈັດປະເພດທີ່ດີທີ່ສຸດໃນປະຈຸບັນຈະຖືກຜະລິດ. ສຸດທ້າຍເທົ່ານັ້ນ
ສະຫຼຸບການຈັດປະເພດຈະເປັນຜົນຜະລິດ.

ດ່ານກວດກາ


ດ້ວຍຖານຂໍ້ມູນທີ່ໃຫຍ່ຫຼາຍ, ຄວາມເປັນໄປໄດ້ຂອງລະບົບ crash ໃນໄລຍະໃດກໍ່ຕາມ
ພະຍາຍາມຈັດປະເພດຫນຶ່ງ. ພາຍໃຕ້ສະຖານະການດັ່ງກ່າວ, ມັນແມ່ນແນະນໍາໃຫ້ໃຊ້ເວລາທີ່ຈະ
ກວດເບິ່ງການຄິດໄລ່ສໍາລັບການເລີ່ມຕົ້ນໃຫມ່ທີ່ເປັນໄປໄດ້.

ການກວດກາແມ່ນເລີ່ມຕົ້ນໂດຍການລະບຸ "ດ່ານ_ປ = true" ໃນໄຟລ໌ ".s-params".
ນີ້ເຮັດໃຫ້ຂັ້ນຕອນການ convergence ພາຍໃນ, ເພື່ອບັນທຶກສໍາເນົາຂອງການຈັດປະເພດໃສ່ໃນ
ເອກະສານກວດກາແຕ່ລະຄັ້ງທີ່ການຈັດປະເພດໄດ້ຖືກປັບປຸງ, ສະຫນອງໄລຍະເວລາທີ່ແນ່ນອນຂອງ
ເວລາໄດ້ຜ່ານໄປ. ນາມສະກຸນໄຟລ໌ແມ່ນ ".chkpt[-bin]".

ແຕ່ລະຄັ້ງທີ່ AutoClass ເຮັດຮອບວຽນ, "." ແມ່ນ​ຜົນ​ຜະ​ລິດ​ທີ່​ຫນ້າ​ຈໍ​ເພື່ອ​ໃຫ້​ທ່ານ​ມີ​
ຂໍ້​ມູນ​ທີ່​ຈະ​ນໍາ​ໃຊ້​ໃນ​ການ​ຕັ້ງ​ຄ່າ​ min_checkpoint_period ຄ່າ (ຄ່າເລີ່ມຕົ້ນ 10800 ວິນາທີ
ຫຼື 3 ຊົ່ວໂມງ). ແນ່ນອນວ່າມີການຊື້ຂາຍລະຫວ່າງຄວາມຖີ່ຂອງການກວດກາແລະ
ຄວາມ​ເປັນ​ໄປ​ໄດ້​ທີ່​ເຄື່ອງ​ຂອງ​ທ່ານ​ອາດ​ຈະ crash, ນັບ​ຕັ້ງ​ແຕ່​ການ​ຂຽນ​ຊ​້​ໍາ​ຂອງ​ການ​ກວດ​ສອບ
ໄຟລ໌ຈະເຮັດໃຫ້ຂະບວນການຊອກຫາຊ້າລົງ.

ກຳລັງເລີ່ມການຊອກຫາ AutoClass ຄືນໃໝ່:

ເພື່ອຟື້ນຕົວການຈັດປະເພດ ແລະສືບຕໍ່ການຄົ້ນຫາຫຼັງຈາກ rebooting ແລະ reloading
AutoClass, ລະບຸ reconverge_type = "chkpt" ໃນໄຟລ໌ ".s-params" (ລະບຸ
force_new_search_p ບໍ່ຖືກຕ້ອງ).

AutoClass ຈະໂຫຼດຖານຂໍ້ມູນ ແລະແບບຈໍາລອງທີ່ເໝາະສົມຄືນໃໝ່, ສະຫນອງໃຫ້ວ່າບໍ່ມີ
ການປ່ຽນແປງໃນຊື່ໄຟລ໌ຂອງເຂົາເຈົ້ານັບຕັ້ງແຕ່ເວລາທີ່ເຂົາເຈົ້າໄດ້ຖືກໂຫລດສໍາລັບ checkpointed
ແລ່ນການຈັດປະເພດ. ໄຟລ໌ ".s-params" ມີອາກິວເມັນທີ່ບໍ່ແມ່ນຄ່າເລີ່ມຕົ້ນທີ່ເປັນ
ສະຫນອງໃຫ້ກັບການໂທຕົ້ນສະບັບ.

ໃນຕອນເລີ່ມຕົ້ນຂອງການຄົ້ນຫາ, ກ່ອນ start_j_list ໄດ້ຖືກເປົ່າຫວ່າງ, ມັນຈະມີຄວາມຈໍາເປັນ
ເພື່ອຕັດລາຍຊື່ຕົ້ນສະບັບໃຫ້ກັບສິ່ງທີ່ຍັງຄົງຢູ່ໃນການຄົ້ນຫາທີ່ລົ້ມລົງ. ນີ້ສາມາດເປັນ
ກໍານົດໂດຍການເບິ່ງໄຟລ໌ ".log" ເພື່ອກໍານົດຄ່າທີ່ຖືກນໍາໃຊ້ແລ້ວ. ຖ້າ
ໄດ້ start_j_list ໄດ້ຖືກເປົ່າຫວ່າງ, ຫຼັງຈາກນັ້ນຫວ່າງເປົ່າ start_j_list ຄວນລະບຸໄວ້ໃນ
ໄຟລ໌ ".s-params". ນີ້ແມ່ນເຮັດໄດ້ໂດຍ

start_j_list =

or

start_j_list = -9999

ນີ້ແມ່ນຊຸດຂອງສະຄຣິບເພື່ອສະແດງໃຫ້ເຫັນການກວດສອບຈຸດ:

autoclass -search data/glass/glassc.db2 data/glass/glass-3c.hd2 \
data/glass/glass-mnc.model data/glass/glassc-chkpt.s-params

ແລ່ນ 1)
## glassc-chkpt.s-params
max_n_tries = 2
force_new_search_p = ຈິງ
## --------------------
;; ແລ່ນໃຫ້ສໍາເລັດ

ແລ່ນ 2)
## glassc-chkpt.s-params
force_new_search_p = ບໍ່ຖືກຕ້ອງ
max_n_tries = 10
checkpoint_p = ຈິງ
min_checkpoint_period = 2
## --------------------
;; ຫຼັງຈາກ 1 ຈຸດກວດກາ, ctrl-C ເພື່ອຈໍາລອງການຂັດຂ້ອງຂອງ CPU

ແລ່ນ 3)
## glassc-chkpt.s-params
force_new_search_p = ບໍ່ຖືກຕ້ອງ
max_n_tries = 1
checkpoint_p = ຈິງ
min_checkpoint_period = 1
reconverge_type = "chkpt"
## --------------------
;; ການ​ທົດ​ລອງ​ດ່ານ​ຄວນ​ສໍາ​ເລັດ​

OUTPUT ເອກະສານ


ບົດລາຍງານມາດຕະຖານແມ່ນ

1) ຄຸນ​ຄ່າ​ອິດ​ທິ​ພົນ​ຄຸນ​ຄ່າ: ສະ​ເຫນີ​ໃຫ້​ມີ​ອິດ​ທິ​ພົນ​ທີ່​ກ່ຽວ​ຂ້ອງ​ຫຼື​ຄວາມ​ສໍາ​ຄັນ​ຂອງ​
ຄຸນ​ລັກ​ສະ​ນະ​ຂອງ​ຂໍ້​ມູນ​ທັງ​ໃນ​ທົ່ວ​ໂລກ (ໂດຍ​ສະ​ເລ່ຍ​ໃນ​ທົ່ວ​ທຸກ​ຫ້ອງ​)​, ແລະ​ໃນ​ທ້ອງ​ຖິ່ນ​
(ໂດຍສະເພາະສໍາລັບແຕ່ລະຫ້ອງຮຽນ). heuristic ສໍາລັບຄວາມເຂັ້ມແຂງຂອງຫ້ອງຮຽນພີ່ນ້ອງແມ່ນຍັງ
ລາຍຊື່;

2) ການອ້າງອິງຂ້າມຕາມກໍລະນີ (datum) ຈໍານວນ: ລາຍຊື່ຄວາມເປັນໄປໄດ້ຊັ້ນປະຖົມສໍາລັບ
ແຕ່ລະ datum, ຈັດຮຽງຕາມຕົວເລກກໍລະນີ. ເມື່ອ report_mode = "data", ເພີ່ມເຕີມຫນ້ອຍລົງ
ຄວາມເປັນໄປໄດ້ຂອງຊັ້ນຮຽນ (ຫຼາຍກວ່າ ຫຼືເທົ່າກັບ 0.001) ແມ່ນລະບຸໄວ້ສໍາລັບແຕ່ລະ datum;

3​) ການ​ອ້າງ​ອີງ​ຂ້າມ​ໂດຍ​ຈ​ໍ​າ​ນວນ​ຫ້ອງ​ຮຽນ​: ສໍາ​ລັບ​ແຕ່​ລະ​ຫ້ອງ​ການ​ຄາດ​ຄະ​ເນ​ຊັ້ນ​ຕົ້ນ​ຕໍ​ແລະ​
ຄວາມເປັນໄປໄດ້ຂອງຊັ້ນຮຽນທີ່ນ້ອຍກວ່າ (ຫຼາຍກວ່າ ຫຼືເທົ່າກັບ 0.001) ແມ່ນລະບຸໄວ້ສໍາລັບແຕ່ລະຄົນ
datum ໃນຊັ້ນຮຽນ, ຕາມລໍາດັບດ້ວຍຈໍານວນກໍລະນີ. ມັນເປັນໄປໄດ້ທີ່ຈະລາຍຊື່, ສໍາລັບແຕ່ລະຄົນ
datum, ຄ່າຂອງຄຸນລັກສະນະ, ທີ່ທ່ານເລືອກ.

ລາຍງານຄຸນຄ່າອິດທິພົນຂອງຄຸນລັກສະນະຄວາມພະຍາຍາມທີ່ຈະສະຫນອງມາດຕະການທີ່ກ່ຽວຂ້ອງຂອງ
"ອິດທິພົນ" ຂອງຄຸນລັກສະນະຂໍ້ມູນໃນຊັ້ນຮຽນທີ່ພົບເຫັນໂດຍການຈັດປະເພດ. ໄດ້
normalized class strengths, normalized attribute values ​​influence summed over all
ຊັ້ນຮຽນ, ແລະຄຸນຄ່າອິດທິພົນຂອງບຸກຄົນ (I[jkl]) ແມ່ນພຽງແຕ່ມາດຕະການທີ່ກ່ຽວຂ້ອງແລະ
ຄວນຈະຖືກຕີຄວາມຫມາຍຫຼາຍກວ່າການຈັດລໍາດັບ, ແຕ່ບໍ່ມັກຫຍັງ
ເຂົ້າໃກ້ຄຸນຄ່າຢ່າງແທ້ຈິງ.

ບົດລາຍງານແມ່ນສົ່ງອອກໄປຫາໄຟລ໌ທີ່ມີຊື່ແລະຊື່ເສັ້ນທາງຖືກເອົາມາຈາກ ".r-params"
ຊື່ເສັ້ນທາງໄຟລ໌. ປະເພດເອກະສານລາຍງານ (ສ່ວນຂະຫຍາຍ) ແມ່ນ:

ມີອິດທິພົນຕໍ່ ຄ່າ ບົດ​ລາຍ​ງານ
"influ-o-text-n" ຫຼື "influ-no-text-n"

ອ້າງອີງຂ້າມ by ກໍລະນີ
"ກໍລະນີ-ຂໍ້ຄວາມ-n"

ອ້າງອີງຂ້າມ by ລະດັບ
"ຫ້ອງຮຽນຂໍ້ຄວາມ-n"

ຫຼື, ຖ້າ report_mode ຖືກ overridden ກັບ "data":

ມີອິດທິພົນຕໍ່ ຄ່າ ບົດ​ລາຍ​ງານ
"influ-o-data-n" ຫຼື "influ-no-data-n"

ອ້າງອີງຂ້າມ by ກໍລະນີ
"ກໍລະນີ-ຂໍ້ມູນ-n"

ອ້າງອີງຂ້າມ by ລະດັບ
"ຂໍ້ມູນຫ້ອງຮຽນ-n"

ບ່ອນທີ່ n ແມ່ນຕົວເລກການຈັດປະເພດຈາກໄຟລ໌ "ຜົນໄດ້ຮັບ". ທໍາອິດຫຼືດີທີ່ສຸດ
ການຈັດປະເພດແມ່ນເລກ 1, ທີ່ດີທີ່ສຸດ 2 ຕໍ່ໄປ, ແລະອື່ນໆ. ຄ່າເລີ່ມຕົ້ນແມ່ນການສ້າງບົດລາຍງານ
ພຽງແຕ່ສໍາລັບການຈັດປະເພດທີ່ດີທີ່ສຸດໃນໄຟລ໌ "ຜົນໄດ້ຮັບ". ທ່ານສາມາດຜະລິດບົດລາຍງານສໍາລັບການອື່ນໆ
ບັນທຶກການຈັດປະເພດໂດຍການໃຊ້ຄໍາສໍາຄັນຂອງບົດລາຍງານ n_clsfs ແລະ clsf_n_list. ໄດ້
"influ-o-text-n" ປະເພດໄຟລ໌ແມ່ນຄ່າເລີ່ມຕົ້ນ (order_attributes_by_influence_p = true), ແລະ
ລາຍຊື່ຄຸນລັກສະນະຂອງແຕ່ລະຊັ້ນຮຽນຕາມລໍາດັບ descending ຂອງມູນຄ່າອິດທິພົນຂອງຄຸນລັກສະນະ. ຖ້າ
ມູນຄ່າຂອງ order_attributes_by_influence_p ແມ່ນ overridden ເປັນ false ໃນ <...>.r-params
ໄຟລ໌, ຫຼັງຈາກນັ້ນຄຸນລັກສະນະຂອງແຕ່ລະຊັ້ນຮຽນຈະຖືກສະແດງຢູ່ໃນລໍາດັບຈາກນ້ອຍຫາໃຫຍ່ໂດຍຈໍານວນຄຸນລັກສະນະ.
ສ່ວນຂະຫຍາຍຂອງໄຟລ໌ທີ່ສ້າງຂຶ້ນຈະເປັນ "influ-no-text-n". ວິທີການບັນຊີລາຍຊື່ນີ້
ອໍານວຍຄວາມສະດວກໃນການປຽບທຽບສາຍຕາຂອງຄຸນຄ່າຂອງຄຸນລັກສະນະລະຫວ່າງຫ້ອງຮຽນ.

ສໍາລັບຕົວຢ່າງ, ຄໍາສັ່ງນີ້:

autoclass -reports ຕົວຢ່າງ/imports-85c.results-bin
sample/imports-85c.search ຕົວຢ່າງ/imports-85c.r-params

ກັບແຖວນີ້ຢູ່ໃນໄຟລ໌ ".r-params":

xref_class_report_att_list = 2, 5, 6

ຈະສ້າງໄຟລ໌ຜົນຜະລິດເຫຼົ່ານີ້:

imports-85.influ-o-text-1
imports-85.case-text-1
imports-85.class-text-1

ໄດ້ AutoClass C ບົດ​ລາຍ​ງານ​ສະ​ຫນອງ​ຄວາມ​ສາ​ມາດ​ໃນ​ການ​ຄິດ​ໄລ່​ຄ່າ contour ຫ້ອງ sigma ສໍາ​ລັບ​ການ​
ກໍານົດຄູ່ຂອງຄຸນລັກສະນະທີ່ມີຄຸນຄ່າທີ່ແທ້ຈິງ, ເມື່ອສ້າງລາຍງານມູນຄ່າອິດທິພົນ
ກັບທາງເລືອກຂໍ້ມູນ (report_mode = "data"). ໃຫ້ສັງເກດວ່າ contours ຫ້ອງຮຽນ sigma ບໍ່ແມ່ນ
ສ້າງຂຶ້ນຈາກຄຸນລັກສະນະປະເພດແຍກກັນ.

Sigma contours ແມ່ນສອງມິຕິທຽບເທົ່າຂອງແຖບຄວາມຜິດພາດ n-sigma ໃນຫນຶ່ງ.
ມິຕິ. ໂດຍສະເພາະ, ສໍາລັບສອງຄຸນລັກສະນະເອກະລາດ, contour n-sigma ຖືກກໍານົດເປັນ
ellipse ບ່ອນທີ່

((x − xMean) / xSigma)^2 + ((y - yMean) / ySigma)^2 == n

ດ້ວຍຄຸນລັກສະນະ covariant, contours n-sigma ຖືກກໍານົດຄືກັນ, ໃນການຫມຸນ.
ລະບົບປະສານງານຂອງແກນຫຼັກຂອງການແຈກຢາຍ. ດັ່ງນັ້ນຄຸນລັກສະນະເອກະລາດໃຫ້
ellipses ຮັດກຸມຂະຫນານກັບແກນຄຸນລັກສະນະ, ໃນຂະນະທີ່ແກນຂອງ contours sigma ຂອງ
ຄຸນລັກສະນະ covariant ແມ່ນ rotated ກ່ຽວກັບສູນກາງທີ່ກໍານົດໂດຍວິທີການ. ໃນກໍລະນີໃດກໍ່ຕາມ
contour sigma ເປັນຕົວແທນຂອງເສັ້ນທີ່ຄວາມເປັນໄປໄດ້ຂອງຊັ້ນຮຽນແມ່ນຄົງທີ່, ໂດຍບໍ່ສົນເລື່ອງ
ຄວາມເປັນໄປໄດ້ຂອງຫ້ອງຮຽນອື່ນໆ.

ດ້ວຍຄຸນສົມບັດສາມຢ່າງ ຫຼືຫຼາຍກວ່ານັ້ນ, ຮູບຊົງ n-sigma ກາຍເປັນຮູບສ້ວຍມິຕິ k-dimensional.
ດ້ານ. ລະຫັດນີ້ໃຊ້ປະໂຫຍດຈາກຄວາມຈິງທີ່ວ່າການຄາດຄະເນຂະຫນານຂອງ n-
ຮູບຮີມິຕິ, ຢູ່ເທິງຍົນ 2 ມືດ, ຖືກຜູກມັດດ້ວຍຮູບຮີ. ໃນນີ້ງ່າຍ
ກໍລະນີທີ່ສະແດງຮູບວົງວຽນ sigma ດຽວໃສ່ແຜນທີ່ປະສານງານ, ມັນຍັງເປັນຄວາມຈິງ
ວ່າຄວາມແປປວນ 2-dim ຂອງຮູບຮີນີ້ແມ່ນເທົ່າກັບອົງປະກອບທີ່ສອດຄ້ອງກັນຂອງ
n-dim ellipsoid's coariances. ລະບົບ Eigen ຂອງ 2-dim covariance ຫຼັງຈາກນັ້ນໃຫ້
ຄວາມແຕກຕ່າງຂອງອົງປະກອບຫຼັກຂອງ eclipse, ແລະການຫມຸນທີ່ສອດຄ່ອງມັນ.
ກັບຂໍ້ມູນ. ນີ້ສະແດງເຖິງວິທີທີ່ດີທີ່ສຸດເພື່ອສະແດງການແຈກຢາຍຢູ່ໃນຂອບ
ຍົນ.

ເພື່ອໃຫ້ໄດ້ຮັບຄ່າ contour, ກໍານົດຄໍາສໍາຄັນ sigma_contours_att_list ບັນຊີລາຍຊື່ຂອງມູນຄ່າທີ່ແທ້ຈິງ
attribute indices (ຈາກໄຟລ໌ .hd2), ແລະຮ້ອງຂໍໃຫ້ມີບົດລາຍງານມູນຄ່າອິດທິພົນກັບຂໍ້ມູນ
ທາງເລືອກ. ຍົກ​ຕົວ​ຢ່າງ,

report_mode = "ຂໍ້ມູນ"
sigma_contours_att_list = 3, 4, 5, 8, 15

OUTPUT ລາຍວຽກ PARAMETERS
ເນື້ອໃນຂອງບົດລາຍງານຜົນຜະລິດແມ່ນຄວບຄຸມໂດຍໄຟລ໌ ".r-params". ໃນເອກະສານນີ້,
ເສັ້ນຫວ່າງເປົ່າ ຫຼື ເສັ້ນທີ່ເລີ່ມຕົ້ນດ້ວຍໜຶ່ງໃນຕົວອັກສອນເຫຼົ່ານີ້ຖືກປະຕິບັດເປັນຄຳເຫັນ:
"#", "!", ຫຼື ";". ຊື່ພາລາມິເຕີແລະມູນຄ່າຂອງມັນສາມາດຖືກແຍກອອກໂດຍເຄື່ອງຫມາຍເທົ່າທຽມກັນ, a
ຍະຫວ່າງ ຫຼືແຖບ:

n_clsfs 1
n_clsfs = 1
n_clsfs 1

ຊ່ອງຫວ່າງຖືກລະເລີຍຖ້າ "=" ຫຼື " " ຖືກໃຊ້ເປັນຕົວແຍກ. ໝາຍເຫດວ່າບໍ່ມີການຕໍ່ທ້າຍ
ຈໍ້າຈຸດ.

ຕໍ່ໄປນີ້ແມ່ນພາລາມິເຕີທີ່ອະນຸຍາດ ແລະຄ່າເລີ່ມຕົ້ນຂອງພວກມັນ:

n_clsfs = 1
ຈໍານວນ clsfs ໃນໄຟລ໌ .results ທີ່ຈະສ້າງລາຍງານ, ເລີ່ມຕົ້ນດ້ວຍ
ທໍາອິດຫຼື "ດີທີ່ສຸດ".

clsf_n_list =
ຖ້າລະບຸ, ນີ້ແມ່ນລາຍການດັດສະນີທີ່ອີງໃສ່ຫນຶ່ງຂອງ clsfs ໃນລໍາດັບ clsf ອ່ານ.
ຈາກໄຟລ໌ .results. ມັນ overrides "n_clsfs". ຍົກ​ຕົວ​ຢ່າງ:

clsf_n_list = 1, 2

ຈະ​ຜະ​ລິດ​ຜົນ​ຜະ​ລິດ​ດຽວ​ກັນ​ກັບ​

n_clsfs = 2

ແຕ່

clsf_n_list = 2

ຈະອອກພຽງແຕ່ບົດລາຍງານການຈັດປະເພດ "ດີທີ່ສຸດທີສອງ".

ປະເພດລາຍງານ =
ປະເພດຂອງບົດລາຍງານທີ່ຈະສ້າງ: "ທັງຫມົດ", "influence_values", "xref_case", ຫຼື
"xref_class".

report_mode =
ຮູບແບບຂອງບົດລາຍງານທີ່ຈະສ້າງ. "ຂໍ້ຄວາມ" ແມ່ນການຈັດຮູບແບບຂໍ້ຄວາມ. "ຂໍ້ມູນ" ແມ່ນຕົວເລກ
-- ເຫມາະສໍາລັບການປຸງແຕ່ງຕໍ່ໄປ.

comment_data_headers_p = ບໍ່ຖືກຕ້ອງ
the default value does not insert # in column 1 of most report_mode = "data" header
ສາຍ. ຖ້າລະບຸວ່າເປັນຄວາມຈິງ, ຕົວອັກສອນຄຳເຫັນຈະຖືກໃສ່ໃນສ່ວນຫົວສ່ວນໃຫຍ່
ສາຍ.

num_atts_to_list =
ຖ້າລະບຸ, ຈໍານວນຂອງຄຸນລັກສະນະທີ່ຈະລາຍຊື່ໃນລາຍງານມູນຄ່າອິດທິພົນ. ຖ້າ​ບໍ່
ລະບຸ, ທັງຫມົດ ຄຸນລັກສະນະຈະຖືກລະບຸໄວ້. (ເຊັ່ນ: "num_atts_to_list = 5")

xref_class_report_att_list =
ຖ້າລະບຸ, ບັນຊີລາຍຊື່ຂອງຕົວເລກຄຸນລັກສະນະ (ຕາມສູນ), ມູນຄ່າຂອງມັນຈະເປັນຜົນຜະລິດ
ໃນບົດລາຍງານ "xref_class" ພ້ອມກັບຄວາມເປັນໄປໄດ້ຂອງກໍລະນີ. ຖ້າບໍ່ໄດ້ລະບຸ, ບໍ່ແມ່ນ
ຄຸນ​ຄ່າ​ຄຸນ​ລັກ​ສະ​ນະ​ຈະ​ເປັນ​ຜົນ​ຜະ​ລິດ​. (ເຊັ່ນ: "xref_class_report_att_list = 1, 2, 3")

order_attributes_by_influence_p = ຈິງ
ຄ່າເລີ່ມຕົ້ນຈະສະແດງຄຸນລັກສະນະຂອງແຕ່ລະຊັ້ນຮຽນຕາມລໍາດັບຈາກໃຫຍ່ຫານ້ອຍຂອງຄຸນລັກສະນະ
ຄ່າອິດທິພົນ, ແລະໃຊ້ ".influ-o-text-n" ເປັນໄຟລ໌ລາຍງານມູນຄ່າອິດທິພົນ
ປະເພດ. ຖ້າລະບຸວ່າເປັນຜິດ, ຄຸນລັກສະນະຂອງແຕ່ລະຊັ້ນຮຽນຈະຖືກລະບຸໄວ້ໃນ
ລໍາດັບຕັ້ງຊັນຂຶ້ນຕາມຈໍານວນຄຸນສົມບັດ. ສ່ວນຂະຫຍາຍຂອງໄຟລ໌ທີ່ສ້າງຂຶ້ນຈະເປັນ
"influ-no-text-n".

break_on_warnings_p = ຈິງ
ຄ່າເລີ່ມຕົ້ນຖາມຜູ້ໃຊ້ວ່າຈະສືບຕໍ່ຫຼືບໍ່ໃນເວລາທີ່ກໍານົດຂໍ້ມູນ
ພົບເຫັນການເຕືອນໄພ. ຖ້າລະບຸວ່າເປັນຜິດ, ຫຼັງຈາກນັ້ນ AutoClass ຈະສືບຕໍ່, ເຖິງແມ່ນວ່າ
ການ​ເຕືອນ​ໄພ -- ການ​ເຕືອນ​ໄພ​ຈະ​ສືບ​ຕໍ່​ໄດ້​ຮັບ​ການ​ສົ່ງ​ອອກ​ໄປ​ຍັງ​ສະ​ຖານ​ທີ່​.

free_storage_p = ຈິງ
ຄ່າເລີ່ມຕົ້ນບອກ AutoClass ເພື່ອປົດປ່ອຍພື້ນທີ່ຈັດເກັບຂໍ້ມູນສ່ວນໃຫຍ່ທີ່ຈັດສັນໄວ້ຂອງມັນ.
ນີ້ບໍ່ຈໍາເປັນຕ້ອງ, ແລະໃນກໍລະນີຂອງ DEC Alpha ເຮັດໃຫ້ເກີດການ dump ຫຼັກ [ນີ້ແມ່ນ
ຍັງແທ້ບໍ?]. ຖ້າລະບຸວ່າເປັນຜິດ, AutoClass ຈະບໍ່ພະຍາຍາມເພີ່ມພື້ນທີ່ຈັດເກັບຂໍ້ມູນ.

max_num_xref_class_probs = 5
ກຳນົດວ່າຄວາມໜ້າຈະເປັນໄປໄດ້ຂອງຊັ້ນຕ່ຳຈະຖືກພິມອອກຫຼາຍປານໃດສຳລັບກໍລະນີ ແລະ
ບົດລາຍງານການອ້າງອີງຂ້າມຊັ້ນຮຽນ. ຄ່າເລີ່ມຕົ້ນແມ່ນການພິມປະເພດທີ່ເປັນໄປໄດ້ທີ່ສຸດ
ຄ່າຄວາມເປັນໄປໄດ້ ແລະສູງເຖິງ 4 ຄວາມເປັນໄປໄດ້ຂອງຊັ້ນຕ່ຳ. ໃຫ້ສັງເກດວ່ານີ້ແມ່ນຄວາມຈິງສໍາລັບ
ທັງ "ຂໍ້ຄວາມ" ແລະ "ຂໍ້ມູນ" ບົດລາຍງານການອ້າງອິງແບບຂ້າມຊັ້ນ, ແຕ່ເປັນຄວາມຈິງພຽງແຕ່ສໍາລັບ
"ຂໍ້ມູນ" ກໍລະນີການອ້າງອິງຂ້າມລາຍງານ. ບົດລາຍງານການອ້າງອິງຂ້າມກໍລະນີ "ຂໍ້ຄວາມ" ເທົ່ານັ້ນ
ມີຄວາມເປັນໄປໄດ້ໃນຊັ້ນຮຽນຫຼາຍທີ່ສຸດ.

sigma_contours_att_list =
ຖ້າລະບຸ, ບັນຊີລາຍຊື່ຂອງຕົວຊີ້ວັດຄຸນລັກສະນະທີ່ມີຄຸນຄ່າທີ່ແທ້ຈິງ (ຈາກໄຟລ໌ .hd2) ຈະເປັນ
ຄິດໄລ່ຄ່າ contour ຊັ້ນຮຽນ sigma, ເມື່ອສ້າງມູນຄ່າອິດທິພົນລາຍງານດ້ວຍ
ທາງເລືອກຂໍ້ມູນ (report_mode = "ຂໍ້ມູນ"). ຖ້າບໍ່ລະບຸ, ຈະບໍ່ມີ sigma
ຜົນຜະລິດ contour ຫ້ອງຮຽນ. (ເຊັ່ນ: "sigma_contours_att_list = 3, 4, 5, 8, 15")

ການສົນທະນາ OF ອັດຕະໂນມັດ ຜົນໄດ້ຮັບ


ແມ່ນ​ຫຍັງ ມີ ທ່ານ ໄດ້ແລ້ວ?
ດຽວນີ້ເຈົ້າໄດ້ແລ່ນແລ້ວ AutoClass ໃນຊຸດຂໍ້ມູນຂອງທ່ານ -- ເຈົ້າໄດ້ຫຍັງ? ໂດຍປົກກະຕິ, ໄດ້
AutoClass ຂັ້ນຕອນການຄົ້ນຫາຊອກຫາການຈັດປະເພດຫຼາຍ, ແຕ່ວ່າພຽງແຕ່ຊ່ວຍປະຢັດຈໍານວນຫນ້ອຍທີ່ດີທີ່ສຸດ. ເຫຼົ່ານີ້
ດຽວນີ້ມີໃຫ້ກວດກາ ແລະຕີຄວາມໝາຍແລ້ວ. ຕົວຊີ້ວັດທີ່ສໍາຄັນທີ່ສຸດຂອງ
ຄຸນງາມຄວາມດີທີ່ກ່ຽວຂ້ອງຂອງການຈັດປະເພດທາງເລືອກເຫຼົ່ານີ້ແມ່ນບັນທຶກຄວາມເປັນໄປໄດ້ຫລັງທັງຫມົດ
ຄ່າ. ໃຫ້ສັງເກດວ່າເນື່ອງຈາກຄວາມເປັນໄປໄດ້ແມ່ນຢູ່ລະຫວ່າງ 1 ແລະ 0, ບັນທຶກທີ່ສອດຄ້ອງກັນ
ຄວາມ​ເປັນ​ໄປ​ໄດ້​ແມ່ນ​ທາງ​ລົບ​ແລະ​ລະ​ຫວ່າງ 0 ຫາ infinity ລົບ. ຄວາມແຕກຕ່າງລະຫວ່າງ
ຄ່າຄວາມເປັນໄປໄດ້ຂອງບັນທຶກເຫຼົ່ານີ້ທີ່ຍົກຂຶ້ນມາເປັນພະລັງງານ e ໃຫ້ຄວາມເປັນໄປໄດ້ທີ່ສົມທຽບຂອງ
ການຈັດປະເພດທາງເລືອກ. ດັ່ງນັ້ນຄວາມແຕກຕ່າງຂອງ, ເວົ້າວ່າ 100, ຫມາຍຄວາມວ່າການຈັດປະເພດຫນຶ່ງແມ່ນ
e^100 ~= 10^43 ອາດຈະຫຼາຍກວ່າອັນອື່ນ. ຢ່າງໃດກໍຕາມ, ຕົວເລກເຫຼົ່ານີ້ສາມາດເຮັດໃຫ້ເຂົ້າໃຈຜິດຫຼາຍ,
ເນື່ອງຈາກພວກເຂົາໃຫ້ຄວາມເປັນໄປໄດ້ຂອງການຈັດປະເພດທາງເລືອກພາຍໃຕ້
AutoClass ຂໍ້ສົມມຸດຕິຖານ.

ສົມມຸດຕິຖານ
ໂດຍສະເພາະ, ສໍາຄັນທີ່ສຸດ AutoClass ສົມມຸດຕິຖານແມ່ນການນໍາໃຊ້ແບບປົກກະຕິສໍາລັບ
ຕົວແປທີ່ແທ້ຈິງ, ແລະການສົມມຸດຕິຖານຂອງເອກະລາດຂອງຄຸນລັກສະນະພາຍໃນຫ້ອງຮຽນ. ນັບຕັ້ງແຕ່
ການສົມມຸດຕິຖານເຫຼົ່ານີ້ມັກຈະຖືກລະເມີດໃນການປະຕິບັດ, ຄວາມແຕກຕ່າງຂອງຄວາມເປັນໄປໄດ້ຫລັງ
ການຈັດປະເພດທາງເລືອກສາມາດເປັນບາງສ່ວນເນື່ອງຈາກການຈັດປະເພດຫນຶ່ງທີ່ໃກ້ຊິດກັບ
ພໍໃຈສົມມຸດຕິຖານກ່ວາອື່ນ, ແທນທີ່ຈະເປັນຄວາມແຕກຕ່າງທີ່ແທ້ຈິງໃນ
ຄຸນ​ນະ​ພາບ​ການ​ຈັດ​ປະ​ເພດ​. ແຫຼ່ງອື່ນຂອງຄວາມບໍ່ແນ່ນອນກ່ຽວກັບຜົນປະໂຫຍດຂອງ Log
ຄຸນ​ຄ່າ​ຄວາມ​ເປັນ​ໄປ​ໄດ້​ແມ່ນ​ວ່າ​ພວກ​ເຂົາ​ເຈົ້າ​ບໍ່​ໄດ້​ຄໍາ​ນ​ຶງ​ເຖິງ​ຄວາມ​ຮູ້​ກ່ອນ​ຫນ້າ​ທີ່​ສະ​ເພາະ​ໃດ​ຫນຶ່ງ​
ຜູ້ໃຊ້ອາດຈະມີກ່ຽວກັບໂດເມນ. ນີ້ຫມາຍຄວາມວ່າມັນມັກຈະມີມູນຄ່າຊອກຫາທາງເລືອກ
ການຈັດປະເພດເພື່ອເບິ່ງວ່າທ່ານສາມາດຕີຄວາມຫມາຍໃຫ້ພວກເຂົາໄດ້, ແຕ່ວ່າມັນເປັນມູນຄ່າເລີ່ມຕົ້ນຈາກຫຼາຍທີ່ສຸດ
ອາດຈະເປັນຄັ້ງທໍາອິດ. ໃຫ້ສັງເກດວ່າຖ້າຄ່າຄວາມເປັນໄປໄດ້ຂອງບັນທຶກແມ່ນຫຼາຍກ່ວານັ້ນສໍາລັບ
ກໍ​ລະ​ນີ​ຊັ້ນ​ຫນຶ່ງ​, ມັນ​ແມ່ນ​ເວົ້າ​ວ່າ​ມີ​ຫຼັກ​ຖານ overwhelming ສໍາ​ລັບ​ການ​ ບາງ ໂຄງ​ປະ​ກອບ​ການ​ໃນ​
ຂໍ້ມູນ, ແລະສ່ວນຫນຶ່ງຂອງໂຄງສ້າງນີ້ໄດ້ຖືກເກັບກໍາໂດຍ AutoClass ການຈັດປະເພດ.

ປະສົບການ ລາຍວຽກ
ດັ່ງນັ້ນ, ທ່ານໄດ້ເລືອກເອົາການຈັດປະເພດທີ່ທ່ານຕ້ອງການກວດສອບ, ໂດຍອີງໃສ່ຄວາມເປັນໄປໄດ້ຂອງບັນທຶກຂອງມັນ
ມູນຄ່າ; ເຈົ້າກວດເບິ່ງມັນແນວໃດ? ສິ່ງທໍາອິດທີ່ຕ້ອງເຮັດຄືການສ້າງບົດລາຍງານ "ອິດທິພົນ".
ກ່ຽວ​ກັບ​ການ​ຈັດ​ປະ​ເພດ​ໂດຍ​ນໍາ​ໃຊ້​ສະ​ຖານ​ທີ່​ການ​ຜະ​ລິດ​ບົດ​ລາຍ​ງານ​ທີ່​ບັນ​ທຶກ​ໄວ້​ໃນ​
/usr/share/doc/autoclass/reports-c.text. ບົດລາຍງານອິດທິພົນໄດ້ຖືກອອກແບບເພື່ອສະຫຼຸບ
ຂໍ້​ມູນ​ທີ່​ສໍາ​ຄັນ​ຝັງ​ຢູ່​ໃນ​ AutoClass ໂຄງສ້າງຂໍ້ມູນ.

ສ່ວນທໍາອິດຂອງບົດລາຍງານນີ້ໃຫ້ຫ້ອງຮຽນ heuristic "ຄວາມເຂັ້ມແຂງ". ຫ້ອງຮຽນ "ຄວາມເຂັ້ມແຂງ" ແມ່ນ
ໃນທີ່ນີ້ກໍານົດເປັນຄວາມເປັນໄປໄດ້ geometric ຫມາຍຄວາມວ່າ instance ໃດ "ຂຶ້ນກັບ" ຫ້ອງຮຽນ,
ຈະຖືກສ້າງມາຈາກຮູບແບບຄວາມເປັນໄປໄດ້ຂອງຊັ້ນຮຽນ. ດັ່ງນັ້ນຈຶ່ງສະຫນອງການ heuristic
ການວັດແທກວ່າແຕ່ລະຊັ້ນຄາດຄະເນ "ຂອງມັນ" ຕົວຢ່າງທີ່ເຂັ້ມແຂງແນວໃດ.

ສ່ວນທີສອງແມ່ນບັນຊີລາຍຊື່ຂອງ "ອິດທິພົນ" ໂດຍລວມຂອງແຕ່ລະຄຸນລັກສະນະທີ່ໃຊ້ໃນ
ການ​ຈັດ​ປະ​ເພດ​. ເຫຼົ່ານີ້ໃຫ້ມາດຕະການ heuristic rough ຂອງຄວາມສໍາຄັນພີ່ນ້ອງຂອງ
ແຕ່ລະຄຸນລັກສະນະໃນການຈັດປະເພດ. ຄຸນລັກສະນະ "ຄຸນຄ່າອິດທິພົນ" ແມ່ນປະເພດ
ຄວາມເປັນໄປໄດ້ຂອງນ້ໍາຫນັກສະເລ່ຍຂອງ "ອິດທິພົນ" ຂອງແຕ່ລະຄຸນລັກສະນະໃນຫ້ອງຮຽນ, ເປັນ
ອະທິບາຍຂ້າງລຸ່ມນີ້.

ສ່ວນຕໍ່ໄປຂອງບົດລາຍງານແມ່ນລາຍລະອຽດສະຫຼຸບຂອງແຕ່ລະຊັ້ນຮຽນ. ຫ້ອງຮຽນ
ແມ່ນຖືກນັບຕາມ arbitrarily ຈາກ 0 ເຖິງ n, ໃນຄໍາສັ່ງຂອງ descending class weight. ຫ້ອງຮຽນ
ນ້ ຳ ໜັກ ຂອງ ຄຳ ເວົ້າ 34.1 ໝາຍ ຄວາມວ່າຜົນລວມນ້ ຳ ໜັກ ຂອງຄວາມເປັນໄປໄດ້ຂອງສະມາຊິກ ສຳ ລັບຊັ້ນຮຽນແມ່ນ
34.1. ໃຫ້ສັງເກດວ່ານ້ໍາຫນັກຂອງ 34 ບໍ່ໄດ້ຫມາຍຄວາມວ່າ 34 ກໍລະນີເປັນຂອງ
ຊັ້ນຮຽນນັ້ນ, ເພາະວ່າຫຼາຍໆກໍລະນີອາດມີສະມາຊິກບາງສ່ວນໃນຊັ້ນຮຽນນັ້ນເທົ່ານັ້ນ. ພາຍໃນແຕ່ລະ
ຊັ້ນ, ຄຸນ​ລັກ​ສະ​ນະ​ຫຼື​ຊຸດ​ຄຸນ​ສົມ​ບັດ​ແມ່ນ​ຈັດ​ລໍາ​ດັບ​ໂດຍ "ອິດ​ທິ​ພົນ​" ຂອງ​ໄລ​ຍະ​ຕົວ​ແບບ​ຂອງ​ເຂົາ​ເຈົ້າ​.

CROSS ENTROPY
ມາດຕະການທີ່ໃຊ້ທົ່ວໄປຂອງຄວາມແຕກຕ່າງລະຫວ່າງການແຈກຢາຍຄວາມເປັນໄປໄດ້ສອງຢ່າງແມ່ນ
cross entropy: ຜົນລວມຂອງຄ່າທີ່ເປັນໄປໄດ້ທັງໝົດ x, ຂອງ P(x|c...)*log[P(x|c...)/P(x|g...)],
ບ່ອນທີ່ c ... ແລະ g ... ກໍານົດການແຈກຢາຍ. ມັນມີຂອບເຂດຈາກສູນ, ສໍາລັບຄືກັນ
ການແຈກຢາຍ, ຈົນເຖິງອັນເປັນນິດສຳລັບການແຈກຢາຍທີ່ວາງຄວາມເປັນໄປໄດ້ 1 ກ່ຽວກັບຄ່າທີ່ແຕກຕ່າງຂອງ
ຄຸນ​ລັກ​ສະ​ນະ. ດ້ວຍເງື່ອນໄຂທີ່ເປັນເອກະລາດຕາມເງື່ອນໄຂໃນການແຈກຢາຍຄວາມເປັນໄປໄດ້,
ຂ້າມ entropy ສາມາດຖືກປັດໄຈເປັນຜົນລວມໃນໄລຍະຂໍ້ກໍານົດເຫຼົ່ານີ້. ປັດໃຈເຫຼົ່ານີ້ສະຫນອງມາດຕະການ
ອິດທິພົນຂອງຄຸນລັກສະນະແບບຈໍາລອງທີ່ສອດຄ້ອງກັນໃນການແຍກຄວາມແຕກຕ່າງທັງສອງ
ການແຈກຈ່າຍ.

ພວກເຮົາກໍານົດ "ອິດທິພົນ" ຂອງຄໍາສັບແບບຈໍາລອງໃນຊັ້ນຮຽນເພື່ອເປັນຄໍາສັບຂ້າມ entropy ສໍາລັບ
ການແຈກຢາຍຊັ້ນຮຽນ wrt ການແຈກຢາຍລະດັບໂລກຂອງຊັ້ນດຽວ
ການຈັດປະເພດ. ດັ່ງນັ້ນ, "ອິດທິພົນ" ແມ່ນຕົວຊີ້ບອກເຖິງວິທີທີ່ຕົວແບບຈໍາລອງຊ່ວຍໄດ້
ແຍກຊັ້ນຮຽນຈາກຊຸດຂໍ້ມູນທັງໝົດ. ໂດຍ​ມີ​ຄຸນ​ສົມ​ບັດ​ແບບ​ຈໍາ​ລອງ​ເປັນ​ເອ​ກະ​ລາດ​,
ອິດທິພົນສາມາດຖືກ ກຳ ນົດຢ່າງຖືກຕ້ອງກັບຄຸນລັກສະນະຂອງມັນເອງ. ກັບ correlated ຫຼື
covariant attributes ກໍານົດ, ປັດໄຈ entropy ຂ້າມແມ່ນຫນ້າທີ່ຂອງຊຸດທັງຫມົດ, ແລະ
ພວກ​ເຮົາ​ແຈກ​ຢາຍ​ຄຸນ​ຄ່າ​ອິດ​ທິ​ພົນ​ເທົ່າ​ທຽມ​ກັນ​ກັບ​ຄຸນ​ລັກ​ສະ​ນະ​ແບບ​ຈໍາ​ລອງ.

ຄຸນສົມບັດ ປະສົບການ VALUES
ໃນບົດລາຍງານ "ອິດທິພົນ" ໃນແຕ່ລະຫ້ອງຮຽນ, ຕົວກໍານົດການຄຸນລັກສະນະສໍາລັບຫ້ອງຮຽນນັ້ນແມ່ນໄດ້ມອບໃຫ້
ຕາມລໍາດັບຂອງມູນຄ່າອິດທິພົນທີ່ສູງທີ່ສຸດສໍາລັບຊຸດຄຸນລັກສະນະໄລຍະຕົວແບບ. ພຽງແຕ່ຈໍານວນຫນ້ອຍທໍາອິດ
ຊຸດຄຸນລັກສະນະມັກຈະມີມູນຄ່າອິດທິພົນທີ່ສໍາຄັນ. ຖ້າມູນຄ່າອິດທິພົນຫຼຸດລົງ
ຕ່ໍາກວ່າປະມານ 20% ຂອງມູນຄ່າສູງສຸດ, ຫຼັງຈາກນັ້ນມັນອາດຈະບໍ່ສໍາຄັນ, ແຕ່ທັງຫມົດ
ຊຸດຄຸນສົມບັດຖືກລະບຸໄວ້ເພື່ອຄວາມສົມບູນ. ນອກເຫນືອໄປຈາກມູນຄ່າອິດທິພົນຕໍ່ແຕ່ລະຄົນ
attribute set, ຄ່າຂອງ attribute set parameters ໃນ class ນັ້ນແມ່ນໃຫ້ຕາມ
ກັບຄ່າ "ທົ່ວໂລກ" ທີ່ສອດຄ້ອງກັນ. ຄ່າທົ່ວໂລກແມ່ນຄິດໄລ່ໂດຍກົງຈາກ
ຂໍ້ມູນເປັນເອກະລາດຂອງການຈັດປະເພດ. ຕົວຢ່າງ, ຖ້າ class mean of attribute
"ອຸນຫະພູມ" ແມ່ນ 90 ທີ່ມີມາດຕະຖານ deviation ຂອງ 2.5, ແຕ່ສະເລ່ຍຂອງໂລກແມ່ນ 68 ກັບ a.
ມາດຕະຖານ deviation ຂອງ 16.3, ຫຼັງຈາກນັ້ນຫ້ອງຮຽນນີ້ໄດ້ເລືອກເອົາກໍລະນີທີ່ມີຫຼາຍກ່ວາຫຼາຍກ່ວາ
ອຸນ​ຫະ​ພູມ​ສະ​ເລ່ຍ​, ແລະ​ການ​ແຜ່​ກະ​ຈາຍ​ເລັກ​ນ້ອຍ​ໃນ​ລະ​ດັບ​ສູງ​ນີ້​. ເຊັ່ນດຽວກັນ, ສໍາລັບ
ຊຸດຄຸນລັກສະນະທີ່ແຍກກັນ, ຄວາມເປັນໄປໄດ້ຂອງແຕ່ລະຜົນໄດ້ຮັບໃນຊັ້ນຮຽນແມ່ນໃຫ້, ພ້ອມ
ກັບຄວາມເປັນໄປໄດ້ທົ່ວໂລກທີ່ສອດຄ້ອງກັນ - ຈັດລໍາດັບໂດຍຄວາມສໍາຄັນຂອງມັນ: ຢ່າງແທ້ຈິງ
ຄ່າຂອງ (ບັນທຶກ { / }). ສັນຍາລັກຂອງຄວາມສໍາຄັນ
ມູນຄ່າສະແດງໃຫ້ເຫັນທິດທາງຂອງການປ່ຽນແປງຈາກລະດັບໂລກ. ຂໍ້ມູນນີ້ເຮັດໃຫ້ເປັນ
ພາບລວມຂອງແຕ່ລະຫ້ອງຮຽນແຕກຕ່າງຈາກຄ່າສະເລ່ຍສໍາລັບຂໍ້ມູນທັງຫມົດ, ຕາມລໍາດັບຫຼາຍທີ່ສຸດ
ຄວາມແຕກຕ່າງທີ່ ສຳ ຄັນ.

CLASS ແລະ ກໍລະນີ ບົດລາຍງານ
ໂດຍໄດ້ຮັບຄໍາອະທິບາຍກ່ຽວກັບຊັ້ນຮຽນຈາກບົດລາຍງານ "ອິດທິພົນ", ທ່ານອາດຈະຕ້ອງການ
ການ​ຕິດ​ຕາມ​ເພື່ອ​ເບິ່ງ​ວ່າ​ຫ້ອງ​ຮຽນ​ທີ່​ກໍ​ລະ​ນີ favorite ຂອງ​ທ່ານ​ໄດ້​ສິ້ນ​ສຸດ​ລົງ​ໃນ. ກົງ​ກັນ​ຂ້າມ​, ທ່ານ​ອາດ​ຈະ​ຕ້ອງ​ການ​
ເພື່ອເບິ່ງວ່າກໍລະນີໃດຂຶ້ນກັບຫ້ອງຮຽນສະເພາະ. ສໍາລັບປະເພດຂອງການອ້າງອີງຂ້າມນີ້
ຂໍ້​ມູນ​ສອງ​ບົດ​ລາຍ​ງານ​ທີ່​ສົມ​ບູນ​ແບບ​ສາ​ມາດ​ຖືກ​ສ້າງ​ຂຶ້ນ​. ສິ່ງເຫຼົ່ານີ້ແມ່ນມີເອກະສານຄົບຖ້ວນກວ່າ
in /usr/share/doc/autoclass/reports-c.text. ບົດລາຍງານ "ຊັ້ນ", ລາຍຊື່ກໍລະນີທັງຫມົດ
ມີສະມາຊິກທີ່ສໍາຄັນໃນແຕ່ລະຊັ້ນຮຽນແລະລະດັບທີ່ແຕ່ລະກໍລະນີດັ່ງກ່າວເປັນ
ກັບຫ້ອງຮຽນນັ້ນ. ກໍລະນີທີ່ສະມາຊິກຊັ້ນຮຽນມີໜ້ອຍກວ່າ 90% ໃນຊັ້ນຮຽນປະຈຸບັນມີ
ສະມາຊິກໃນຊັ້ນຮຽນອື່ນໆຂອງເຂົາເຈົ້າມີລາຍຊື່ເຊັ່ນກັນ. ກໍລະນີພາຍໃນຫ້ອງຮຽນແມ່ນສັ່ງຢູ່ໃນ
ຈໍານວນກໍລະນີເພີ່ມຂຶ້ນ. ບົດລາຍງານ "ກໍລະນີ" ທາງເລືອກລະບຸວ່າຊັ້ນ (ຫຼືຊັ້ນຮຽນ) ກ
ກໍລະນີເປັນຂອງ, ແລະຄວາມເປັນໄປໄດ້ຂອງສະມາຊິກໃນຊັ້ນຮຽນທີ່ເປັນໄປໄດ້ຫຼາຍທີ່ສຸດ. ສອງນີ້
ບົດລາຍງານອະນຸຍາດໃຫ້ທ່ານຊອກຫາກໍລະນີໃດເປັນຂອງຫ້ອງຮຽນຫຼືວິທີການອື່ນໆປະມານ. ຖ້າ
ເກືອບທຸກໆກໍລະນີມີສະມາຊິກເກືອບ 99% ໃນຫ້ອງຮຽນດຽວ, ມັນຫມາຍຄວາມວ່າ
ຫ້ອງຮຽນຖືກແຍກອອກໄດ້ດີ, ໃນຂະນະທີ່ລະດັບສູງຂອງສະມາຊິກຂ້າມແມ່ນຊີ້ໃຫ້ເຫັນວ່າ
ຫ້ອງຮຽນຖືກທັບຊ້ອນກັນຫຼາຍ. ຊັ້ນຮຽນທີ່ທັບຊ້ອນກັນສູງເປັນຕົວຊີ້ບອກເຖິງຄວາມຄິດ
ການ​ຈັດ​ປະ​ເພດ​ແມ່ນ​ແຕກ​ຫັກ​ແລະ​ກຸ່ມ​ຂອງ​ຫ້ອງ​ຮຽນ​ທີ່​ທັບ​ຊ້ອນ​ກັນ​ສູງ​,
ປະເພດຂອງຊັ້ນ meta, ແມ່ນອາດຈະເປັນວິທີທີ່ດີກວ່າທີ່ຈະເຂົ້າໃຈຂໍ້ມູນ.

ການປຽບທຽບ CLASS ນໍ້າ ໜັກ ແລະ ຫ້ອງຮຽນ/ກໍລະນີ ລາຍວຽກ ວຽກງານ
ນ້ ຳ ໜັກ ຂອງຊັ້ນຮຽນທີ່ໃຫ້ເປັນພາລາມິເຕີຄວາມເປັນໄປໄດ້ຂອງຊັ້ນຮຽນ, ໂດຍທົ່ວໄປແລ້ວແມ່ນຜົນລວມຂອງທັງໝົດ
ຂໍ້ມູນຕົວຢ່າງ, ຂອງຄວາມເປັນໄປໄດ້ປົກກະຕິທີ່ instance ເປັນສະມາຊິກຂອງຫ້ອງຮຽນ.
ມັນອາດຈະເປັນຂໍ້ຜິດພາດໃນສ່ວນຂອງພວກເຮົາທີ່ພວກເຮົາຈັດຮູບແບບຕົວເລກນີ້ເປັນຈໍານວນເຕັມໃນ
ບົດລາຍງານ, ແທນທີ່ຈະເນັ້ນຫນັກໃສ່ລັກສະນະທີ່ແທ້ຈິງຂອງມັນ. ເຈົ້າຈະພົບເຫັນມູນຄ່າທີ່ແທ້ຈິງ
ບັນທຶກເປັນພາລາມິເຕີ w_j ໃນໂຄງສ້າງ class_DS ໃນໄຟລ໌ .results[-bin] ໃດໆກໍຕາມ.

ບົດລາຍງານ .case ແລະ .class ໃຫ້ຄວາມເປັນໄປໄດ້ວ່າກໍລະນີແມ່ນສະມາຊິກຂອງຫ້ອງຮຽນ. ໃດ
ການມອບຫມາຍກໍລະນີໃຫ້ຫ້ອງຮຽນຮຽກຮ້ອງໃຫ້ມີກົດລະບຽບການຕັດສິນໃຈບາງຢ່າງ. ຄວາມເປັນໄປໄດ້ສູງສຸດ
ກົດລະບຽບການມອບຫມາຍມັກຈະຖືກສົມມຸດຕິຖານໂດຍ implicitly, ແຕ່ມັນບໍ່ສາມາດຄາດຫວັງວ່າຜົນໄດ້ຮັບ
ຂະ​ຫນາດ​ການ​ແບ່ງ​ປັນ​ຈະ​ເທົ່າ​ກັບ​ນ​້​ໍ​າ​ຫ້ອງ​ເວັ້ນ​ເສຍ​ແຕ່​ເກືອບ​ທັງ​ຫມົດ​ສະ​ມາ​ຊິກ​ໃນ​ຫ້ອງ​ຮຽນ​
ຄວາມເປັນໄປໄດ້ແມ່ນຢ່າງມີປະສິດທິພາບໜຶ່ງ ຫຼືສູນ. ດ້ວຍຄວາມເປັນໄປໄດ້ທີ່ບໍ່ແມ່ນສະມາຊິກ 1/0,
ການຈັບຄູ່ນ້ໍາຫນັກຂອງຫ້ອງຮຽນຮຽກຮ້ອງໃຫ້ມີການສະຫຼຸບຄວາມເປັນໄປໄດ້.

ນອກຈາກນັ້ນ, ຍັງມີຄໍາຖາມກ່ຽວກັບຄວາມສົມບູນຂອງ EM (ຄວາມຄາດຫວັງສູງສຸດ)
ການໂຮມ. EM ສະລັບກັນລະຫວ່າງການປະເມີນຄ່າພາລາມິເຕີຂອງຊັ້ນຮຽນ ແລະການປະເມີນຊັ້ນຮຽນ
ຄວາມເປັນໄປໄດ້ຂອງສະມາຊິກ. ການ​ຄາດ​ຄະ​ເນ​ເຫຼົ່າ​ນີ້​ມາ​ຮ່ວມ​ກັນ, ແຕ່​ບໍ່​ເຄີຍ​ໃນ​ຕົວ​ຈິງ
ຕອບສະຫນອງ. AutoClass ປະ​ຕິ​ບັດ​ວິ​ທີ​ການ convergence ຫຼາຍ​ຢ່າງ​ທີ່​ມີ​ການ​ຢຸດ​ສະ​ຫຼັບ​
ເງື່ອນໄຂທີ່ໃຊ້ພາລາມິເຕີທີ່ເຫມາະສົມໃນໄຟລ໌ .s-params. ການ​ຕັ້ງ​ຄ່າ​ທີ່​ເຫມາະ​ສົມ​ຂອງ​ເຫຼົ່າ​ນີ້​
ຕົວກໍານົດການ, ເພື່ອໃຫ້ໄດ້ຮັບ convergence ສົມເຫດສົມຜົນສົມບູນແລະປະສິດທິພາບອາດຈະຮຽກຮ້ອງໃຫ້ມີ
ການທົດລອງ.

ALTERNATIVE ການຈັດປະເພດ
ສະຫລຸບລວມແລ້ວ, ບົດລາຍງານຕ່າງໆທີ່ສາມາດສ້າງໄດ້ໃຫ້ທ່ານມີວິທີການເບິ່ງ
ການ​ຈັດ​ປະ​ເພດ​ໃນ​ປະ​ຈຸ​ບັນ​. ປົກກະຕິແລ້ວມັນເປັນຄວາມຄິດທີ່ດີທີ່ຈະເບິ່ງການຈັດປະເພດທາງເລືອກ
ເຖິງແມ່ນວ່າພວກມັນບໍ່ມີຄ່າຄວາມເປັນໄປໄດ້ຂອງບັນທຶກຕໍາ່ສຸດທີ່. ອື່ນໆເຫຼົ່ານີ້
ການຈັດປະເພດປົກກະຕິແລ້ວມີຫ້ອງຮຽນທີ່ສອດຄ້ອງກັນຢ່າງໃກ້ຊິດກັບຫ້ອງຮຽນທີ່ເຂັ້ມແຂງໃນອື່ນໆ
ການຈັດປະເພດ, ແຕ່ສາມາດແຕກຕ່າງກັນໃນຫ້ອງຮຽນອ່ອນແອ. "ຄວາມເຂັ້ມແຂງ" ຂອງຫ້ອງຮຽນພາຍໃນ a
ໂດຍທົ່ວໄປແລ້ວການຈັດປະເພດສາມາດຖືກຕັດສິນໂດຍວິທີການຢ່າງຫຼວງຫຼາຍຂອງມູນຄ່າອິດທິພົນສູງສຸດ
ຄຸນລັກສະນະໃນຊັ້ນຮຽນແຕກຕ່າງຈາກຄຸນລັກສະນະທົ່ວໂລກທີ່ສອດຄ້ອງກັນ. ຖ້າບໍ່ມີ
ການຈັດປະເພດເບິ່ງຄືວ່າເປັນທີ່ພໍໃຈ, ມັນເປັນໄປໄດ້ສະເຫມີທີ່ຈະດໍາເນີນການ AutoClass ອີກເທື່ອຫນຶ່ງເພື່ອ
ສ້າງການຈັດປະເພດໃຫມ່.

ແມ່ນ​ຫຍັງ ຕໍ່ໄປ?
ສຸດທ້າຍ, ຄໍາຖາມຂອງສິ່ງທີ່ຕ້ອງເຮັດຫຼັງຈາກທີ່ທ່ານໄດ້ພົບເຫັນການຈັດປະເພດຄວາມເຂົ້າໃຈ
ເກີດຂື້ນ. ໂດຍປົກກະຕິແລ້ວ, ການຈັດປະເພດແມ່ນຂັ້ນຕອນການວິເຄາະຂໍ້ມູນເບື້ອງຕົ້ນສໍາລັບການກວດສອບຊຸດ
ຂອງກໍລະນີ (ສິ່ງຕ່າງໆ, ຕົວຢ່າງ, ແລະອື່ນໆ) ເພື່ອເບິ່ງວ່າພວກເຂົາສາມາດຖືກຈັດກຸ່ມເພື່ອໃຫ້ສະມາຊິກຂອງ
ກຸ່ມແມ່ນ "ຄ້າຍຄືກັນ" ກັບກັນແລະກັນ. AutoClass ໃຫ້ການຈັດກຸ່ມດັ່ງກ່າວໂດຍບໍ່ມີຜູ້ໃຊ້
ຕ້ອງໄດ້ກໍານົດມາດຕະການທີ່ຄ້າຍຄືກັນ. ການກໍ່ສ້າງໃນ "ຄວາມຄ້າຍຄືກັນ" ແມ່ນການວັດແທກເຊິ່ງກັນແລະກັນ
ການ​ຄາດ​ຄະ​ເນ​ຂອງ​ກໍ​ລະ​ນີ​. ຂັ້ນຕອນຕໍ່ໄປແມ່ນພະຍາຍາມ "ອະທິບາຍ" ວ່າເປັນຫຍັງວັດຖຸບາງອັນ
ຄືກັບຄົນອື່ນໆຫຼາຍກວ່າຜູ້ທີ່ຢູ່ໃນກຸ່ມທີ່ແຕກຕ່າງກັນ. ປົກກະຕິແລ້ວ, ຄວາມຮູ້ໂດເມນຊີ້ໃຫ້ເຫັນເຖິງ
ຄໍາຕອບ. ສໍາລັບຕົວຢ່າງ, ການຈັດປະເພດຂອງປະຊາຊົນໂດຍອີງໃສ່ລາຍຮັບ, ນິໄສການຊື້, ສະຖານທີ່,
ອາຍຸ, ແລະອື່ນໆ, ອາດຈະເປີດເຜີຍໃຫ້ເຫັນຫ້ອງຮຽນທາງສັງຄົມໂດຍສະເພາະທີ່ບໍ່ຊັດເຈນກ່ອນ
ການວິເຄາະການຈັດປະເພດ. ເພື່ອໃຫ້ໄດ້ຮັບຂໍ້ມູນເພີ່ມເຕີມກ່ຽວກັບຫ້ອງຮຽນດັ່ງກ່າວ, ເພີ່ມເຕີມ
ຂໍ້​ມູນ​ຂ່າວ​ສານ​, ເຊັ່ນ​: ຈໍາ​ນວນ​ຂອງ​ລົດ​, ສິ່ງ​ທີ່​ໂທລະ​ພາບ​ໄດ້​ຮັບ​ການ​ເບິ່ງ​, ແລະ​ອື່ນໆ​, ຈະ​ເປີດ​ເຜີຍ​ເຖິງ​ແມ່ນ​ວ່າ​
ຂໍ້ມູນເພີ່ມເຕີມ. ການສຶກສາຕາມລວງຍາວຈະໃຫ້ຂໍ້ມູນກ່ຽວກັບຫ້ອງຮຽນສັງຄົມແນວໃດ
ເກີດ​ຂຶ້ນ​ແລະ​ສິ່ງ​ທີ່​ມີ​ອິດ​ທິ​ພົນ​ຕໍ່​ທັດ​ສະ​ນະ​ຄະ​ຂອງ​ເຂົາ​ເຈົ້າ - ທັງ​ຫມົດ​ແມ່ນ​ວິ​ທີ​ການ​ນອກ​ເຫນືອ​ໄປ​ຈາກ​ເບື້ອງ​ຕົ້ນ
ການຈັດປະເພດ.

ການຄາດຄະເນ


ການຈັດປະເພດສາມາດຖືກໃຊ້ເພື່ອຄາດຄະເນການເປັນສະມາຊິກຊັ້ນຮຽນສໍາລັບກໍລະນີໃຫມ່. ດັ່ງ​ນັ້ນ​ນອກ​ຈາກ​ນັ້ນ​
ອາດຈະໃຫ້ທ່ານມີຄວາມເຂົ້າໃຈບາງຢ່າງກ່ຽວກັບໂຄງສ້າງທີ່ຢູ່ເບື້ອງຫລັງຂໍ້ມູນຂອງທ່ານ, ຕອນນີ້ທ່ານສາມາດນໍາໃຊ້ໄດ້
AutoClass ໂດຍກົງເພື່ອເຮັດໃຫ້ການຄາດຄະເນ, ແລະປຽບທຽບ AutoClass ກັບລະບົບການຮຽນຮູ້ອື່ນໆ.

ເຕັກນິກນີ້ສໍາລັບການຄາດຄະເນຄວາມເປັນໄປໄດ້ຂອງຫ້ອງຮຽນແມ່ນໃຊ້ໄດ້ກັບຄຸນລັກສະນະທັງຫມົດ,
ໂດຍບໍ່ຄໍານຶງເຖິງປະເພດຂອງຂໍ້ມູນ / sub_type ຫຼືປະເພດເງື່ອນໄຂຂອງຮູບແບບຄວາມເປັນໄປໄດ້.

ໃນກໍລະນີທີ່ສະມາຊິກໃນຊັ້ນຮຽນຂອງກໍລະນີຂໍ້ມູນບໍ່ເກີນ 0.0099999 ສໍາລັບອັນໃດນຶ່ງ.
ຫ້ອງຮຽນ "ການຝຶກອົບຮົມ", ຂໍ້ຄວາມຕໍ່ໄປນີ້ຈະປາກົດຢູ່ໃນຜົນຜະລິດຫນ້າຈໍສໍາລັບແຕ່ລະຄົນ
ກໍລະນີ:

xref_get_data: case_num xxx => class 9999

ສະມາຊິກຫ້ອງຮຽນ 9999 ຈະປາກົດຢູ່ໃນ "ກໍລະນີ" ແລະ "ຊັ້ນ" ບົດລາຍງານການອ້າງອິງຂ້າມກັບ a
ສະມາຊິກຊັ້ນຮຽນຂອງ 1.0.

ຈຸດລະວັງ:

ວິທີການປົກກະຕິຂອງການນໍາໃຊ້ AutoClass ແມ່ນເພື່ອເອົາຂໍ້ມູນຂອງທ່ານທັງຫມົດໄວ້ໃນ data_file, ອະທິບາຍວ່າ
ຂໍ້ມູນທີ່ມີຮູບແບບແລະໄຟລ໌ header, ແລະດໍາເນີນການ "autoclass -search". ໃນປັດຈຸບັນ, ແທນທີ່ຈະເປັນຫນຶ່ງ
data_file ທ່ານ​ຈະ​ມີ​ສອງ​, training_data_file ແລະ test_data_file​.

ມັນເປັນສິ່ງສໍາຄັນທີ່ສຸດທີ່ຖານຂໍ້ມູນທັງສອງມີຄືກັນ AutoClass ຕົວ​ແທນ​ພາຍ​ໃນ​.
ນີ້ບໍ່ຄວນເປັນຄວາມຈິງ, AutoClass ຈະອອກ, ຫຼືອາດຈະຢູ່ໃນບາງສະຖານະການ, crash.
ຮູບແບບການຄາດຄະເນໄດ້ຖືກອອກແບບເພື່ອຫວັງວ່າຈະຊີ້ນໍາຜູ້ໃຊ້ໃຫ້ສອດຄ່ອງກັບສິ່ງນີ້
ຮຽກ​ຮ້ອງ​ຕ້ອງ​ການ​.

ການກຽມ:

ການຄາດເດົາຮຽກຮ້ອງໃຫ້ມີການຈັດປະເພດການຝຶກອົບຮົມແລະຖານຂໍ້ມູນການທົດສອບ. ການຝຶກອົບຮົມ
ການຈັດປະເພດແມ່ນສ້າງຂຶ້ນໂດຍການແລ່ນ "autoclass -search" ໃນການຝຶກອົບຮົມ
data_file ("data/soybean/soyc.db2"), ຕົວຢ່າງ:

autoclass -search data/soybean/soyc.db2 data/soybean/soyc.hd2
data/soybean/soyc.model data/soybean/soyc.s-params

ນີ້ຈະຜະລິດ "soyc.results-bin" ແລະ "soyc.search". ຫຼັງຈາກນັ້ນ, ສ້າງພາລາມິເຕີ "ບົດລາຍງານ".
ໄຟລ໌ເຊັ່ນ "soyc.r-params" (ເບິ່ງ /usr/share/doc/autoclass/reports-c.text), ແລະແລ່ນ
AutoClass ໃນຮູບແບບ "ບົດລາຍງານ", ເຊັ່ນ:

autoclass -reports data/soybean/soyc.results-bin
data/soybean/soyc.search data/soybean/soyc.r-params

ນີ້ຈະສ້າງໄຟລ໌ອ້າງອີງຂ້າມຊັ້ນຮຽນ ແລະກໍລະນີ, ແລະໄຟລ໌ຄຸນຄ່າທີ່ມີອິດທິພົນ.
ຊື່ໄຟລ໌ແມ່ນອີງໃສ່ຊື່ໄຟລ໌ ".r-params":

data/soybean/soyc.class-text-1
data/soybean/soyc.case-text-1
data/soybean/soyc.influ-text-1

ສິ່ງເຫຼົ່ານີ້ຈະອະທິບາຍເຖິງຊັ້ນຮຽນທີ່ພົບເຫັນຢູ່ໃນໄຟລ໌ training_data_file. ໃນປັດຈຸບັນການຈັດປະເພດນີ້
ສາມາດໃຊ້ເພື່ອຄາດຄະເນການເປັນສະມາຊິກຊັ້ນຮຽນທີ່ເປັນໄປໄດ້ຂອງ test_data_file case
("data/soybean/soyc-predict.db2") ໃນຫ້ອງຮຽນ training_data_file.

autoclass -predict data/soybean/soyc-predict.db2
data/soybean/soyc.results-bin data/soybean/soyc.search
data/soybean/soyc.r-params

ນີ້ຈະສ້າງໄຟລ໌ອ້າງອີງຂ້າມຊັ້ນຮຽນ ແລະກໍລະນີສໍາລັບກໍລະນີ test_data_file
ຄາດຄະເນການເປັນສະມາຊິກຊັ້ນຮຽນທີ່ເປັນໄປໄດ້ຂອງເຂົາເຈົ້າໃນຫ້ອງຮຽນ training_data_file. ໄດ້
ຊື່ໄຟລ໌ແມ່ນອີງໃສ່ຊື່ໄຟລ໌ ".db2":

data/soybean/soyc-predict.class-text-1
data/soybean/soyc-predict.case-text-1

ໃຊ້ autoclass ອອນໄລນ໌ໂດຍໃຊ້ບໍລິການ onworks.net


ເຊີບເວີ ແລະສະຖານີເຮັດວຽກຟຣີ

ດາວໂຫຼດແອັບ Windows ແລະ Linux

  • 1
    VBA-M (ເກັບໄວ້ - ຕອນນີ້ຢູ່ໃນ Github)
    VBA-M (ເກັບໄວ້ - ຕອນນີ້ຢູ່ໃນ Github)
    ໂຄງການໄດ້ຍ້າຍໄປ
    https://github.com/visualboyadvance-m/visualboyadvance-m
    ຄຸນ​ລັກ​ສະ​ນະ: Cheat creationsave statesmulti
    ລະບົບ, ສະຫນັບສະຫນູນ gba, gbc, gb, sgb,
    sgb2Tu...
    ດາວໂຫລດ VBA-M (ເກັບໄວ້ - ຕອນນີ້ຢູ່ໃນ Github)
  • 2
    Stacer
    Stacer
    Linux System Optimizer ແລະການຕິດຕາມ
    Github Repository:
    https://github.com/oguzhaninan/Stacer.
    ຜູ້ຊົມ: ຜູ້ໃຊ້ສຸດທ້າຍ/ເດັສທັອບ. ຜູ້ໃຊ້
    ການໂຕ້ຕອບ: Qt. ການຂຽນໂປລແກລມ La...
    ດາວໂຫລດ Stacer
  • 3
    ໝາກກ້ຽງ
    ໝາກກ້ຽງ
    Fork ຂອງ TeamWinRecoveryProject(TWRP)
    ມີຫນ້າທີ່ເພີ່ມເຕີມຈໍານວນຫຼາຍ, ການອອກແບບໃຫມ່
    ແລະຄຸນສົມບັດເພີ່ມເຕີມ: ຮອງຮັບ Treble ແລະ
    ROMs ທີ່ບໍ່ແມ່ນ Treble ໃໝ່ຫຼ້າສຸດ Oreo kernel,
    ສ້າງ...
    ດາວໂຫລດ OrangeFox
  • 4
    itop - ITSM CMDB OpenSource
    itop - ITSM CMDB OpenSource
    ປະ​ຕູ​ປະ​ຕິ​ບັດ​ການ IT​: ເປັນ​ການ​ເປີດ​ຄົບ​ຖ້ວນ​ສົມ​ບູນ​
    ແຫຼ່ງ, ITIL, ການບໍລິການທີ່ອີງໃສ່ເວັບ
    ເຄື່ອງ​ມື​ການ​ຄຸ້ມ​ຄອງ​ລວມ​ທັງ​ຫມົດ​
    CMDB ທີ່ສາມາດປັບແຕ່ງໄດ້, ລະບົບ helpdesk ແລະ
    ຜູ້​ຊາຍ​ເອ​ກະ​ສານ ...
    ດາວໂຫລດເທິງ - ITSM CMDB OpenSource
  • 5
    Clementine
    Clementine
    Clementine ເປັນດົນຕີຫຼາຍເວທີ
    ຜູ້ນແລະຜູ້ຈັດຫ້ອງສະຫມຸດໄດ້ຮັບການດົນໃຈໂດຍ
    Amarok 1.4. ມັນ​ມີ​ໄວ​ແລະ​
    ການ​ໂຕ້​ຕອບ​ງ່າຍ​ທີ່​ຈະ​ນໍາ​ໃຊ້​, ແລະ​ອະ​ນຸ​ຍາດ​ໃຫ້​ທ່ານ​
    ຄົ້ນຫາແລະ ...
    ດາວໂຫລດ Clementine
  • 6
    XISMus
    XISMus
    ເອົາ​ໃຈ​ໃສ່​: ການ​ປັບ​ປຸງ​ສະ​ສົມ 2.4.3 ມີ​
    ປ່ອຍອອກມາ!! ການປັບປຸງເຮັດວຽກສໍາລັບການໃດໆ
    ຮຸ່ນ 2.xx ທີ່ຜ່ານມາ. ຖ້າການຍົກລະດັບ
    ຈາກເວີຊັນ v1.xx, ກະລຸນາດາວໂຫຼດ ແລະ
    ຂ້າພະເຈົ້າ ...
    ດາວໂຫລດ XISMuS
  • ເພີ່ມເຕີມ »

Linux ຄຳ ສັ່ງ

Ad