GoGPT Best VPN GoSearch

فاویکون OnWorks

autoclass - آنلاین در ابر

اتوکلاس را در ارائه دهنده هاست رایگان OnWorks از طریق Ubuntu Online، Fedora Online، شبیه ساز آنلاین ویندوز یا شبیه ساز آنلاین MAC OS اجرا کنید.

این دستور کلاس خودکار است که می تواند در ارائه دهنده میزبانی رایگان OnWorks با استفاده از یکی از چندین ایستگاه کاری آنلاین رایگان ما مانند Ubuntu Online، Fedora Online، شبیه ساز آنلاین ویندوز یا شبیه ساز آنلاین MAC OS اجرا شود.

برنامه:

نام


autoclass - به طور خودکار کلاس ها را در داده ها کشف می کند

خلاصه


اتوکلاس -جستجو کردن فایل اطلاعات header_file model_file s_param_file
اتوکلاس -گزارش نتایج_فایل search_file r_params_file
اتوکلاس -پیش بینی نتایج_فایل search_file نتایج_فایل

شرح


اتوکلاس مشکل کشف خودکار کلاس ها در داده ها را حل می کند (گاهی اوقات نامیده می شود
خوشه بندی، یا یادگیری بدون نظارت)، به طور متمایز از نسل کلاس
توضیحات از نمونه های برچسب گذاری شده (به نام یادگیری نظارت شده). هدف آن کشف
کلاس های "طبیعی" در داده ها. اتوکلاس برای مشاهدات چیزهایی که می توانند قابل استفاده است
با مجموعه ای از ویژگی ها، بدون اشاره به چیزهای دیگر توصیف شود. مقادیر داده ها
مربوط به هر صفت محدود به اعداد یا عناصر a هستند
مجموعه ثابتی از نمادها با داده های عددی، یک خطای اندازه گیری باید ارائه شود.

اتوکلاس به دنبال بهترین طبقه بندی (های) داده هایی است که می تواند پیدا کند. آ
طبقه بندی از موارد زیر تشکیل شده است:

1) مجموعه ای از کلاس ها که هر کدام با مجموعه ای از پارامترهای کلاس توصیف می شوند که
نحوه توزیع کلاس در طول صفات مختلف را مشخص کنید. مثلا،
"ارتفاع معمولاً با میانگین 4.67 فوت و انحراف استاندارد 32 فوت توزیع می شود."

2) مجموعه‌ای از وزن‌های کلاس، که توضیح می‌دهد چند درصد موارد احتمالاً در آن قرار دارند
هر کلاس

3) تخصیص احتمالی موارد موجود در داده ها به این کلاس ها. یعنی برای هر کدام
در مورد، احتمال نسبی که عضوی از هر کلاس است.

به عنوان یک سیستم کاملاً بیزی (هیچ جایگزینی را قبول نکنید!)، معیار کیفیت است اتوکلاس استفاده
احتمال کل این است که اگر چیزی در مورد داده های خود یا دامنه آن نمی دانستید، شما
این مجموعه داده های تولید شده توسط این مدل اساسی را پیدا می کرد. این شامل
احتمال قبلی که «جهان» این تعداد کلاس، این مجموعه را انتخاب کرده باشد
وزن های نسبی کلاس، و این مجموعه پارامترها برای هر کلاس، و احتمال آن
چنین مجموعه ای از کلاس ها این مجموعه مقادیر را برای ویژگی های موجود در آن ایجاد می کند
موارد داده

این احتمالات معمولاً بسیار کوچک هستند، در محدوده e^-30000، و معمولاً
با نماد نمایی بیان می شود.

هنگام اجرا با -جستجو کردن فرمان ، اتوکلاس جستجو برای طبقه بندی مورد نیاز
آرگومان ها مسیرهای چهار فایل ورودی هستند که داده ها را تامین می کنند، فرمت داده،
مدل طبقه بندی مورد نظر، و پارامترهای جستجو، به ترتیب.

به طور پیش فرض، اتوکلاس نتایج میانی را در یک فایل باینری می نویسد. با -گزارش
فرمان ، اتوکلاس یک گزارش ASCII تولید می کند. آرگومان ها نام کامل مسیر هستند
فایل های .results، .search و .r-params.

هنگام اجرا با -پیش بینی فرمان ، اتوکلاس عضویت کلاس یک "تست" را پیش بینی می کند
مجموعه داده ها بر اساس کلاس های موجود در مجموعه داده های "آموزش" (به "پیش بینی ها" در زیر مراجعه کنید).

INPUT فایل ها


یک مجموعه داده AutoClass در دو فایل قرار دارد. یک فایل هدر (نوع فایل "hd2") وجود دارد که
قالب داده های خاص و تعاریف ویژگی را توصیف می کند. مقادیر واقعی داده ها هستند
در یک فایل داده (نوع فایل "db2"). ما از دو فایل برای ویرایش توضیحات داده ها استفاده می کنیم
بدون اینکه با کل مجموعه داده سروکار داشته باشید. این باعث می شود آزمایش با آن آسان شود
توضیحات مختلف از پایگاه داده بدون نیاز به بازتولید مجموعه داده ها.
در داخل، ساختار پایگاه داده AutoClass با سربرگ و فایل های داده آن شناسایی می شود.
و تعداد داده های بارگذاری شده

برای اطلاعات بیشتر در مورد فرمت های این فایل ها به ادامه مطلب مراجعه کنید
/usr/share/doc/autoclass/preparation-c.text.

داده ها فایل
فایل داده شامل دنباله ای از اشیاء داده (مقصد یا مورد) است که در پایان به پایان می رسد
پرونده. تعداد مقادیر برای هر شی داده باید برابر با تعداد باشد
ویژگی های تعریف شده در فایل هدر اشیاء داده باید گروه‌هایی از نشانه‌ها باشند که با آن‌ها محدود شده‌اند
"خط جدید". ویژگی ها به صورت REAL، DISCRETE یا DUMMY تایپ می شوند. مقادیر صفت واقعی هستند
اعداد، اعم از عدد صحیح یا ممیز شناور. مقادیر مشخصه گسسته می تواند رشته باشد،
نمادها یا اعداد صحیح یک مقدار ویژگی ساختگی می تواند هر یک از این انواع باشد. آدمک ها خوانده می شوند
در اما در غیر این صورت نادیده گرفته می شود -- آنها در پایگاه داده داخلی به صفر تنظیم می شوند. بدین ترتیب
مقادیر واقعی برای استفاده در خروجی گزارش در دسترس نخواهد بود. داشتن این صفات
مقادیر موجود، از نوع REAL یا DISCRETE استفاده کنید و نوع مدل آنها را به صورت تعریف کنید
در فایل .model چشم پوشی کنید. مقادیر گمشده برای هر نوع ویژگی ممکن است با نشان داده شود
یا "?"، یا نشانه دیگری که در فایل هدر مشخص شده است. همه به ویژه ترجمه شده است
مقدار منحصر به فرد پس از خوانده شدن، بنابراین این نماد به طور موثر برای ناشناخته / گم شده محفوظ است
ارزش ها.

مثلا:
سفید 38.991306 0.54248405 2 2 1
قرمز 25.254923 0.5010235 9 2 1
زرد 32.407973 ? 8 2 1
all_white 28.953982 0.5267696 0 1 1

HEADER فایل
فایل هدر فرمت فایل داده و تعاریف داده را مشخص می کند
ویژگی های. مشخصات عملکردی فایل هدر از دو بخش تشکیل شده است - داده
مشخصات تعریف قالب و توصیفگرهای ویژگی را تنظیم کنید. ";" در ستون 1
یک نظر را شناسایی می کند.

یک فایل هدر از این فرمت کلی پیروی می کند:

;; مقدار num_db2_format_defs (تعداد خطوط تعریف قالب
;; که در ادامه آمده است)، محدوده n 1 -> 5 است
num_db2_format_defs n
;; نشانه و مقدار مورد نیاز number_of_attributes
تعداد_ویژگی ها
;; موارد زیر اختیاری هستند - مقادیر پیش فرض مشخص شده است
separator_char " "
comment_char ';'
شناسه_نامعلوم "؟"
separator_char ','

;; توصیفگرهای صفت
;;
;;

هر توصیفگر ویژگی خطی از موارد زیر است:

شاخص مشخصه (بر اساس صفر، شروع در ستون 1)
نوع صفت زیر را ببینید.
زیرنوع صفت زیر را ببینید
توصیف ویژگی: نماد (بدون جای خالی تعبیه شده) یا
رشته؛ <= 40 کاراکتر
دارایی و جفت ارزش خاص
ترکیبات موجود در حال حاضر:

نوع زیرنوع نوع خاصیت (های)
---- -------- ---------------
ساختگی هیچ / صفر --
محدوده اسمی گسسته
خطای موقعیت مکانی واقعی
اسکالر واقعی zero_point rel_error

ویژگی ERROR باید بهترین برآورد شما از میانگین خطای مورد انتظار را نشان دهد
اندازه گیری و ثبت آن ویژگی واقعی. نداشتن اطلاعات بهتر،
خطا را می توان به عنوان 1/2 حداقل اختلاف ممکن بین مقادیر اندازه گیری شده در نظر گرفت. می تواند
استدلال شود که مقادیر واقعی اغلب کوتاه می شوند، به طوری که ممکن است خطاهای کوچکتر توجیه شوند،
به ویژه برای داده های تولید شده اما AutoClass فقط مقادیر ثبت شده را می بیند. بنابراین آن را
به جای خطای واقعی اندازه گیری به خطا در مقادیر ثبت شده نیاز دارد. تنظیمات
این خطا بسیار کوچکتر از حداقل تفاوت قابل بیان دلالت بر امکان دارد
مقادیری که نمی توانند در داده ها بیان شوند. بدتر از آن، دلالت بر دو مقدار یکسان دارد
باید اندازه‌گیری‌هایی را نشان دهد که بسیار نزدیک‌تر از آن چیزی است که واقعاً ممکن است باشد.
این منجر به تناسب بیش از حد طبقه بندی می شود.

ویژگی REL_ERROR برای واقعی های SCALAR زمانی استفاده می شود که خطا متناسب با مقدار باشد
ارزش اندازه گیری شده. ویژگی ERROR پشتیبانی نمی شود.

AutoClass از خطا به عنوان کران پایینی در عرض توزیع نرمال استفاده می کند. بنابراین
تخمین‌های خطای کوچک معمولاً پیک‌های باریک‌تری ارائه می‌کنند و تعداد هر دو را افزایش می‌دهند
کلاس ها و احتمال طبقه بندی برآوردهای خطای گسترده تمایل به محدود کردن آن دارند
تعداد کلاس ها

ویژگی اسکالر ZERO_POINT کوچکترین مقداری است که فرآیند اندازه گیری می تواند داشته باشد
تولید کرده اند. این اغلب 0.0 یا کمتر از محدوده خطا است. به همین ترتیب، محدود
ویژگی‌های min و max real محدودیت‌های انحصاری در فرآیند تولید ویژگی‌ها هستند.
برای درصد محاسبه شده، اینها 0-e و 100+e خواهند بود، که e یک مقدار خطا است. در
محدوده مشخصه گسسته تعداد مقادیر ممکنی است که ویژگی می تواند بگیرد.
زمانی که چنین مقادیری رخ می‌دهند، این محدوده باید شامل مقدار ناشناخته باشد.

مثال فایل هدر:

!#; فایل هدر AutoClass C -- پسوند hd2
!#; نویسه های زیر در ستون 1 خط را به عنوان نظر تبدیل می کنند:
!#; '!'، '#'، ';'، ' '، و '\n' (خط خالی)

;#! num_db2_format_defs
num_db2_format_defs 2
;; ضروری
تعداد_ویژگی ها 7
;; اختیاری - مقادیر پیش فرض مشخص شده است
;; separator_char " "
;; comment_char ';'
;; شناسه_نامعلوم "؟"
separator_char ','

;;

0 ساختگی صفر "کلاس واقعی، محدوده = 1 - 3"
1 مکان واقعی "X location, m. در محدوده 25.0 - 40.0" خطا 25
2 مکان واقعی "Y location, m. در محدوده 0.5 - 0.7" خطا 05
3 اسکالر واقعی "وزن، کیلوگرم در محدوده 5.0 - 10.0" نقطه_صفر 0.0
rel_error .001
4 نامی گسسته "مقدار حقیقت، محدوده = 1 - 2" محدوده 2
5 نامی گسسته "رنگ فووبار، 10 مقدار" محدوده 10
6 محدوده اسمی گسسته Spectral_color_group 6

MODEL فایل
طبقه بندی یک مجموعه داده با توجه به مدلی که شکل آن را مشخص می کند ساخته می شود
تابع توزیع احتمال برای کلاس های آن مجموعه داده. به طور معمول مدل
ساختار در یک فایل مدل تعریف شده است (نوع فایل "model")، حاوی یک یا چند مدل.
در داخل، یک مدل نسبت به یک پایگاه داده خاص تعریف می شود. بنابراین شناسایی می شود
توسط پایگاه داده مربوطه، فایل مدل مدل و موقعیت متوالی آن در
فایل.

هر مدل با یک یا چند خط تعریف گروه مدل مشخص می شود. هر گروه مدل
خط، شاخص ها را با یک نوع اصطلاح مدل مرتبط می کند.

در اینجا یک نمونه فایل مدل آمده است:

# فایل مدل AutoClass C -- پسوند .model
model_index 0 7
0 را نادیده بگیرید
single_normal_cn 3
single_normal_cn 17 18 21
multi_normal_cn 1 2
multi_normal_cn 8 9 10
multi_normal_cn 11 12 13
پیش فرض single_multinomial

در اینجا، خط اول یک نظر است. کاراکترهای زیر در ستون 1 خط a را می سازند
نظر: «!»، «#»، «»، «;»، و «\n» (خط خالی).

توکن های "model_index n m" باید در اولین خط بدون نظر ظاهر شود و قبل از آن باشد
خطوط تعریف اصطلاح مدل n شاخص مدل مبتنی بر صفر است، معمولاً در جایی که وجود دارد 0 است
فقط یک مدل -- اکثر موقعیت های جستجو. m تعداد اصطلاح مدل است
خطوط تعریفی که در ادامه می آیند.

هفت خط آخر خطوط گروه مدل هستند. هر خط گروه مدل شامل موارد زیر است:

یک نوع اصطلاح مدل (یکی از تک_چند جمله ای, تک_طبیعی_سانتی متر, single_normal_cn,
multi_normal_cn، یا چشم پوشی از).

فهرستی از شاخص های ویژگی (لیست مجموعه ویژگی ها)، یا نماد به طور پیش فرض. صفت
شاخص ها بر مبنای صفر هستند. اصطلاحات مدل منفرد ممکن است دارای یک یا چند شاخص ویژگی باشند
هر خط، در حالی که اصطلاحات چند مدل به دو یا چند شاخص ویژگی در هر خط نیاز دارند. یک
شاخص ویژگی نباید بیش از یک بار در لیست مدل ظاهر شود.

یادداشت:

1) حداقل یک تعریف مدل مورد نیاز است (توکن model_index).

2) ممکن است چندین مدخل در یک مدل برای هر نوع اصطلاح مدل وجود داشته باشد.

3) انواع اصطلاحات مدل در حال حاضر عبارتند از:

تک_چند جمله ای
ویژگی های گسسته را به صورت چندجمله ای با مقادیر گمشده مدل می کند.

single_normal_cn
ویژگی های با ارزش واقعی را به صورت عادی مدل می کند. بدون مقادیر از دست رفته

تک_طبیعی_سانتی متر
ویژگی های با ارزش واقعی را با مقادیر گمشده مدل می کند.

multi_normal_cn
یک مدل نرمال کوواریانس بدون مقادیر گم شده است.

چشم پوشی از به مدل اجازه می دهد تا یک یا چند ویژگی را نادیده بگیرد. چشم پوشی از معتبر نیست
نوع اصطلاح مدل پیش فرض

برای اطلاعات بیشتر در مورد مدل خاص به مستندات در models-c.text مراجعه کنید
مقررات.

4) Single_normal_cn, تک_طبیعی_سانتی مترو multi_normal_cn داده های مدل شده، که نوع فرعی آن
is اسکالر (توزیع ارزش از 0.0 فاصله دارد و بنابراین "عادی" نیست
توزیع) با مدل log-normal تبدیل و مدلسازی خواهد شد. برای
داده هایی که نوع فرعی آن است محل (توزیع ارزش حدود 0.0 است)، هیچ تبدیلی وجود ندارد
انجام شد و از مدل معمولی استفاده شد.

جستجوکردن


AutoClass، هنگامی که در حالت "جستجو" فراخوانی می شود، اعتبار مجموعه داده ها را بررسی می کند.
فایل های هدر، مدل و پارامترهای جستجو. خطاها شروع جستجو را متوقف خواهند کرد و
هشدارها از کاربر می پرسند که آیا ادامه دهد یا خیر. تاریخچه خطا و هشدار
پیام ها به طور پیش فرض در فایل گزارش ذخیره می شود.

هنگامی که در توصیف داده های خود با یک فایل هدر و مدل فایل که موفق شدید
بررسی های ورودی AUTOCLASS -SEARCH <...> را انجام می دهد، شما وارد دامنه جستجو شده اید
جایی که اتوکلاس داده های شما را طبقه بندی می کند (در آخر!)

تابع اصلی برای یافتن یک طبقه بندی خوب از داده های خود، AUTOCLASS است
-جستجو، و استفاده از آن بیشتر زمان محاسبه را می گیرد. جستجوها با استفاده از:

autoclass -search <.db2 file path> <.hd2 file path>
<.model file path> <.s-params file path>

همه فایل ها باید به عنوان مسیر نام نسبی یا مطلق کاملا واجد شرایط مشخص شوند. نام فایل
پسوندها (انواع فایل) برای همه فایل ها به مقادیر متعارف مورد نیاز توسط فایل مجبور می شوند
برنامه AutoClass:

فایل داده ("ascii") db2
فایل داده ("دودویی") db2-bin
فایل هدر hd2
مدل فایل مدل
فایل پارامترهای جستجو s-params

نمونه اجرا (/usr/share/doc/autoclass/examples/) که همراه است اتوکلاس برخی را نشان می دهد
جستجوهای نمونه، و مرور آنها احتمالاً سریعترین راه برای آشنایی با نحوه انجام آن است
برای انجام جستجوها مجموعه داده های آزمون واقع در زیر /usr/share/doc/autoclass/examples/ اراده
فایل هدر (.hd2)، مدل (.model) و پارامترهای جستجو (s-params) دیگر را به شما نشان می دهد.
تنظیمات بقیه این بخش نحوه انجام جستجوها را تا حدودی بیشتر توضیح می دهد
جزئیات

La جسور در مواجهه نشانه‌های زیر معمولاً پارامترهای فایل پارامترهای جستجو هستند. برای بیشتر
اطلاعات مربوط به فایل s-params را ببینید جستجو پارامترهای زیر، یا
/usr/share/doc/autoclass/search-c.text.gz.

چه نتایج هستند
اتوکلاس به دنبال بهترین طبقه بندی (های) داده هایی است که می تواند پیدا کند. آ
طبقه بندی از موارد زیر تشکیل شده است:

1) مجموعه ای از کلاس ها که هر کدام با مجموعه ای از پارامترهای کلاس توصیف می شوند که
نحوه توزیع کلاس در طول صفات مختلف را مشخص کنید. مثلا،
"ارتفاع معمولاً با میانگین 4.67 فوت و انحراف استاندارد 32 فوت توزیع می شود."

2) مجموعه‌ای از وزن‌های کلاس، که توضیح می‌دهد چند درصد موارد احتمالاً در آن قرار دارند
هر کلاس

3) تخصیص احتمالی موارد موجود در داده ها به این کلاس ها. یعنی برای هر کدام
در مورد، احتمال نسبی که عضوی از هر کلاس است.

به عنوان یک سیستم کاملاً بیزی (هیچ جایگزینی را قبول نکنید!)، معیار کیفیت است اتوکلاس استفاده
احتمال کل این است که اگر چیزی در مورد داده های خود یا دامنه آن نمی دانستید، شما
این مجموعه داده های تولید شده توسط این مدل اساسی را پیدا می کرد. این شامل
احتمال قبلی که «جهان» این تعداد کلاس، این مجموعه را انتخاب کرده باشد
وزن های نسبی کلاس، و این مجموعه پارامترها برای هر کلاس، و احتمال آن
چنین مجموعه ای از کلاس ها این مجموعه مقادیر را برای ویژگی های موجود در آن ایجاد می کند
موارد داده

این احتمالات معمولاً بسیار کوچک هستند، در محدوده e^-30000، و معمولاً
با نماد نمایی بیان می شود.

چه نتایج منظور داشتن
مهم است که به یاد داشته باشید که همه این احتمالات به مدل واقعی داده شده است
در خانواده مدل است که اتوکلاس توجه خود را محدود کرده است. اگر اتوکلاس is
به دنبال کلاس های گاوسی و کلاس های واقعی پواسون هستند، پس این واقعیت است که
اتوکلاس پیدا شد 5 کلاس گاوسی ممکن است در مورد تعداد کلاس های پواسون چیز زیادی نگویند
واقعا هستند

احتمال نسبی بین طبقه بندی های مختلف یافت شده می تواند بسیار زیاد باشد، مانند
e^1000، بنابراین بهترین طبقه بندی یافت شده معمولاً بسیار محتمل تر از آن است
بقیه (و بسیار کمتر از هر طبقه بندی بهتری که تاکنون وجود دارد).
کشف نشده). اگر اتوکلاس باید موفق شود دو طبقه بندی را پیدا کند که در داخل هستند
در مورد exp(5-10) از یکدیگر (یعنی در 100 تا 10,000 برابر بیشتر احتمال دارد) سپس شما
باید آنها را تقریباً به همان اندازه محتمل در نظر گرفت، زیرا محاسبات ما معمولاً بیشتر نیست
دقیق از این (و گاهی بسیار کمتر).

چگونه IT این نسخهها کار میکند
اتوکلاس به طور مکرر یک طبقه بندی تصادفی ایجاد می کند و سپس سعی می کند آن را به صورت a ماساژ دهد
طبقه بندی با احتمال بالا هر چند محلی تغییر می کند، تا زمانی که به مقداری «محلی» همگرا شود
حداکثر". سپس آنچه را که پیدا کرده به خاطر می آورد و دوباره شروع می کند و تا شما ادامه می دهد
بگو بس کن هر تلاشی "تلاش" نامیده می شود و احتمال محاسبه شده در نظر گرفته شده است
برای پوشش دادن کل حجم در فضای پارامتر حول این حداکثر، نه فقط
اوج.

رویکرد استاندارد برای ماساژ این است که

1) عضویت کلاس احتمالی موارد را با استفاده از پارامترهای کلاس و
احتمالات نسبی ضمنی

2) با استفاده از اعضای کلاس جدید، آمار کلاس را محاسبه کنید (مانند میانگین) و آن را اصلاح کنید
پارامترهای کلاس

و تکرار کنید تا زمانی که تغییر نکنند. سه الگوریتم همگرایی موجود وجود دارد:
"converge_search_3" (پیش‌فرض)، "converge_search_4" و "converge". آنها
مشخصات توسط پارامتر فایل پارامترهای جستجو کنترل می شود try_fn_type.

WHEN به STOP
می‌توانید به AUTOCLASS -SEARCH بگویید که با: 1) دادن a حداکثر_دوره (در ثانیه) استدلال
در آغاز؛ 2) دادن الف max_n_tries (یک عدد صحیح) آرگومان در ابتدا؛ یا 3) توسط
تایپ کردن "q" و بعد از اینکه تلاش های کافی را دیدید در حداکثر_دوره و
max_n_tries اگر می خواهید AUTOCLASS -SEARCH را در حالت دسته ای اجرا کنید، آرگومان ها مفید هستند. اگر
شما در حال راه اندازی مجدد AUTOCLASS -SEARCH از جستجوی قبلی، مقدار max_n_tries شما
ارائه، به عنوان مثال 3، به برنامه می گوید که علاوه بر این، 3 تلاش دیگر را نیز محاسبه کند
هر چند که قبلاً انجام داده است. همان رفتار افزایشی توسط
حداکثر_دوره.

تصمیم گیری در مورد زمان توقف یک تصمیم قضاوتی است و به شما بستگی دارد. از آنجایی که جستجو شامل الف است
مولفه تصادفی، همیشه این احتمال وجود دارد که اگر به آن اجازه دهید ادامه پیدا کند، پیدا خواهد شد
یه چیز بهتر. بنابراین شما باید با مدت زمانی که داشته باشید، چقدر بهتر است
ممکن است برای پیدا کردن آن طول بکشد وضعیت جستجو گزارش می دهد که وقتی بهترین جدید چاپ می شود
طبقه بندی یافت شده است به منظور ارائه اطلاعاتی به شما برای کمک به شما در این امر است
مصالحه.

یکی از نشانه‌های واضح که احتمالاً باید متوقف شوید این است که آیا اکثر طبقه‌بندی‌های یافت شده هستند
کپی های قبلی (همانطور که پیدا می شوند با "dup" پرچم گذاری می شوند). این فقط باید اتفاق بیفتد
برای مجموعه های بسیار کوچک از داده ها یا هنگام تعمیر تعداد بسیار کمی از کلاس ها، مانند دو.

تجربه ما این است که برای مجموعه داده های نسبتا بزرگ تا بسیار بزرگ (200 تا 10,000
داده)، لازم است اجرا شود اتوکلاس برای حداقل 50 آزمایش

چه دریافت می کند برگردانده شد
درست قبل از بازگشت، AUTOCLASS -SEARCH توضیحات کوتاهی از بهترین ها ارائه می دهد
طبقه بندی پیدا شد تعداد توصیف شده را می توان با کنترل کرد n_final_summary.

به طور پیش‌فرض AUTOCLASS -SEARCH تعدادی فایل را هم در انتها و هم در پایان می‌نویسد
به طور دوره ای در طول جستجو (در صورتی که سیستم شما قبل از اتمام کار از کار بیفتد). اینها
همه فایل ها یک نام خواهند داشت (برگرفته از نام مسیر پارامترهای جستجو [ .s-
params])، و فقط در پسوند فایل آنها متفاوت است. اگر جستجوی شما بسیار طولانی است و
این احتمال وجود دارد که دستگاه شما خراب شود، می توانید "نتایج" متوسطی داشته باشید
فایل های نوشته شده اینها می توانند برای راه اندازی مجدد جستجوی شما با حداقل از دست دادن استفاده شوند
تلاش جستجو فایل مستندات را ببینید /usr/share/doc/autoclass/checkpoint-c.text.

یک فایل "log." فهرستی از بیشتر مواردی را که در طول دوره بر روی صفحه نمایش چاپ شده است را در خود جای می دهد
اجرا کن، مگر اینکه تنظیم کنی log_file_p به دروغ گفتن که چنین حماقتی را نمی‌خواهی. مگر اینکه
results_file_p نادرست است، یک فایل ".results-bin" باینری (پیش فرض) یا یک ".results" ASCII
فایل متنی، بهترین طبقه بندی هایی را که برگردانده شده اند را در خود جای می دهد و مگر اینکه search_file_p
نادرست است، یک فایل ".search" رکورد تلاش های جستجو را نگه می دارد. save_compact_p
کنترل می کند که آیا فایل های "نتایج" به عنوان متن باینری یا اسکی ذخیره شوند.

اگر متغیر جهانی C "G_safe_file_writing_p" در "autoclass-" به عنوان TRUE تعریف شود.
c/prog/globals.c، نام فایل‌های «نتایج» (آنهایی که حاوی فایل‌های ذخیره‌شده هستند
طبقه بندی ها) به صورت داخلی اصلاح می شوند تا نوشتن فایل اضافی را در نظر بگیرند. اگر
نام فایل search params "my_saved_clsfs" است، فایل "نتایج" زیر را مشاهده خواهید کرد.
نام‌ها (نادیده گرفتن دایرکتوری‌ها و نام‌های مسیر برای این مثال)

save_compact_p = درست --
"my_saved_clsfs.results-bin" - فایل کاملاً نوشته شده است
"my_saved_clsfs.results-tmp-bin" - فایل نیمه نوشته شده، تغییر نام داد
وقتی کامل شد

save_compact_p = نادرست --
"my_saved_clsfs.results" - فایل کاملاً نوشته شده است
"my_saved_clsfs.results-tmp" - فایل تا حدی نوشته شده، تغییر نام داد
وقتی کامل شد

اگر علامت چک انجام شود، این نام های اضافی ظاهر می شوند

save_compact_p = درست --
"my_saved_clsfs.chkpt-bin" - فایل ایست بازرسی کاملاً نوشته شده است
"my_saved_clsfs.chkpt-tmp-bin" - فایل پست بازرسی نیمه نوشته شده،
پس از تکمیل تغییر نام داد
save_compact_p = نادرست --
"my_saved_clsfs.chkpt" - فایل ایست بازرسی کاملاً نوشته شده است
"my_saved_clsfs.chkpt-tmp" - فایل پست بازرسی نیمه نوشته شده،
پس از تکمیل تغییر نام داد

چگونه به شو آغاز شده
روش فراخوانی AUTOCLASS -SEARCH این است:

autoclass -search <.db2 file path> <.hd2 file path>
<.model file path> <.s-params file path>

برای راه اندازی مجدد جستجوی قبلی، آن را مشخص کنید force_new_search_p دارای مقدار false در
فایل params را جستجو کنید، زیرا پیش فرض آن درست است. تعیین false به AUTOCLASS -SEARCH می گوید
برای یافتن یک جستجوی سازگار قبلی (<...>. نتایج[-bin] و <...>. جستجو) به
ادامه دهید و در صورت یافتن مجدداً از آن استفاده کنید. برای جست و جوی جدید به جای
راه اندازی مجدد یک قدیمی، پارامتر را ارائه دهید force_new_search_p مقدار true یا استفاده از
پیش فرض اگر جستجوی موجود (<...>.نتایج[-bin] و <...>.جستجو) وجود داشته باشد، کاربر
از شما خواسته می شود تا ادامه را تأیید کند زیرا ادامه جستجوی موجود را کنار می گذارد.

اگر جستجوی قبلی ادامه یابد، به جای آن پیام "شروع مجدد جستجو" داده می شود
از "جستجوی آغازین" معمولی. به طور کلی بهتر است به جستجوی قبلی ادامه دهید
از شروع یک روش جدید، مگر اینکه روش جستجوی متفاوتی را امتحان کنید
که آمار موردی از جستجوی قبلی ممکن است جستجوی فعلی را گمراه کند.

وضعیت گزارش ها
یک تفسیر در حال اجرا در مورد جستجو روی صفحه و در فایل گزارش چاپ می شود
(مگر اینکه log_file_p نادرست است). توجه داشته باشید که فایل ".log" شامل فهرستی از همه خواهد بود
مقادیر پارامترهای جستجوی پیش‌فرض، و مقادیر همه پارامترهایی که لغو شده‌اند.

پس از هر تلاش یک گزارش بسیار کوتاه (فقط چند کاراکتر) داده می شود. بعد از هر نو
بهترین طبقه بندی، گزارش طولانی تری ارائه می شود، اما نه بیشتر از حداقل_گزارش_دوره
(پیش فرض 30 ثانیه است).

جستجو تغییرات
AUTOCLASS -SEARCH به طور پیش فرض از یک روش جستجوی استاندارد خاص یا "عملکرد امتحان کنید" استفاده می کند.
(try_fn_type = "converge_search_3"). دو مورد دیگر نیز موجود است: "converge_search_4"
و "همگرایی"). آنها در صورتی ارائه می شوند که مشکل شما به درد بخورد
از آنها. به طور کلی روش پیش فرض منجر به یافتن طبقه بندی های بهتر در می شود
هزینه جستجوی طولانی تر پیش‌فرض به گونه‌ای انتخاب شد که قوی باشد
حتی عملکرد در بسیاری از مشکلات. گزینه های پیش فرض ممکن است بهتر عمل کنند
برخی از مشکلات، اما ممکن است به طور قابل توجهی در مورد دیگران بدتر باشد.

"converge_search_3" از یک معیار توقف مطلق استفاده می کند (rel_delta_range، مقدار پیش فرض
0.0025) که تغییرات هر کلاس از دلتای گزارش را به صورت تقریبی آزمایش می کند.
احتمال حاشیه ای آمار طبقاتی با توجه به فرضیه کلاس
(class->log_a_w_s_h_j) تقسیم بر وزن کلاس (class->w_j) بین متوالی
چرخه های همگرایی افزایش این مقدار باعث کاهش همگرایی و کاهش تعداد می شود
از چرخه ها کاهش این مقدار همگرایی را محکم می کند و تعداد آنها را افزایش می دهد
چرخه n_میانگین (مقدار پیش فرض 3) مشخص می کند که چه تعداد چرخه متوالی باید مطابق با آن باشد
معیار توقف قبل از خاتمه محاکمه

"converge_search_4" از یک معیار توقف مطلق استفاده می کند (cs4_delta_range، مقدار پیش فرض
0.0025) که تغییرات هر کلاس از شیب را برای هر کلاس لاگ آزمایش می کند.
احتمال تقریبی - حاشیه ای آمار کلاس با توجه به کلاس
فرضیه (class->log_a_w_s_h_j) تقسیم بر وزن کلاس (class->w_j)
sigma_beta_n_values (مقدار پیش فرض 6) چرخه های همگرایی. افزایش ارزش
cs4_delta_range همگرایی را شل می کند و تعداد چرخه ها را کاهش می دهد. کاهش این
مقدار همگرایی را محکم می کند و تعداد چرخه ها را افزایش می دهد. از نظر محاسباتی این
تابع try گران‌تر از "converge_search_3" است، اما ممکن است مفید واقع شود
"نویز" محاسباتی در مقایسه با تغییرات در مقادیر محاسبه شده قابل توجه است.
محاسبات کلیدی در ممیز شناور با دقت مضاعف و برای بزرگترین داده ها انجام می شود
پایه ای که ما تاکنون آزمایش کرده ایم (5,420 مورد از 93 ویژگی)، نویز محاسباتی
مشکل بود، اگرچه ارزش max_cycles باید به 400 افزایش یابد.

"همگرا" از یکی از دو معیار توقف مطلق استفاده می کند که تغییرات را آزمایش می کند
طبقه بندی (clsf) log_marginal (clsf->log_a_x_h) دلتا بین همگرایی متوالی
چرخه ها بزرگترین از halt_range (مقدار پیش فرض 0.5) و halt_factor *
current_clsf_log_marginal) استفاده می شود (مقدار پیش فرض از halt_factor 0.0001 است). در حال افزایش است
این مقادیر باعث کاهش همگرایی و کاهش تعداد چرخه ها می شود. کاهش اینها
مقادیر همگرایی را محکم می کند و تعداد چرخه ها را افزایش می دهد. n_میانگین (پیش فرض
مقدار 3) مشخص می کند که چه تعداد چرخه باید قبل از آزمایش معیارهای توقف را برآورده کنند
خاتمه می یابد. این یک معیار توقف بسیار تقریبی است، اما به شما احساسی می دهد
برای نوع طبقه بندی های مورد انتظار. برای جستجوهای "اکتشافی" مفید خواهد بود
از یک پایگاه داده

هدف از reconverge_type = "chkpt" برای تکمیل یک طبقه بندی قطع شده توسط
از آخرین ایست بازرسی خود ادامه می دهد. هدف از reconverge_type = "نتایج" به است
سعی کنید بهترین طبقه بندی تکمیل شده را با استفاده از مقدار متفاوتی اصلاح کنید
try_fn_type ("converge_search_3"، "converge_search_4"، "converge"). اگر max_n_tries is
بزرگتر از 1، سپس در هر مورد، پس از تکمیل همگرایی، اتوکلاس اراده
آزمایشات جستجوی بیشتری را بر اساس مقادیر پارامتر در فایل <...>.s-params انجام دهید.

با استفاده از reconverge_type (مقدار پیش فرض "")، می توانید بیش از یک بار امتحان کنید
تابع یک طبقه بندی فرض کنید چندین آزمایش اکتشافی را با استفاده از آن تولید می کنید
try_fn_type = "converge"، و از جستجو با ذخیره فایل های .search و .results[-bin] خارج شوید.
سپس می توانید جستجوی دیگری را با آن شروع کنید try_fn_type = "converge_search_3"، reconverge_type
= "نتایج"، و max_n_tries = 1. این منجر به همگرایی بیشتر بهترین ها می شود
طبقه بندی تولید شده با try_fn_type = "همگرایی"، با try_fn_type =
"converge_search_3". چه زمانی اتوکلاس با تکمیل این جستجو، شما یک
طبقه بندی تصفیه شده اضافی

یک راه خوب برای تأیید اینکه هر یک از موارد جایگزین است try_fun_type در حال تولید چاه هستند
طبقه بندی همگرا برای اجرا است اتوکلاس در حالت پیش بینی بر روی همان داده های مورد استفاده برای
ایجاد طبقه بندی سپس مورد یا کلاس مربوطه را تولید و مقایسه کنید
فایل های مرجع متقابل برای طبقه بندی اصلی و پیش بینی. کم اهمیت
تفاوت بین این فایل ها قابل انتظار است، در حالی که تفاوت های بزرگ نشان می دهد
همگرایی ناقص تفاوت بین چنین جفت فایل باید به طور متوسط ​​و مدول
حذف کلاس، با همگرایی بیشتر به صورت یکنواخت کاهش می یابد.

راه استاندارد برای ایجاد یک طبقه‌بندی تصادفی برای شروع امتحان، پیش‌فرض است
مقدار "تصادفی" برای start_fn_type. در این مرحله هیچ جایگزینی وجود ندارد. مشخص کردن
"مسدود کردن" برای start_fn_type جستجوهای غیرتصادفی قابل تکرار ایجاد می کند. به این ترتیب است
فایل های <..>.s-params در زیر شاخه های autoclass-c/data/.. مشخص شده اند. اینگونه است
تست توسعه انجام شده است.

max_cycles حداکثر تعداد چرخه های همگرایی را که در هر یک از آنها انجام می شود را کنترل می کند
یک آزمایش توسط توابع همگرایی. مقدار پیش فرض آن 200 است. خروجی صفحه نمایش
یک دوره (".") را برای هر چرخه تکمیل شده نشان می دهد. اگر آزمایشات جستجوی شما برای 200 چرخه اجرا شود،
سپس یا پایگاه داده شما بسیار پیچیده است (مقدار را افزایش دهید)، یا try_fn_type نیست
مناسب برای موقعیت (یکی از موارد موجود را امتحان کنید و استفاده کنید converge_print_p برای به دست آوردن
اطلاعات بیشتر در مورد آنچه در جریان است).

تعیین converge_print_p برای درست بودن، یک چاپ مختصر برای هر چرخه ایجاد می کند
که اطلاعاتی را ارائه می دهد تا بتوانید مقادیر پیش فرض را تغییر دهید
rel_delta_range & n_میانگین برای "converge_search_3"؛ cs4_delta_range & sigma_beta_n_values
برای "converge_search_4"؛ و halt_range, halt_factorو n_میانگین برای "همگرایی". آنها
مقادیر پیش‌فرض در فایل‌های <..>.s-params در autoclass-c/data/.. زیر داده می‌شوند.
دایرکتوری.

چگونه بسیاری از کلاس ها؟
هر امتحان جدید با تعداد معینی کلاس شروع می شود و ممکن است با تعداد کمتری خاتمه یابد.
زیرا ممکن است برخی از کلاس ها از همگرایی خارج شوند. به طور کلی، شما می خواهید امتحان را شروع کنید
با تعدادی از کلاس ها که تلاش های قبلی نشان داده اند امیدوار کننده به نظر می رسند، و شما
اگر قبلاً چیزی را از دست داده اید، می خواهید مطمئن شوید که در جای دیگری ماهیگیری می کنید.

n_classes_fn_type = "random_ln_normal" راه پیش فرض برای این انتخاب است. مناسب است
به تعداد کلاس ها (معمولاً به اختصار "j" نامیده می شود) از 10 کلاس عادی وارد شوید
طبقه بندی هایی که تاکنون پیدا شده است، و به طور تصادفی از بین آن ها انتخاب می کند. در حال حاضر وجود ندارد
جایگزین.

برای شروع بازی، پیش فرض پایین رفتن است start_j_list برای چند تلاش اول، و
سپس به تغییر دهید n_classes_fn_type. اگر معتقدید که تعداد احتمالی کلاس ها در
پایگاه داده شما 75 است، سپس به جای استفاده از مقدار پیش فرض start_j_list (2 ، 3 ،
5، 7، 10، 15، 25)، چیزی شبیه به 50، 60، 70، 80، 90، 100 را مشخص کنید.

اگر کسی بخواهد همیشه به دنبال مثلاً سه کلاس باشد، می تواند استفاده کند fixed_j و نادیده گرفتن
در بالا. گزارش وضعیت جستجو، روش فعلی انتخاب j را توصیف می کند.

DO I دارند کافی حافظه و خطر فضا؟
از نظر داخلی، الزامات ذخیره سازی در سیستم فعلی به ترتیب n_classes_per_clsf هستند
* (n_data + n_stored_clsfs * n_attribute * n_attribute_values). این بستگی به
تعداد موارد، تعداد مشخصه ها، مقادیر هر ویژگی (در صورت واقعی از 2 استفاده کنید
مقدار)، و تعداد طبقه‌بندی‌هایی که برای مقایسه ذخیره می‌شوند تا ببینیم آیا سایر طبقه‌بندی‌ها ذخیره شده‌اند
تکراری -- کنترل شده توسط max_n_store (مقدار پیش فرض = 10). فرآیند جستجو انجام نمی شود
خود حافظه قابل توجهی مصرف می کند، اما ذخیره نتایج ممکن است این کار را انجام دهد.

اتوکلاس C برای مدیریت حداکثر 999 ویژگی پیکربندی شده است. اگر قصد دویدن دارید
با بیش از آن، نقض آرایه محدود دریافت خواهید کرد. در این صورت اینها را تغییر دهید
پارامترهای پیکربندی در prog/autoclass.h و recompile اتوکلاس C:

#define ALL_ATTRIBUTES 999
#define VERY_LONG_STRING_LENGTH 20000
#define VERY_LONG_TOKEN_LENGTH 500

به عنوان مثال، این مقادیر چندین هزار ویژگی را مدیریت می کنند:

#define ALL_ATTRIBUTES 9999
#define VERY_LONG_STRING_LENGTH 50000
#define VERY_LONG_TOKEN_LENGTH 50000

فضای دیسک اشغال شده توسط فایل "log" البته به مدت زمان جستجو بستگی دارد.
n_save (مقدار پیش فرض = 2) تعیین می کند که چه تعداد از بهترین طبقه بندی ها در آن ذخیره می شوند
فایل ".results[-bin]". save_compact_p "نتایج" و "نقطه بازرسی" را کنترل می کند
فایل ها به صورت باینری ذخیره می شوند. فایل‌های باینری سریع‌تر و فشرده‌تر هستند، اما اینطور نیستند
قابل حمل مقدار پیش فرض از save_compact_p درست است، که باعث می شود فایل های باینری باشند
نوشته شده است.

اگر زمان صرف شده برای ذخیره فایل های "نتایج" مشکل است، افزایش را در نظر بگیرید
min_save_period (مقدار پیش فرض = 1800 ثانیه یا 30 دقیقه). فایل ها روی دیسک ذخیره می شوند
این اغلب اگر چیزی متفاوت برای گزارش وجود داشته باشد.

فقط چگونه آهسته. تدریجی IS آی تی؟
زمان محاسبه مرتبه n_data * n_ویژگی * n_classes * n_tries * است
converge_cycles_per_try. عدم قطعیت عمده در این تعداد پشت و
چرخه های چهارم تا همگرایی در هر تلاش، و البته تعداد تلاش ها. شماره
سیکل در هر آزمایش معمولا 10-100 برای است try_fn_type "همگرا"، و 10-200+ برای
"converge_search_3" و "converge_search-4". حداکثر تعداد توسط مشخص شده است
max_n_tries (مقدار پیش فرض = 200). تعداد آزمایشات به شما و در دسترس شما بستگی دارد
منابع محاسباتی

زمان اجرای مجموعه داده های بسیار بزرگ کاملا نامشخص خواهد بود. ما توصیه می کنیم که چند
اجراهای آزمایشی در مقیاس کوچک روی سیستم شما انجام می شود تا خط مبنا تعیین شود. مشخص نمودن n_data به
تعداد بردارهای داده خوانده شده را محدود کنید. با توجه به حجم بسیار زیادی از داده ها، اتوکلاس ممکن است
محتمل ترین طبقه بندی های آن را در بیش از صد طبقه پیدا کنید، و این خواهد شد
نیاز به آن start_j_list به طور مناسب مشخص شود (به بخش بالا مراجعه کنید چگونه بسیاری از
کلاس ها؟). اگر کاملاً مطمئن هستید که فقط چند کلاس می خواهید، می توانید مجبور شوید
اتوکلاس برای جستجو با تعداد ثابتی از کلاس های مشخص شده توسط fixed_j. شما پس از آن
نیاز به اجرای جستجوهای جداگانه با هر تعداد ثابت متفاوت از کلاس ها.

در حال تغییر FILENAMES IN A ذخیره طبقه بندی فایل
اتوکلاس نام مسیرهای داده، سرصفحه و مدل فایل را در طبقه بندی ذخیره شده ذخیره می کند
ساختار فایل های باینری (.results-bin) یا ASCII (.results) "نتایج". اگر
فایل‌های «نتایج» و «جستجو» به مکان دایرکتوری دیگری یعنی جستجو منتقل می‌شوند
اگر از نام مسیرهای مطلق استفاده کرده باشید، نمی توان با موفقیت دوباره راه اندازی کرد. اینطور است
سودمند برای اجرای فراخوانی اتوکلاس در دایرکتوری والد داده، سرصفحه و مدل
فایل ها، به طوری که می توان از نام مسیرهای نسبی استفاده کرد. از آنجایی که نام مسیرهای کش شده پس از آن خواهد بود
نسبی، فایل ها را می توان به میزبان یا سیستم فایل دیگری منتقل کرد و دوباره راه اندازی کرد --
ارائه همان سلسله مراتب نام مسیر نسبی وجود دارد.

با این حال، از آنجایی که فایل ".results" متن ASCII است، آن مسیرها را می توان با a تغییر داد
ویرایشگر متن (save_compact_p باید به عنوان نادرست مشخص شود).

جستجو پارامترهای
جستجو توسط فایل ".s-params" کنترل می شود. در این فایل یک خط خالی یا یک خط
شروع با یکی از این کاراکترها به عنوان یک نظر در نظر گرفته می شود: "#"، "!"، یا ";". در
نام پارامتر و مقدار آن را می توان با علامت مساوی، فاصله یا تب جدا کرد:

n_clsfs 1
n_clsfs = 1
n_clsfs 1

اگر "=" یا " فاصله ها نادیده گرفته می شوند "به عنوان جداکننده استفاده می شود. توجه داشته باشید هیچ دنباله ای وجود ندارد
نقطه ویرگول

پارامترهای جستجو با مقادیر پیش فرض به شرح زیر است:

rel_error = 0.01
اندازه گیری تفاوت نسبی مورد استفاده توسط clsf-DS-%= را مشخص می کند، هنگام تصمیم گیری در مورد اینکه آیا a
new clsf تکراری از یک قبلی است.

start_j_list = 2 ، 3 ، 5 ، 7 ، 10 ، 15 ، 25
در ابتدا این تعداد کلاس را امتحان کنید تا جستجو را خیلی سریع محدود نکنید.
وضعیت این لیست در فایل جستجوی <..>. ذخیره می شود و در راه اندازی مجدد استفاده می شود.
مگر اینکه مشخصات نادیده گرفته شود start_j_list در فایل .s-params برای ساخته شده است
راه اندازی مجدد اجرا شود. این لیست باید تعداد کلاس‌های مورد انتظار شما و بر اساس آن را در براکت قرار دهد
یک حاشیه گسترده! "start_j_list = -999" یک لیست خالی را مشخص می کند (فقط مجاز است
راه اندازی مجدد)

n_classes_fn_type = "random_ln_normal"
اونس start_j_list خسته است، اتوکلاس این تابع را فراخوانی می کند تا تصمیم بگیرد که چگونه
کلاس های زیادی برای شروع در تلاش بعدی، بر اساس 10 بهترین طبقه بندی
تا کنون پیدا شده است. در حال حاضر فقط "random_ln_normal" موجود است.

fixed_j = 0
چه زمانی fixed_j > 0، لغو می شود start_j_list و n_classes_fn_type، و اتوکلاس اراده
همیشه از این مقدار برای تعداد اولیه کلاس ها استفاده کنید.

حداقل_گزارش_دوره = 30
حداقل این بار (بر حسب ثانیه) از آخرین گزارش تا گزارش کامل منتظر بمانید
از نو. هنگام بررسی باید بیشتر از زمان اجرا مورد انتظار تنظیم شود
تکرارپذیری نتایج برای نتایج قابل تکرار، همچنین ببینید force_new_search_p،
start_fn_type و randomize_random_p. توجه داشته باشید: حداقل یکی از "interactive_p"،
"max_duration" و "max_n_tries" باید فعال باشند. در غیر این صورت اتوکلاس اجرا خواهد شد
به طور نامحدود زیر را ببینید.

تعاملی_p = درست
هنگامی که نادرست است، اجازه می دهد تا اجرا ادامه یابد تا زمانی که در غیر این صورت متوقف شود. وقتی درست است، استاندارد
ورودی در هر چرخه برای کاراکتر خروج "q" درخواست می شود، که وقتی شناسایی شد،
باعث توقف فوری می شود.

حداکثر_دوره = 0
وقتی = 0، اجازه می دهد تا اجرا ادامه یابد تا زمانی که در غیر این صورت متوقف شود. هنگامی که > 0، مشخص می کند
حداکثر تعداد ثانیه برای اجرا

max_n_tries = 0
وقتی = 0، اجازه می دهد تا اجرا ادامه یابد تا زمانی که در غیر این صورت متوقف شود. هنگامی که > 0، مشخص می کند
حداکثر تعداد تلاش برای انجام

n_save = 2
این تعداد clsf را در فایل های .results[-bin] و .search در دیسک ذخیره کنید. اگر 0 باشد، نکنید
هر چیزی را ذخیره کنید (بدون فایل های جستجو و نتایج [-bin]).

log_file_p = درست
اگر نادرست است، یک فایل گزارش ننویسید.

search_file_p = درست
اگر نادرست است، یک فایل جستجو ننویسید.

results_file_p = درست
اگر نادرست است، فایل نتایج را ننویسید.

min_save_period = 1800
حفاظت از خرابی CPU این حداکثر زمان را بر حسب ثانیه مشخص می کند اتوکلاس
قبل از اینکه نتایج فعلی را روی دیسک ذخیره کند اجرا می شود. زمان پیش فرض 30 است
دقیقه.

max_n_store = 10
حداکثر تعداد طبقه بندی های ذخیره شده در داخل را مشخص می کند.

n_final_summary = 10
تعداد آزمایش هایی را که باید پس از پایان جستجو چاپ شوند را مشخص می کند.

start_fn_type = "تصادفی"
یکی از {"تصادفی"، "بلاک"}. این نوع اولیه سازی کلاس را مشخص می کند. برای
جستجوی عادی، از "تصادفی" استفاده کنید، که به طور تصادفی نمونه هایی را به عنوان کلاس اولیه انتخاب می کند
معنی می دهد و واریانس های مناسب را اضافه می کند. برای آزمایش با جستجوی تکرارشونده، استفاده کنید
"block" که پایگاه داده را به بلوک های متوالی با اندازه تقریبا مساوی تقسیم می کند.
برای نتایج قابل تکرار، همچنین ببینید force_new_search_p, حداقل_گزارش_دورهو
randomize_random_p.

try_fn_type = "converge_search_3"
یکی از {"converge_search_3"، "converge_search_4"، "converge"}. اینها مشخص می کنند
معیارهای توقف جستجوی جایگزین "همگرا" فقط میزان تغییر را آزمایش می کند
احتمال طبقه بندی log_marginal (clsf->log_a_x_h)، بدون بررسی
نرخ تغییر طبقات فردی (نگاه کنید به halt_range و halt_factor).
"converge_search_3" و "converge_search_4" هر کدام نسبت را کنترل می کنند
class->log_a_w_s_h_j/class->w_j برای همه کلاس ها، و همگرایی را تا زمانی که همه
معیارهای سکون برای n_میانگین چرخه ها تست های "converge_search_3".
تفاوت بین چرخه های همگرایی متوالی (نگاه کنید به rel_delta_range) این
یک معیار معقول و کلی برای توقف ارائه می دهد. "converge_search_4"
میانگین نسبت را در چرخه های "sigma_beta_n_values" نشان می دهد (نگاه کنید به cs4_delta_range) این
زمانی ترجیح داده می شود که converge_search_3 کلاس های مشابه زیادی تولید کند.

چرخه های اولیه_ص = درست
اگر درست است، base_cycle را در پارامترهای اولیه اجرا کنید. false فقط برای استفاده می شود
تست.

save_compact_p = درست
true طبقه بندی ها را به عنوان باینری وابسته به ماشین (.results-bin & .chkpt-bin) ذخیره می کند.
false به عنوان متن ascii (نتایج. و chkpt.) ذخیره می شود

read_compact_p = درست
true طبقه بندی ها را به عنوان باینری وابسته به ماشین (.results-bin & .chkpt-bin) می خواند.
false به عنوان متن ascii خوانده می شود (نتایج. و chkpt.).

randomize_random_p = درست
دانه های کاذب lrand48، تابع اعداد شبه تصادفی با 1 قابل تکرار است
موارد آزمون. true از ساعت جهانی زمان به عنوان بذر استفاده می کند و نیمه تصادفی می دهد
جستجوها برای نتایج قابل تکرار، همچنین ببینید force_new_search_p, حداقل_گزارش_دوره
و start_fn_type.

n_data = 0
با n_data = 0، کل پایگاه داده از .db2 خوانده می شود. با n_data > 0، فقط این
تعداد داده ها خوانده می شود

halt_range = 0.5
به try_fn_type "converge" منتقل شد. با "Converge" try_fn_type، همگرایی است
وقتی بزرگتر از halt_range و (halt_factor *current_log_marginal) متوقف شد
از تفاوت بین مقادیر چرخه متوالی طبقه بندی فراتر می رود
log_marginal (clsf->log_a_x_h). کاهش این مقدار ممکن است همگرایی را تشدید کند
و تعداد چرخه ها را افزایش دهید.

halt_factor = 0.0001
به try_fn_type "converge" منتقل شد. با "Converge" try_fn_type، همگرایی است
وقتی بزرگتر از halt_range و (halt_factor *current_log_marginal) متوقف شد
از تفاوت بین مقادیر چرخه متوالی طبقه بندی فراتر می رود
log_marginal (clsf->log_a_x_h). کاهش این مقدار ممکن است همگرایی را تشدید کند
و تعداد چرخه ها را افزایش دهید.

rel_delta_range = 0.0025
تابع "converge_search_3" را امتحان کرد، که نسبت log تقریباً -
احتمال حاشیه ای آمار طبقاتی با توجه به فرضیه طبقاتی
(class->log_a_w_s_h_j) تقسیم بر وزن کلاس (class->w_j)، برای هر کلاس.
"converge_search_3" زمانی که تفاوت بین چرخه ها وجود دارد، همگرایی را متوقف می کند
نسبت، برای هر کلاس، با "rel_delta_range" برای "n_average" بیشتر شده است
چرخه ها کاهش "rel_delta_range" همگرایی را سفت و افزایش می دهد
تعداد چرخه ها

cs4_delta_range = 0.0025
تابع "converge_search_4" را امتحان کرد که بر نسبت
(class->log_a_w_s_h_j)/(class->w_j)، برای هر کلاس، میانگین
چرخه های همگرایی "sigma_beta_n_values". "converge_search_4" همگرایی را متوقف می کند
زمانی که حداکثر اختلاف در مقادیر متوسط ​​این نسبت کمتر شود
"cs4_delta_range". کاهش "cs4_delta_range" باعث تشدید همگرایی و
تعداد چرخه ها را افزایش می دهد.

n_میانگین = 3
برای آزمایش توابع "converge_search_3" و "converge" تصویب شد. تعداد چرخه ها
که برای خاتمه آزمایش باید معیار همگرایی رعایت شود.

sigma_beta_n_values = 6
به try_fn_type "converge_search_4" منتقل شد. تعداد مقادیر گذشته برای استفاده
محاسبات سیگما^2 (نویز) و بتا^2 (سیگنال).

max_cycles = 200
این حداکثر تعداد چرخه های مجاز برای هر همگرایی از a است
طبقه بندی، صرف نظر از هر معیار توقف دیگر. این خیلی وابسته است
بر اساس پایگاه داده شما و انتخاب مدل و پارامترهای همگرایی، اما باید باشد
تقریباً دو برابر میانگین تعداد چرخه های گزارش شده در فایل dump و log

converge_print_p = نادرست
اگر درست باشد، تابع try انتخاب شده روی مقادیر مفید صفحه چاپ می شود
تعیین مقادیر غیر پیش فرض برای halt_range, halt_factor, rel_delta_range,
n_میانگین, sigma_beta_n_valuesو محدوده_فاکتور.

force_new_search_p = درست
اگر درست باشد، نتایج جستجوی قبلی را نادیده می‌گیرد و جستجوی موجود را نادیده می‌گیرد
و فایل های .results[-bin] پس از تایید توسط کاربر. اگر نادرست باشد، ادامه خواهد یافت
جستجو با استفاده از فایل‌های .search و .results[-bin] موجود. برای تکرار
نتایج، همچنین ببینید حداقل_گزارش_دوره, start_fn_type و randomize_random_p.

ایست بازرسی_p = نادرست
اگر درست باشد، پست های بازرسی طبقه بندی فعلی هر یک نوشته می شود
"min_checkpoint_period" ثانیه، با پسوند فایل .chkpt[-bin]. این فقط
برای طبقه بندی های بسیار بزرگ مفید است

min_checkpoint_period = 10800
اگر checkpoint_p = true است، طبقه بندی checkpointed اغلب به این صورت نوشته می شود
- در ثانیه (پیش فرض = 3 ساعت)

reconverge_type = "
می تواند "chkpt" یا "نتیجه" باشد. اگر "checkpoint_p" = true و "reconverge_type"
= "chkpt"، سپس به همگرایی طبقه بندی موجود در ادامه دهید
<...>.chkpt[-bin]. اگر "checkpoint_p" = نادرست و "reconverge_type" = "نتایج"،
ادامه همگرایی بهترین طبقه بندی موجود در <...>.results[-bin].

screen_output_p = درست
اگر نادرست باشد، هیچ خروجی به صفحه نمایش داده نمی شود. با فرض log_file_p = true، خروجی
فقط به فایل log هدایت می شود.

break_on_warnings_p = درست
مقدار پیش‌فرض هنگام تعریف داده از کاربر می‌پرسد که ادامه دهد یا نه
هشدارها پیدا می شود اگر به عنوان نادرست مشخص شود، پس اتوکلاس ادامه خواهد یافت، با وجود
هشدارها -- خروجی اخطار به ترمینال و گزارش ادامه خواهد یافت
فایل.

free_storage_p = درست
مقدار پیش فرض می گوید اتوکلاس بخش اعظم فضای ذخیره سازی اختصاص داده شده خود را آزاد کند.
این مورد نیاز نیست، و در مورد DEC Alpha باعث تخلیه هسته می شود [این است
هنوز درست است؟]. اگر به عنوان نادرست مشخص شود، اتوکلاس سعی نخواهد کرد فضای ذخیره سازی را آزاد کند.

چگونه به شو AUTOCLASS C به تولید قابل تکرار نتایج
در برخی شرایط، طبقه بندی های تکرارپذیر مورد نیاز است: مقایسه پایه اتوکلاس C
یکپارچگی در سیستم عامل های مختلف، پورت کردن اتوکلاس C به یک پلت فرم جدید، و غیره به منظور
انجام این دو مورد ضروری است: 1) مولد اعداد تصادفی یکسان باید باشد
استفاده می شود، و 2) پارامترهای جستجو باید به درستی مشخص شوند.

مولد اعداد تصادفی این پیاده سازی از اتوکلاس C از Unix srand48/lrand48 استفاده می کند
مولد اعداد تصادفی که اعداد شبه تصادفی را با استفاده از خطی معروف تولید می کند
الگوریتم متجانس و محاسبات عدد صحیح 48 بیتی. lrand48() غیر منفی برمی گرداند
اعداد صحیح طولانی به طور یکنواخت در بازه [0، 2**31] توزیع شده اند.

پارامترهای جستجو پارامترهای فایل .s-params زیر باید مشخص شوند:

force_new_search_p = درست است
start_fn_type "block"
randomize_random_p = نادرست
;; تعداد آزمایش هایی را که می خواهید اجرا کنید را مشخص کنید
max_n_tries = 50
;; زمانی را بیشتر از مدت اجرا مشخص کنید
min_report_period = 30000

توجه داشته باشید که بهترین گزارش طبقه بندی فعلی تولید نخواهد شد. فقط یک فینال
خلاصه طبقه بندی خروجی خواهد شد.

چک پوینتینگ


با پایگاه داده های بسیار بزرگ، احتمال خرابی سیستم در طول هر یک وجود دارد
یک طبقه بندی را امتحان کنید. در چنین شرایطی توصیه می شود که برای آن وقت بگذارید
محاسبات را برای راه اندازی مجدد احتمالی بررسی کنید.

نقطه بازرسی با مشخص کردن " آغاز می شودایست بازرسی_p = true" در فایل ".s-params".
این باعث می شود که مرحله همگرایی داخلی، یک کپی از طبقه بندی را بر روی ذخیره کند
فایل ایست بازرسی هر بار که طبقه بندی به روز می شود، یک دوره مشخص از
زمان گذشته است پسوند فایل ".chkpt[-bin]" است.

هر بار که یک AutoClass یک چرخه را کامل می کند، یک "." خروجی به صفحه نمایش داده می شود تا در اختیار شما قرار گیرد
اطلاعات مورد استفاده در تنظیم min_checkpoint_period مقدار (پیش‌فرض 10800 ثانیه
یا 3 ساعت). بدیهی است که بین دفعات ایست بازرسی و دفعات معاوضه وجود دارد
این احتمال وجود دارد که دستگاه شما ممکن است از کار بیفتد، زیرا نوشتن مکرر نقطه بازرسی
فایل روند جستجو را کند می کند.

شروع مجدد جستجوی AutoClass:

برای بازیابی طبقه بندی و ادامه جستجو پس از راه اندازی مجدد و بارگذاری مجدد
AutoClass، مشخص کنید reconverge_type = "chkpt" در فایل ".s-params" (مشخص کنید
force_new_search_p به عنوان نادرست).

AutoClass پایگاه داده و مدل های مناسب را بارگیری مجدد می کند، مشروط بر اینکه وجود نداشته باشد
نام فایل‌های آن‌ها از زمانی که برای چکپوینت بارگیری شدند، تغییر می‌کنند
اجرای طبقه بندی فایل ".s-params" حاوی هر آرگومان غیر پیش فرضی است که وجود داشت
به تماس اصلی ارائه شده است.

در ابتدای جستجو، قبل از start_j_list تخلیه شده است، لازم خواهد بود
برای برش لیست اصلی به آنچه که در جستجوی خراب باقی مانده است. این میتواند باشد
با مشاهده فایل ".log" تعیین می شود تا مشخص شود چه مقادیری قبلاً استفاده شده است. اگر
la start_j_list خالی شده است، سپس یک خالی است start_j_list باید در
فایل ".s-params". این کار یا توسط

start_j_list =

or

start_j_list = -9999،XNUMX

در اینجا مجموعه ای از اسکریپت ها برای نشان دادن نقطه چک وجود دارد:

autoclass -search data/glass/glassc.db2 data/glass/glass-3c.hd2 \
data/glass/glass-mnc.model data/glass/glassc-chkpt.s-params

اجرا 1)
## glassc-chkpt.s-params
max_n_tries = 2
force_new_search_p = درست است
## --------------------
;; اجرا تا تکمیل

اجرا 2)
## glassc-chkpt.s-params
force_new_search_p = نادرست
max_n_tries = 10
checkpoint_p = درست است
min_checkpoint_period = 2
## --------------------
;; بعد از 1 ایست بازرسی، ctrl-C را برای شبیه سازی خرابی cpu

اجرا 3)
## glassc-chkpt.s-params
force_new_search_p = نادرست
max_n_tries = 1
checkpoint_p = درست است
min_checkpoint_period = 1
reconverge_type = "chkpt"
## --------------------
;; محاکمه ایست بازرسی باید به پایان برسد

OUTPUT فایل ها


گزارش های استاندارد هستند

1) مقادیر تأثیر ویژگی: تأثیر یا اهمیت نسبی را نشان می دهد
ویژگی های داده هم به صورت جهانی (میانگین در همه کلاس ها) و هم به صورت محلی
(به طور خاص برای هر کلاس). یک اکتشافی برای قدرت نسبی کلاس نیز است
ذکر شده؛

2) ارجاع متقاطع با عدد موردی (مقطع): احتمال کلاس اولیه را فهرست می کند
هر داده، بر اساس شماره پرونده مرتب شده است. هنگامی که report_mode = "داده"، کمتر است
احتمالات کلاس (بزرگتر یا مساوی 0.001) برای هر داده فهرست شده است.

3) ارجاع متقابل بر اساس شماره کلاس: برای هر کلاس احتمال کلاس اولیه و
هر گونه احتمالات کلاس کمتر (بزرگتر یا مساوی 0.001) برای هر یک فهرست شده است.
داده در کلاس، مرتب شده بر اساس شماره مورد. همچنین امکان فهرست بندی برای هر کدام وجود دارد
داده، مقادیر ویژگی هایی که انتخاب می کنید.

گزارش مقادیر تأثیر ویژگی تلاش می کند تا معیارهای نسبی را ارائه دهد
"تأثیر" ویژگی های داده بر طبقات یافت شده توسط طبقه بندی. در
نقاط قوت کلاس نرمال شده، مقادیر تأثیر ویژگی نرمال شده در همه خلاصه می شود
کلاس‌ها، و مقادیر تأثیر فردی (I[jkl]) همه فقط معیارهای نسبی و
باید بیشتر از ترتیب رتبه‌بندی معنایی تفسیر شود، اما مانند چیزی نباشد
نزدیک شدن به مقادیر مطلق

گزارش‌ها به فایل‌هایی خروجی می‌شوند که نام‌ها و نام‌های مسیر آنها از ".r-params" گرفته شده است.
نام مسیر فایل انواع فایل گزارش (پسوندها) عبارتند از:

نفوذ ارزش گزارش
"influ-o-text-n" یا "influ-no-text-n"

مرجع متقابل by مورد
"متن موردی-n"

مرجع متقابل by کلاس
"متن کلاسی-n"

یا اگر report_mode روی "داده" لغو شود:

نفوذ ارزش گزارش
"انفلوآنزای داده ها-n" یا "influ-no-data-n"

مرجع متقابل by مورد
"داده های موردی-n"

مرجع متقابل by کلاس
"داده های کلاسی-n"

جایی که n شماره طبقه بندی از فایل "نتایج" است. اولین یا بهترین
طبقه بندی شماره 1، بهترین بعدی 2، و غیره است. پیش فرض تولید گزارش است
فقط برای بهترین طبقه بندی در فایل "نتایج". شما می توانید گزارش برای دیگران تولید کنید
طبقه بندی ها را با استفاده از کلیدواژه های پارامترهای گزارش ذخیره کرد n_clsfs و clsf_n_list.
"influ-o-text-nنوع فایل پیش فرض است (order_attributes_by_influence_p = درست)، و
ویژگی های هر کلاس را به ترتیب نزولی ارزش تأثیر ویژگی فهرست می کند. اگر
ارزش order_attributes_by_influence_p به نادرست بودن در <...>.r-params لغو می شود
فایل، سپس ویژگی های هر کلاس به ترتیب صعودی بر اساس شماره ویژگی فهرست می شوند.
پسوند فایل تولید شده به صورت "influ-no-text- خواهد بود.n". این روش از فهرست
مقایسه بصری مقادیر ویژگی بین کلاس ها را تسهیل می کند.

برای مثال این دستور:

autoclass -reports sample/imports-85c.results-bin
sample/imports-85c.search sample/imports-85c.r-params

با این خط در فایل ".r-params":

xref_class_report_att_list = 2، 5، 6

این فایل های خروجی را تولید می کند:

imports-85.influ-o-text-1
imports-85.case-text-1
imports-85.class-text-1

La اتوکلاس C گزارش ها قابلیت محاسبه مقادیر کانتور کلاس سیگما را برای آنها فراهم می کند
جفت مشخص شده از ویژگی های با ارزش واقعی، هنگام تولید گزارش مقادیر تأثیر
با گزینه داده (report_mode = "داده"). توجه داشته باشید که خطوط کلاس سیگما نیستند
تولید شده از ویژگی های نوع گسسته.

خطوط سیگما معادل دو بعدی نوارهای خطای n-سیگما در یک است.
بعد، ابعاد، اندازه. به طور خاص، برای دو ویژگی مستقل، کانتور n-sigma به صورت تعریف شده است
بیضی که در آن

((x - xMean) / xSigma)^2 + ((y - yMean) / ySigma)^2 == n

با ویژگی های کوواریانت، خطوط n-sigma به طور یکسان، در چرخش تعریف می شوند.
سیستم مختصات محورهای اصلی توزیع بنابراین صفات مستقل می دهند
بیضی ها موازی با محورهای صفت هستند، در حالی که محورهای سیگما خطوط
ویژگی های کوواریانس حول مرکز تعیین شده توسط میانگین می چرخند. در هر دو مورد
کانتور سیگما خطی را نشان می دهد که در آن احتمال کلاس بدون توجه به آن ثابت است
از هر احتمال کلاس دیگری

با سه یا چند ویژگی، خطوط n-سیگما بیضوی k بعدی می شوند.
سطوح این کد از این واقعیت بهره می برد که طرح ریزی موازی یک n-
بیضی بعدی، بر روی هر صفحه 2 کم نور، توسط یک بیضی محدود شده است. در این ساده شده است
در مورد نمایش بیضی تک سیگما بر روی صفحات مختصات نیز درست است
که کوواریانس های 2 کم نور این بیضی برابر با عناصر مربوطه است
کوواریانس های بیضی n-dim. سپس سیستم ویژه از کوواریانس 2 کم نور می دهد
واریانس ها در رابطه با اجزای اصلی ماه گرفتگی و چرخشی که آن را تراز می کند
با داده ها این بهترین راه برای نمایش یک توزیع در حاشیه است
سطح.

برای بدست آوردن مقادیر کانتور، کلمه کلیدی را تنظیم کنید sigma_contours_att_list به لیستی از ارزش واقعی
شاخص‌های ویژگی (از فایل hd2.) و درخواست گزارش مقادیر تأثیر با داده‌ها
گزینه. مثلا،

report_mode = "داده"
sigma_contours_att_list = 3، 4، 5، 8، 15

OUTPUT گزارش پارامترهای
محتویات گزارش خروجی توسط فایل ".r-params" کنترل می شود. در این فایل،
یک خط خالی یا خطی که با یکی از این کاراکترها شروع می شود به عنوان یک نظر در نظر گرفته می شود:
"#"، "!"، یا "؛". نام پارامتر و مقدار آن را می توان با علامت مساوی جدا کرد، a
فضا یا یک برگه:

n_clsfs 1
n_clsfs = 1
n_clsfs 1

اگر "=" یا " فاصله ها نادیده گرفته می شوند "به عنوان جداکننده استفاده می شود. توجه داشته باشید هیچ دنباله ای وجود ندارد
نقطه ویرگول

پارامترهای مجاز و مقادیر پیش فرض آنها در زیر آمده است:

n_clsfs = 1
تعداد clsf ها در فایل .results که برای آنها گزارش تولید می شود، با شروع
اولین یا "بهترین".

clsf_n_list =
اگر مشخص شده باشد، این فهرست فهرستی یک‌پایه از clsfs در دنباله clsf خوانده شده است.
از فایل .results. "n_clsfs" را لغو می کند. مثلا:

clsf_n_list = 1، 2

همان خروجی را تولید خواهد کرد

n_clsfs = 2

اما

clsf_n_list = 2

فقط گزارش طبقه بندی "دومین بهترین" را ارائه می دهد.

نوع گزارش =
نوع گزارش برای تولید: "all"، "influence_values"، "xref_case"، یا
"xref_class".

گزارش_حالت =
حالت گزارش برای تولید "متن" طرح بندی متن قالب بندی شده است. "داده" عددی است
- مناسب برای پردازش بیشتر

comment_data_headers_p = نادرست
مقدار پیش فرض # را در ستون 1 اکثر report_mode = هدر "داده" درج نمی کند
خطوط اگر درست مشخص شود، کاراکتر نظر در اکثر هدرها درج می شود
خطوط

num_atts_to_list =
اگر مشخص شده باشد، تعداد مشخصه هایی که باید در مقادیر تأثیرگذاری فهرست شوند، گزارش می شوند. اگر نه
مشخص شده، تمام ویژگی ها فهرست خواهند شد. (به عنوان مثال "num_atts_to_list = 5")

xref_class_report_att_list =
اگر مشخص شده باشد، لیستی از اعداد ویژگی (بر اساس صفر) که مقادیر آنها خروجی خواهد بود
در گزارش "xref_class" به همراه احتمالات موردی. اگر مشخص نشده باشد خیر
مقادیر ویژگی ها خروجی خواهد شد. (به عنوان مثال "xref_class_report_att_list = 1، 2، 3")

order_attributes_by_influence_p = درست
مقدار پیش فرض ویژگی های هر کلاس را به ترتیب نزولی صفت فهرست می کند
مقدار تأثیر، و از «.influ-o-text-n» به عنوان فایل گزارش مقادیر تأثیر استفاده می کند
نوع اگر به‌عنوان نادرست مشخص شود، ویژگی‌های هر کلاس در فهرست قرار خواهند گرفت
ترتیب صعودی بر اساس شماره ویژگی پسوند فایل تولید شده خواهد بود
"influ-no-text-n".

break_on_warnings_p = درست
مقدار پیش‌فرض از کاربر می‌پرسد که در هنگام تعریف داده‌ها ادامه دهد یا نه
هشدارها پیدا می شود اگر به عنوان نادرست مشخص شود، پس اتوکلاس ادامه خواهد یافت، با وجود
هشدارها -- اخطار همچنان به ترمینال ارسال می شود.

free_storage_p = درست
مقدار پیش فرض می گوید اتوکلاس بخش اعظم فضای ذخیره سازی اختصاص داده شده خود را آزاد کند.
این مورد نیاز نیست، و در مورد DEC Alpha باعث تخلیه هسته می شود [این است
هنوز درست است؟]. اگر به عنوان نادرست مشخص شود، اتوکلاس سعی نخواهد کرد فضای ذخیره سازی را آزاد کند.

max_num_xref_class_probs = 5
تعیین می کند که چند احتمال کلاس اجاره دهنده برای مورد و
گزارش های مرجع متقابل کلاس پیش فرض این است که محتمل ترین کلاس را چاپ کنید
مقدار احتمال و تا 4 احتمال کلاس اجاره دهنده. توجه داشته باشید که این درست است
هر دو گزارش ارجاع متقابل کلاس "متن" و "داده"، اما فقط برای آن صادق است
گزارش متقابل مورد "داده". فقط گزارش مرجع موردی "متن".
محتمل ترین احتمال کلاس را دارد.

sigma_contours_att_list =
اگر مشخص شده باشد، فهرستی از شاخص‌های ویژگی با ارزش واقعی (از فایل hd2.) به
هنگام ایجاد گزارش مقادیر تأثیر با
گزینه داده (report_mode = "داده"). اگر مشخص نشده باشد، سیگما وجود نخواهد داشت
خروجی کانتور کلاس (به عنوان مثال "sigma_contours_att_list = 3، 4، 5، 8، 15")

تفسیر OF AUTOCLASS نتایج


چه دارند شما بدست آورد؟
حالا شما دویدید اتوکلاس در مجموعه داده های خود -- چه چیزی دارید؟ به طور معمول،
اتوکلاس روش جستجو طبقه‌بندی‌های زیادی را پیدا می‌کند، اما فقط تعداد کمی از بهترین‌ها را ذخیره می‌کند. اینها
اکنون برای بازرسی و تفسیر در دسترس هستند. مهمترین شاخص از
مزیت نسبی این طبقه بندی های جایگزین، احتمال کل پسین ورود به سیستم است
مقدار. توجه داشته باشید که از آنجایی که احتمال بین 1 و 0 است، Log مربوطه
احتمال منفی است و از 0 تا منفی بی نهایت متغیر است. تفاوت میان
این مقادیر احتمال Log افزایش یافته به توان e احتمال نسبی را می دهد
طبقه بندی جایگزین ها بنابراین تفاوت، مثلاً 100، دلالت بر یک طبقه بندی دارد
e^100 ~= 10^43 احتمال بیشتری نسبت به دیگری دارد. با این حال، این اعداد می توانند بسیار گمراه کننده باشند،
از آنجایی که آنها احتمال نسبی طبقه بندی های جایگزین را در زیر می دهند
اتوکلاس مفروضات.

مفروضات
به طور خاص، مهمترین اتوکلاس مفروضات استفاده از مدل های عادی برای
متغیرهای واقعی، و فرض استقلال صفات در یک کلاس. از آنجا که
این مفروضات اغلب در عمل نقض می شوند، تفاوت در احتمال پسین
طبقه بندی های جایگزین می تواند تا حدی به دلیل نزدیک تر بودن یک طبقه بندی باشد
ارضای مفروضات نسبت به دیگری، به جای تفاوت واقعی در
کیفیت طبقه بندی منبع دیگری از عدم اطمینان در مورد سودمندی Log
مقادیر احتمال این است که آنها هیچ دانش قبلی خاصی را در نظر نمی گیرند
کاربر ممکن است در مورد دامنه داشته باشد. این بدان معنی است که اغلب ارزش آن را دارد که به دنبال جایگزین باشیم
طبقه بندی برای اینکه ببینید آیا می توانید آنها را تفسیر کنید یا خیر، اما ارزش شروع از بیشتر را دارد
اول محتمل توجه داشته باشید که اگر مقدار احتمال Log بسیار بیشتر از مقدار آن باشد
یک مورد کلاسی، می‌گوید شواهد زیادی برای آن وجود دارد برخی از ساختار در
داده ها، و بخشی از این ساختار توسط سازمان ثبت شده است اتوکلاس طبقه بندی.

نفوذ گزارش
بنابراین، اکنون طبقه‌بندی را انتخاب کرده‌اید که می‌خواهید بررسی کنید، بر اساس احتمال Log آن
مقدار؛ چگونه آن را بررسی می کنید؟ اولین کاری که باید انجام دهید این است که یک گزارش "نفوذ" ایجاد کنید
در طبقه بندی با استفاده از امکانات تولید گزارش مستند شده در
/usr/share/doc/autoclass/reports-c.text. یک گزارش تأثیر برای خلاصه کردن آن طراحی شده است
اطلاعات مهم مدفون در اتوکلاس ساختارهای داده.

بخش اول این گزارش کلاس اکتشافی "قوت" را ارائه می دهد. کلاس "قدرت" است
در اینجا به عنوان احتمال میانگین هندسی تعریف می شود که هر نمونه ای "متعلق به" کلاس باشد،
از مدل احتمال کلاس ایجاد شده است. بنابراین یک اکتشافی ارائه می دهد
اندازه گیری اینکه هر کلاس با چه شدتی موارد "خود" را پیش بینی می کند.

بخش دوم فهرستی از "تأثیر" کلی هر یک از ویژگی های استفاده شده در آن است
طبقه بندی اینها یک معیار اکتشافی تقریبی از اهمیت نسبی ارائه می دهند
هر ویژگی در طبقه بندی صفت "مقدارهای نفوذ" یک کلاس است
میانگین وزنی احتمال "تأثیر" هر ویژگی در کلاس ها، به عنوان
در زیر شرح داده شده است.

قسمت بعدی گزارش شرح خلاصه ای از هر یک از کلاس ها است. کلاس ها
به طور دلخواه از 0 تا n به ترتیب وزن کلاس نزولی شماره گذاری می شوند. یک کلاس
وزن مثلاً 34.1 به این معنی است که مجموع وزنی احتمالات عضویت برای کلاس است
34.1. توجه داشته باشید که وزن کلاس 34 لزوماً به این معنی نیست که 34 مورد به آن تعلق دارند
آن کلاس، زیرا بسیاری از موارد ممکن است فقط عضویت جزئی در آن کلاس داشته باشند. در درون هر یک
کلاس، صفات یا مجموعه ویژگی ها بر اساس «تأثیر» عبارت مدلشان مرتب می شوند.

صلیب آنتروپی
معیاری که معمولاً برای واگرایی بین دو توزیع احتمال استفاده می‌شود
آنتروپی متقاطع: مجموع تمام مقادیر ممکن x، از P(x|c...)*log[P(x|c...)/P(x|g...)]،
جایی که c... و g... توزیع ها را تعریف می کنند. از صفر برای یکسان متغیر است
توزیع ها، تا بی نهایت برای توزیع ها قرار دادن احتمال 1 در مقادیر مختلف
یک ویژگی با شرایط مستقل شرطی در توزیع احتمال،
آنتروپی متقاطع را می توان در مجموع بر روی این شرایط فاکتور گرفت. این عوامل معیاری را ارائه می دهند
تأثیر ویژگی مدل‌سازی‌شده مربوطه در تمایز این دو
توزیع ها

ما "تأثیر" اصطلاح مدل‌سازی شده بر یک کلاس را به عنوان عبارت متقاطع آنتروپی برای کلاس تعریف می‌کنیم
توزیع کلاس، توزیع کلاس جهانی تک کلاس است
طبقه بندی. بنابراین، "نفوذ" معیاری است برای اینکه اصطلاح مدل چقدر به شدت کمک می کند
کلاس را از کل مجموعه داده متمایز می کند. با ویژگی‌های مدل‌سازی شده مستقل،
تأثیر را می توان به طور مشروع به خود ویژگی نسبت داد. با همبستگی یا
مجموعه صفات کوواریانت، ضریب آنتروپی متقاطع تابعی از کل مجموعه است و
ما مقدار تأثیر را به طور مساوی بر روی ویژگی های مدل شده توزیع می کنیم.

صفت نفوذ ارزش
در گزارش "نفوذ" بر روی هر کلاس، پارامترهای ویژگی برای آن کلاس آورده شده است
به ترتیب بیشترین مقدار تأثیرگذاری برای مجموعه ویژگی‌های اصطلاح مدل. فقط چند مورد اول
مجموعه‌های ویژگی معمولاً دارای مقادیر تأثیر قابل توجهی هستند. اگر مقدار تأثیر کاهش یابد
کمتر از حدود 20 درصد از بالاترین مقدار، پس احتمالاً مهم نیست، اما همه است
مجموعه ویژگی ها برای کامل بودن فهرست شده اند. علاوه بر مقدار تأثیر برای هر یک
مجموعه ویژگی ها، مقادیر پارامترهای مجموعه ویژگی در آن کلاس به همراه داده می شود
با مقادیر "جهانی" مربوطه. مقادیر جهانی مستقیماً از روی محاسبه می شوند
داده های مستقل از طبقه بندی برای مثال، اگر میانگین کلاس صفت
"دما" 90 با انحراف استاندارد 2.5 است، اما میانگین جهانی 68 با یک
انحراف استاندارد 16.3، پس این کلاس مواردی را با بسیار بالاتر از آن انتخاب کرده است
دمای متوسط ​​و گسترش نسبتاً کمی در این محدوده بالا. به طور مشابه، برای
مجموعه‌های مشخصه گسسته، احتمال هر نتیجه در آن کلاس به همراه داده می‌شود
با احتمال جهانی متناظر -- مرتب شده بر اساس اهمیت آن: مطلق
مقدار (log { / }). نشانه اهمیت
مقدار جهت تغییر از کلاس جهانی را نشان می دهد. این اطلاعات یک
نمای کلی تفاوت هر کلاس با میانگین همه داده ها، به ترتیب بیشترین
تفاوتهای قابل توجه.

کلاس و CASE گزارش ها
پس از به دست آوردن توضیحاتی در مورد کلاس ها از گزارش "نفوذ"، ممکن است بخواهید
پیگیری کنید تا ببینید موارد مورد علاقه شما به کدام کلاس‌ها ختم شد. برعکس، ممکن است بخواهید
تا ببینید کدام موارد متعلق به یک کلاس خاص است. برای این نوع ارجاع متقابل
اطلاعات دو گزارش تکمیلی را می توان تولید کرد. اینها به طور کامل مستند شده اند
in /usr/share/doc/autoclass/reports-c.text. گزارش "کلاس"، تمام مواردی را فهرست می کند که
عضویت قابل توجهی در هر طبقه و درجه ای که هر مورد از این قبیل تعلق دارد
به آن کلاس مواردی که عضویت در کلاس آنها کمتر از 90 درصد در کلاس فعلی است
سایر اعضای کلاس آنها نیز ذکر شده است. موارد درون یک کلاس به ترتیب در می‌آیند
افزایش تعداد پرونده گزارش جایگزین «موارد» بیان می‌کند که کدام کلاس (یا کلاس‌ها) a
مورد متعلق به، و احتمال عضویت در محتمل ترین کلاس است. این دو
گزارش ها به شما این امکان را می دهد که موارد مربوط به کدام کلاس ها را پیدا کنید یا برعکس. اگر
تقریباً هر مورد نزدیک به 99٪ عضویت در یک کلاس دارد، پس به این معنی است که
کلاس ها به خوبی از هم جدا شده اند، در حالی که درجه بالای عضویت متقابل نشان می دهد که
کلاس ها به شدت همپوشانی دارند. همپوشانی زیاد کلاس ها نشانه ای از این ایده است
طبقه بندی در حال شکستن است و گروه هایی از طبقات متقابل بسیار همپوشانی دارند،
نوعی کلاس متا، احتمالاً راه بهتری برای درک داده ها است.

مقایسه کردن کلاس وزنها و کلاس / مورد گزارش تکالیف
وزن کلاس که به عنوان پارامتر احتمال کلاس داده می شود، اساساً جمع کل است
نمونه های داده، از احتمال نرمال شده که نمونه عضوی از کلاس است.
احتمالاً این یک خطا از طرف ما است که این عدد را به عنوان یک عدد صحیح در فرمت می کنیم
گزارش، به جای تاکید بر ماهیت واقعی آن. شما ارزش واقعی واقعی را پیدا خواهید کرد
به عنوان پارامتر w_j در ساختارهای class_DS در هر فایل .results[-bin] ثبت شده است.

گزارش‌های .case و .class احتمالاتی را می‌دهند که موارد عضو کلاس‌ها هستند. هر
انتساب موارد به کلاس ها مستلزم برخی قوانین تصمیم گیری است. حداکثر احتمال
قاعده انتساب اغلب به طور ضمنی فرض می شود، اما نمی توان انتظار داشت که نتیجه حاصل شود
اندازه پارتیشن با وزن کلاس برابر است مگر اینکه تقریباً تمام اعضای کلاس
احتمالات عملاً یک یا صفر هستند. با احتمال عضویت غیر 1/0،
تطبیق وزن کلاس ها مستلزم جمع کردن احتمالات است.

علاوه بر این، سوال کامل بودن EM (بیشینه سازی انتظارات) وجود دارد.
همگرایی EM متناوب بین تخمین پارامترهای کلاس و تخمین کلاس است
احتمالات عضویت این تخمین ها بر روی یکدیگر همگرا هستند، اما در واقع هرگز
ملاقات. اتوکلاس چندین الگوریتم همگرایی را با توقف متناوب پیاده سازی می کند
معیارها با استفاده از پارامترهای مناسب در فایل .s-params. تنظیم مناسب اینها
پارامترها، برای به دست آوردن همگرایی کامل و کارآمد ممکن است نیاز باشد
آزمایش

جایگزین طبقه بندی ها
به طور خلاصه، گزارش‌های مختلفی که می‌توان تولید کرد راهی برای مشاهده آن به شما می‌دهد
طبقه بندی فعلی معمولاً ایده خوبی است که به طبقه بندی های جایگزین نگاه کنید
حتی اگر آنها حداقل مقادیر احتمال Log را ندارند. این دیگر
طبقه‌بندی‌ها معمولاً دارای کلاس‌هایی هستند که با کلاس‌های قوی دیگر مطابقت دارند
طبقه بندی، اما می تواند در کلاس های ضعیف متفاوت باشد. "قدرت" یک کلاس در یک
طبقه‌بندی را معمولاً می‌توان بر اساس میزان تاثیرگذاری بسیار بالا قضاوت کرد
ویژگی های کلاس با ویژگی های جهانی مربوطه متفاوت است. اگر هیچ یک از
طبقه بندی کاملا رضایت بخش به نظر می رسد، همیشه امکان اجرا وجود دارد اتوکلاس دوباره به
ایجاد طبقه بندی های جدید

چه بعد؟
در نهایت، این سوال که پس از یافتن یک طبقه بندی روشنگر چه باید کرد
ناشی می شود. معمولاً طبقه بندی یک مرحله تجزیه و تحلیل داده های اولیه برای بررسی یک مجموعه است
موارد (چیزها، مثالها و غیره) برای دیدن اینکه آیا می توان آنها را طوری دسته بندی کرد که اعضای آن
گروه "شبیه" به یکدیگر هستند. اتوکلاس بدون کاربر چنین گروه بندی می دهد
نیاز به تعریف معیار تشابه اندازه گیری «شباهت» داخلی، متقابل است
پیش بینی موارد گام بعدی این است که سعی کنید "توضیح دهید" چرا برخی از اشیاء هستند
بیشتر شبیه دیگران است تا کسانی که در یک گروه متفاوت هستند. معمولاً دانش دامنه پیشنهاد می کند
پاسخ. به عنوان مثال، طبقه بندی افراد بر اساس درآمد، عادات خرید، مکان،
سن، و غیره، ممکن است طبقات اجتماعی خاصی را نشان دهند که قبل از آن آشکار نبودند
تجزیه و تحلیل طبقه بندی برای کسب اطلاعات بیشتر در مورد این گونه کلاس ها به ادامه مطلب مراجعه کنید
اطلاعاتی مانند تعداد اتومبیل‌ها، برنامه‌های تلویزیونی که تماشا می‌شود و غیره، حتی نشان می‌دهد
اطلاعات بیشتر. مطالعات طولی اطلاعاتی در مورد چگونگی طبقات اجتماعی ارائه می دهد
پدید می آیند و چه چیزی بر نگرش آنها تأثیر می گذارد - که همه آنها بسیار فراتر از حالت اولیه است
طبقه بندی.

پیش بینی ها


از طبقه بندی ها می توان برای پیش بینی عضویت در کلاس برای موارد جدید استفاده کرد. بنابراین علاوه بر
احتمالاً به شما بینشی در مورد ساختار پشت داده های خود می دهد، اکنون می توانید استفاده کنید
اتوکلاس به طور مستقیم برای پیش بینی و مقایسه اتوکلاس به سایر سیستم های یادگیری

این تکنیک برای پیش‌بینی احتمالات کلاس برای همه ویژگی‌ها قابل استفاده است.
صرف نظر از نوع داده/sub_type یا نوع اصطلاح مدل احتمال.

در صورتی که عضویت کلاس یک مورد داده برای هیچ یک از 0.0099999 تجاوز نکند
در کلاس های "آموزش"، پیام زیر در خروجی صفحه نمایش برای هر یک ظاهر می شود
مورد:

xref_get_data: case_num xxx => class 9999

اعضای کلاس 9999 در گزارش‌های ارجاع متقابل «مورد» و «کلاس» با یک
عضویت در کلاس 1.0.

نکات احتیاطی:

روش معمول استفاده اتوکلاس قرار دادن تمام داده های خود در یک data_file است، آن را توصیف کنید
داده ها را با فایل های مدل و هدر اجرا کنید و "autoclass -search" را اجرا کنید. حالا به جای یکی
data_file شما دو خواهید داشت، یک training_data_file و یک test_data_file.

بسیار مهم است که هر دو پایگاه داده یکسان باشند اتوکلاس نمایندگی داخلی
اگر این درست نباشد، اتوکلاس خارج می شود، یا احتمالاً در برخی شرایط، خراب می شود.
حالت پیش‌بینی طراحی شده است تا کاربر را به انطباق با آن هدایت کند
مورد نیاز است.

آمادگی:

پیش بینی نیاز به طبقه بندی آموزشی و پایگاه داده آزمون دارد. تمرین
طبقه بندی با اجرای "جستجوی کلاس خودکار" در آموزش ایجاد می شود
data_file ("data/soybean/soyc.db2")، به عنوان مثال:

autoclass -search data/soybean/soyc.db2 data/soybean/soyc.hd2
data/soybean/soyc.model data/soybean/soyc.s-params

با این کار "soyc.results-bin" و "soyc.search" تولید می شود. سپس یک پارامتر "گزارش ها" ایجاد کنید
فایل، مانند "soyc.r-params" (نگاه کنید به /usr/share/doc/autoclass/reports-c.text)، و اجرا
اتوکلاس در حالت "گزارش ها" مانند:

autoclass -reports data/soybean/soyc.results-bin
data/soybean/soyc.search data/soybean/soyc.r-params

با این کار فایل‌های ارجاع متقابل کلاس و مورد، و فایل مقادیر تأثیر ایجاد می‌شود.
نام فایل ها بر اساس نام فایل ".r-params" است:

data/soybean/soyc.class-text-1
data/soybean/soyc.case-text-1
data/soybean/soyc.influ-text-1

اینها کلاس های موجود در training_data_file را توصیف می کنند. در حال حاضر این طبقه بندی
می توان برای پیش بینی عضویت کلاس احتمالی موارد test_data_file استفاده کرد
("data/soybean/soyc-predict.db2") در کلاس های training_data_file.

autoclass -predict data/soybean/soyc-predict.db2
data/soybean/soyc.results-bin data/soybean/soyc.search
data/soybean/soyc.r-params

با این کار فایل‌های ارجاع متقابل کلاس و مورد برای موارد test_data_file ایجاد می‌شود
پیش بینی عضویت در کلاس احتمالی آنها در کلاس های training_data_file. در
نام فایل بر اساس نام فایل ".db2" است:

data/soybean/soyc-predict.class-text-1
data/soybean/soyc-predict.case-text-1

از autoclass آنلاین با استفاده از خدمات onworks.net استفاده کنید


سرورها و ایستگاه های کاری رایگان

دانلود برنامه های ویندوز و لینوکس

دستورات لینوکس

Ad




×
تبلیغات
❤️اینجا خرید کنید، رزرو کنید یا بخرید - رایگان است، به رایگان ماندن خدمات کمک می‌کند.