İngilizceFransızcaİspanyolca

Ad


OnWorks favicon'u

autoclass - Bulutta Çevrimiçi

Ubuntu Online, Fedora Online, Windows çevrimiçi emülatörü veya MAC OS çevrimiçi emülatörü üzerinden OnWorks ücretsiz barındırma sağlayıcısında autoclass çalıştırın

Bu, Ubuntu Online, Fedora Online, Windows çevrimiçi emülatörü veya MAC OS çevrimiçi emülatörü gibi birden fazla ücretsiz çevrimiçi iş istasyonumuzdan birini kullanarak OnWorks ücretsiz barındırma sağlayıcısında çalıştırılabilen otomatik komut sınıfıdır.

Program:

ADI


autoclass - verilerdeki sınıfları otomatik olarak keşfedin

SİNOPSİS


otomatik sınıf -arama veri dosyası başlık dosyası model_dosyası s_param_file
otomatik sınıf -bildiri sonuçlar_dosyası arama_dosyası r_params_file
otomatik sınıf -tahmin etmek sonuçlar_dosyası arama_dosyası sonuçlar_dosyası

TANIM


Otomatik Sınıf verilerdeki sınıfların otomatik olarak keşfedilmesi sorununu çözer (bazen
kümeleme veya denetimsiz öğrenme), sınıf neslinden farklı olarak
etiketli örneklerden açıklamalar (denetimli öğrenme). keşfetmeyi amaçlamaktadır.
verilerdeki "doğal" sınıflar. Otomatik Sınıf olabilecek şeylerin gözlemleri için geçerlidir.
başka şeylere atıfta bulunmadan bir dizi nitelik tarafından tanımlanabilir. veri değerleri
her özniteliğe karşılık gelen, sayılarla veya bir öğenin öğeleriyle sınırlıdır.
sabit simgeler kümesi. Sayısal verilerle bir ölçüm hatası sağlanmalıdır.

Otomatik Sınıf bulabildiği en iyi veri sınıflandırmasını/sınıflandırmalarını arıyor. A
sınıflandırma oluşur:

1) Her biri bir dizi sınıf parametresi tarafından tanımlanan bir dizi sınıf,
sınıfın çeşitli öznitelikler boyunca nasıl dağıtıldığını belirtin. Örneğin,
"ortalama 4.67 ft ve standart sapma 32 ft ile normal olarak dağılan yükseklik",

2) Vakaların yüzde kaçının muhtemel olduğunu açıklayan bir dizi sınıf ağırlığı
her sınıf.

3) Verilerdeki durumların bu sınıflara olasılıksal olarak atanması. yani her biri için
durumda, her sınıfın bir üyesi olma nispi olasılığı.

Tam bir Bayes sistemi olarak (yedeğini kabul etmeyin!), kalite ölçüsü Otomatik Sınıf kullanım
verileriniz veya etki alanı hakkında hiçbir şey bilmiyor olsaydınız, toplam olasılıktır.
bu temel model tarafından oluşturulan bu veri kümesini bulmuş olurdu. Bu şunları içerir:
"dünyanın" bu sayıda sınıfı, bu
göreli sınıf ağırlıkları ve her sınıf için bu parametre seti ve
böyle bir sınıf kümesi,
veri durumları.

Bu olasılıklar tipik olarak çok küçüktür, e^-30000 aralığındadır ve bu nedenle genellikle
üstel gösterimle ifade edilir.

ile çalıştırıldığında -arama emretmek, Otomatik Sınıf bir sınıflandırma arar. Gerekli olan
argümanlar, verileri, veri formatını, veri formatını sağlayan dört girdi dosyasına giden yoldur.
sırasıyla istenen sınıflandırma modeli ve arama parametreleri.

Varsayılan olarak, Otomatik Sınıf ara sonuçları bir ikili dosyaya yazar. İle -bildiri
emretmek, Otomatik Sınıf bir ASCII raporu oluşturur. Argümanlar, tam yol adlarıdır
.results, .search ve .r-params dosyaları.

ile çalıştırıldığında -tahmin etmek emretmek, Otomatik Sınıf bir "testin" sınıf üyeliğini tahmin eder
bir "eğitim" veri kümesinde bulunan sınıflara dayalı veri kümesi (aşağıdaki "Öngörüler" bölümüne bakın).

GİRİŞ DOSYALAR


Bir AutoClass veri seti iki dosyada bulunur. Bir başlık dosyası ("hd2" dosya türü) vardır.
belirli veri biçimini ve öznitelik tanımlarını açıklar. Gerçek veri değerleri
bir veri dosyasında ("db2" dosya tipi). Veri açıklamalarının düzenlenmesine izin vermek için iki dosya kullanıyoruz
tüm veri seti ile uğraşmak zorunda kalmadan. Bu, denemeyi kolaylaştırır
veri kümesini yeniden oluşturmak zorunda kalmadan veritabanının farklı açıklamaları.
Dahili olarak, bir AutoClass veritabanı yapısı, başlık ve veri dosyaları ile tanımlanır,
ve yüklenen veri sayısı.

Bu dosyaların biçimleri hakkında daha ayrıntılı bilgi için bkz.
/usr/share/doc/autoclass/preparation-c.text.

VERİ DOSYA
Veri dosyası, sonunda sonlandırılan bir dizi veri nesnesi (veri veya durum) içerir.
dosya. Her veri nesnesi için değer sayısı, nesne sayısına eşit olmalıdır.
başlık dosyasında tanımlanan nitelikler. Veri nesneleri, şu şekilde sınırlandırılmış belirteç grupları olmalıdır:
"Yeni hat". Nitelikler GERÇEK, AYRI veya DUMMY olarak yazılır. Gerçek öznitelik değerleri
sayılar, tamsayı veya kayan nokta. Ayrık öznitelik değerleri dizeler olabilir,
semboller veya tamsayılar. Sahte bir öznitelik değeri, bu türlerden herhangi biri olabilir. mankenler okunur
içinde ancak başka türlü yoksayılır -- dahili veritabanında sıfıra ayarlanırlar. Böylece
gerçek değerler rapor çıktısında kullanılamaz. Bu özelliklere sahip olmak
değerleri mevcutsa, REAL veya DISCRETE türünü kullanın ve model türlerini şu şekilde tanımlayın:
.model dosyasında IGNORE. Herhangi bir öznitelik türü için eksik değerler şu şekilde gösterilebilir:
"?" veya başlık dosyasında belirtilen diğer belirteç. Hepsi özel olarak çevrildi
okunduktan sonra benzersiz değer, bu nedenle bu sembol bilinmeyen/eksik için etkin bir şekilde ayrılmıştır
değerleri.

Örneğin:
beyaz 38.991306 0.54248405 2 2 1
kırmızı 25.254923 0.5010235 9 2 1
sarı 32.407973 ? 8 2 1
all_white 28.953982 0.5267696 0 1 1

ÜSTBİLGİ DOSYA
Başlık dosyası, veri dosyası biçimini ve verilerin tanımlarını belirtir.
Öznitellikler. Başlık dosyası işlevsel özellikleri iki bölümden oluşur - veriler
biçim tanım belirtimlerini ve öznitelik tanımlayıcılarını ayarlayın. ";" 1. sütunda
bir yorumu tanımlar.

Bir başlık dosyası şu genel biçimi izler:

;; num_db2_format_defs değeri (biçim tanım satırlarının sayısı
;; takip eder), n aralığı 1 -> 5'tir.
num_db2_format_defs n
;; number_of_attributes belirteci ve gerekli değer
number_of_attributes
;; aşağıdakiler isteğe bağlıdır - varsayılan değerler belirtilmiştir
ayırıcı_char ' '
yorum_char ';'
bilinmeyen_belirteç '?'
ayırıcı_char ','

;; nitelik tanımlayıcıları
;;
;;

Her öznitelik tanımlayıcı bir satırdır:

Özellik dizini (sıfır tabanlı, 1. sütundan başlayarak)
Özellik türü. Aşağıya bakınız.
Özellik alt türü. Aşağıya bakınız
Özellik açıklaması: sembol (gömülü boşluk yok) veya
sicim; <= 40 karakter
Spesifik özellik ve değer çiftleri.
Şu anda mevcut kombinasyonlar:

tip alt tip özellik tip(ler)i
---- -------- ------------------
kukla yok/sıfır --
ayrık nominal aralık
gerçek konum hatası
gerçek skaler sıfır noktası rel_error

ERROR özelliği, beklenen ortalama hataya ilişkin en iyi tahmininizi temsil etmelidir.
bu gerçek özelliğin ölçümü ve kaydı. Daha iyi bilgi eksikliği,
hata, ölçülen değerler arasındaki olası minimum farkın 1/2'si olarak alınabilir. Yapabilir
gerçek değerlerin genellikle kesildiği ve böylece daha küçük hataların doğrulanabileceği tartışılabilir,
özellikle oluşturulan veriler için. Ancak AutoClass yalnızca kaydedilen değerleri görür. yani
gerçek ölçüm hatasından ziyade kaydedilen değerlerdeki hataya ihtiyaç duyar. Ayar
ifade edilebilir minimum farktan çok daha küçük olan bu hata, şu olasılığı ima eder:
verilerde ifade edilemeyen değerlerdir. Daha da kötüsü, iki özdeş değerin
gerçekte olabileceklerinden çok daha yakın olan ölçümleri temsil etmelidir.
Bu, sınıflandırmanın aşırı uydurmasına yol açar.

REL_ERROR özelliği, hata ile orantılı olduğunda SCALAR gerçekleri için kullanılır.
ölçülmüş değer. ERROR özelliği desteklenmiyor.

AutoClass, hatayı normal dağılımın genişliğinde bir alt sınır olarak kullanır. Böyle
küçük hata tahminleri, daha dar tepe noktaları verme ve hem hata sayısını artırma eğilimindedir.
sınıflar ve sınıflandırma olasılığı. Geniş hata tahminleri,
sınıf sayısı.

Skaler ZERO_POINT özelliği, ölçüm işleminin alabileceği en küçük değerdir.
üretti. Bu genellikle 0.0'dır veya bazı hata aralıklarına göre daha azdır. Benzer şekilde, sınırlı
real'in min ve max özellikleri, süreç üreten özniteliklere özel sınırlardır.
Hesaplanan bir yüzde için bunlar 0-e ve 100+e olur, burada e bir hata değeridir. bu
ayrık özniteliğin aralığı, özniteliğin alabileceği olası değerlerin sayısıdır.
Bu aralık, bu tür değerler meydana geldiğinde bir değer olarak bilinmeyeni içermelidir.

Başlık Dosyası Örneği:

!#; AutoClass C başlık dosyası -- uzantı .hd2
!#; 1. sütundaki aşağıdaki karakterler satırı bir yorum yapar:
!#; '!', '#', ';', ' ' ve '\n' (boş satır)

;#! num_db2_format_defs
sayı_db2_format_defs 2
;; gereklidir
Number_of_attributes 7
;; isteğe bağlı - varsayılan değerler belirtildi
;; ayırıcı_char ' '
;; yorum_char ';'
;; bilinmeyen_belirteç '?'
ayırıcı_char ','

;;

0 kukla sıfır "Gerçek sınıf, aralık = 1 - 3"
1 gerçek konum "X konumu, m. 25.0 - 40.0 aralığında" hatası .25
2 gerçek konum "Y konumu, m. 0.5 - 0.7 aralığında" hata .05
3 gerçek skaler "Ağırlık, kg. 5.0 - 10.0" aralığında sıfır_nokta 0.0
rel_hata .001
4 ayrı nominal "Doğruluk değeri, aralık = 1 - 2" aralık 2
5 ayrı nominal "Foobar rengi, 10 değer" aralığı 10
6 ayrı nominal Spectral_color_group aralığı 6

MODEL DOSYA
Bir veri kümesinin sınıflandırılması, biçimini belirten bir modele göre yapılır.
o veri setindeki sınıflar için olasılık dağılım fonksiyonu. Normalde model
yapı, bir veya daha fazla model içeren bir model dosyasında ("model" dosya tipi) tanımlanır.
Dahili olarak, belirli bir veritabanına göre bir model tanımlanır. Böylece tanımlanır
karşılık gelen veritabanı, modelin model dosyası ve
dosyası.

Her model, bir veya daha fazla model grubu tanımlama çizgisiyle belirtilir. Her model grubu
line, öznitelik endekslerini bir model terim türü ile ilişkilendirir.

İşte örnek bir model dosyası:

# AutoClass C model dosyası -- uzantı .model
model_index 0 7
yoksay 0
tek_normal_cn 3
single_normal_cn 17 18 21
multi_normal_cn 1 2
multi_normal_cn 8 9 10
multi_normal_cn 11 12 13
single_multinomial varsayılanı

Burada ilk satır bir yorumdur. 1. sütundaki aşağıdaki karakterler satırı a yapar
yorum: `!', `#', ` ', `;' ve `\n' (boş satır).

"model_index" belirteçleri n m" ilk yorum yapılmayan satırda görünmeli ve
model terimi tanım satırları. n sıfır tabanlı model indeksidir, tipik olarak 0 olduğunda
yalnızca bir model -- arama durumlarının çoğu. m model terim sayısıdır
takip eden tanım satırları.

Son yedi satır, model grubu satırlarıdır. Her model grubu hattı şunlardan oluşur:

Bir model terim türü (bir tek_çok terimli, tek_normal_cm, tek_normal_cn,
multi_normal_cnya da aldırmamak).

Nitelik indekslerinin bir listesi (nitelik seti listesi) veya sembol varsayılan. Bağlanmak
endeksler sıfır tabanlıdır. Tek model terimleri, üzerinde bir veya daha fazla nitelik indeksine sahip olabilir.
her satırda, çoklu model terimleri satır başına iki veya daha fazla nitelik indeksi gerektirir. Bir
öznitelik dizini bir model listesinde birden fazla görünmemelidir.

Notlar:

1) En az bir model tanımı gereklidir (model_index belirteci).

2) Herhangi bir model terim türü için bir modelde birden çok giriş olabilir.

3) Model terim türleri şu anda şunlardan oluşmaktadır:

tek_çok terimli
ayrık öznitelikleri eksik değerlerle çok terimli olarak modeller.

tek_normal_cn
gerçek değerli nitelikleri normaller olarak modeller; eksik değer yok.

tek_normal_cm
gerçek değerli öznitelikleri eksik değerlerle modeller.

multi_normal_cn
kayıp değerleri olmayan bir kovaryant normal modeldir.

aldırmamak modelin bir veya daha fazla özelliği yok saymasına izin verir. aldırmamak geçerli değil
varsayılan model terim türü.

Belirli bir model hakkında daha fazla bilgi için models-c.text içindeki belgelere bakın.
terimleri.

4) Tek_normal_cn, tek_normal_cm, ve multi_normal_cn alt türü olan modellenmiş veriler
is sayısal (değer dağılımı 0.0'dan uzaktır ve bu nedenle "normal" değildir
dağılımı) loga dönüştürülecek ve log-normal model ile modellenecektir. İçin
alt türü olan veriler yer (değer dağılımı 0.0 civarındadır), dönüşüm yok
yapılır ve normal model kullanılır.

ARAMAK


AutoClass, "arama" modunda çağrıldığında veri kümesinin geçerliliğini kontrol eder,
başlık, model ve arama parametresi dosyaları. Hatalar, aramanın başlamasını durduracak ve
uyarılar kullanıcıya devam edip etmeyeceğini soracaktır. Hata ve uyarı geçmişi
mesajlar, varsayılan olarak günlük dosyasına kaydedilir.

Verilerinizi bir başlık dosyası ve model dosyası ile tanımlamayı başardığınızda,
AUTOCLASS -SEARCH <...> giriş kontrollerini geçer, arama alanına girmiş olursunuz
nerede Otomatik Sınıf verilerinizi sınıflandırır. (Sonunda!)

Verilerinizin iyi bir sınıflandırmasını bulmada kullanılacak ana işlev AUTOCLASS'tır.
-ARAMA ve onu kullanmak hesaplama zamanının çoğunu alacaktır. Aramalar şu şekilde çağrılır:

autoclass -search <.db2 dosya yolu> <.hd2 dosya yolu>
<.model dosya yolu> <.s-params dosya yolu>

Tüm dosyalar, tam olarak nitelenmiş göreli veya mutlak yol adları olarak belirtilmelidir. Dosya adı
uzantıları (dosya türleri), tüm dosyalar için gerekli olan kurallı değerlere zorlanır.
Otomatik Sınıf programı:

veri dosyası ("ascii") db2
veri dosyası ("ikili") db2-bin
başlık dosyası hd2
model dosya modeli
arama parametreleri dosyası s-params

Örnek çalıştırma (/usr/share/doc/otosınıf/örnekler/) ile gelen Otomatik Sınıf Bazı gösterir
örnek aramalar ve bunlara göz atmak, muhtemelen nasıl yapılacağını öğrenmenin en hızlı yoludur.
arama yapmak için. altında bulunan test veri setleri /usr/share/doc/otosınıf/örnekler/ irade
size başka bir başlık (.hd2), model (.model) ve arama parametreleri (.s-params) dosyası göster
kurulumlar. Bu bölümün geri kalanında, biraz daha fazla aramanın nasıl yapılacağı açıklanmaktadır.
detay.

The pim yüzlü Aşağıdaki belirteçler genellikle arama parametreleri dosya parametreleridir. Daha fazlası için
s-params dosyası hakkında bilgi, bkz. ARAMA PARAMETRELERİ aşağıda veya
/usr/share/doc/autoclass/search-c.text.gz.

NE SONUÇLAR ARE
Otomatik Sınıf bulabildiği en iyi veri sınıflandırmasını/sınıflandırmalarını arıyor. A
sınıflandırma oluşur:

1) her biri bir dizi sınıf parametresi tarafından tanımlanan bir dizi sınıf,
sınıfın çeşitli öznitelikler boyunca nasıl dağıtıldığını belirtin. Örneğin,
"ortalama 4.67 ft ve standart sapma 32 ft ile normal olarak dağılan yükseklik",

2) vakaların yüzde kaçının muhtemel olduğunu açıklayan bir dizi sınıf ağırlığı
her sınıf.

3) verilerdeki vakaların bu sınıflara olasılıksal olarak atanması. yani her biri için
durumda, her sınıfın bir üyesi olma nispi olasılığı.

Tam bir Bayes sistemi olarak (yedeğini kabul etmeyin!), kalite ölçüsü Otomatik Sınıf kullanım
verileriniz veya etki alanı hakkında hiçbir şey bilmiyor olsaydınız, toplam olasılıktır.
bu temel model tarafından oluşturulan bu veri kümesini bulmuş olurdu. Bu şunları içerir:
"dünyanın" bu sayıda sınıfı, bu
göreli sınıf ağırlıkları ve her sınıf için bu parametre seti ve
böyle bir sınıf kümesi,
veri durumları.

Bu olasılıklar tipik olarak çok küçüktür, e^-30000 aralığındadır ve bu nedenle genellikle
üstel gösterimle ifade edilir.

NE SONUÇLAR ORTALAMA
Tüm bu olasılıkların gerçek modele VERİLDİĞİNİ hatırlamak önemlidir.
model ailesinde Otomatik Sınıf ilgisini sınırlamıştır. Eğer Otomatik Sınıf is
Gauss sınıfları aranıyor ve gerçek sınıflar Poisson, o zaman gerçek şu ki
Otomatik Sınıf bulundu 5 Gauss sınıfı, orada kaç tane Poisson sınıfı olduğu hakkında pek bir şey söylemeyebilir
gerçekten.

Bulunan farklı sınıflandırmalar arasındaki nispi olasılık çok büyük olabilir, örneğin
e^1000, bu nedenle bulunan en iyi sınıflandırma genellikle ezici bir çoğunlukla
geri kalanı (ve henüz daha iyi sınıflandırmalardan çok daha az olasıdır)
keşfedilmemiş). Eğer Otomatik Sınıf içinde bulunan iki sınıflandırmayı bulmayı başarmalıdır.
birbirinizin yaklaşık exp(5-10) kadarı (yani 100 ila 10,000 kat daha olası) o zaman siz
Hesaplamamız genellikle daha fazla olmadığı için, onları yaklaşık olarak eşit derecede olası olarak düşünmeliyiz.
bundan daha doğru (ve bazen çok daha az).

NASIL IT İŞLERİ
Otomatik Sınıf art arda rastgele bir sınıflandırma oluşturur ve ardından bunu bir
bazı "yerel" değerlere yakınsayana kadar yerel değişikliklere rağmen yüksek olasılıklı sınıflandırma
maksimum". Daha sonra ne bulduğunu hatırlar ve yeniden başlar, siz gelene kadar devam eder.
durmasını söyle. Her çabaya "deneme" denir ve hesaplanan olasılık amaçlanır.
parametre uzayındaki tüm hacmi, sadece
zirve.

Masaj için standart yaklaşım,

1) Sınıf parametrelerini kullanarak vakaların olasılıksal sınıf üyeliklerini hesaplayın ve
ima edilen göreceli olasılıklar.

2) Yeni sınıf üyelerini kullanarak sınıf istatistiklerini (ortalama gibi) hesaplayın ve
sınıf parametreleri.

ve değişmeyi bırakana kadar tekrarlayın. Kullanılabilir üç yakınsama algoritması vardır:
"converge_search_3" (varsayılan), "converge_search_4" ve "converge". Onların
belirtim, arama parametreleri dosya parametresi tarafından kontrol edilir try_fn_type.

ZAMAN TO DUR
AUTOCLASS -SEARCH'a durmasını söyleyebilirsiniz: 1) maksimum_duration (saniye cinsinden) argüman
başlangıçta; 2) vermek maksimum_n_deneme (bir tamsayı) başlangıçtaki argüman; veya 3) tarafından
bir "q" yazarak ve Yeterince deneme gördükten sonra. bu maksimum_duration ve
maksimum_n_deneme AUTOCLASS -SEARCH'ı toplu modda çalıştırmak istiyorsanız, bağımsız değişkenler kullanışlıdır. Eğer
AUTOCLASS -SEARCH'ı önceki bir aramadan yeniden başlatıyorsunuz, değeri maksimum_n_deneme sen
sağlamak, örneğin 3, programa ek olarak 3 deneme daha hesaplamasını söyleyecektir.
ne kadar çok yapmışsa da. Aynı artımlı davranış aşağıdakiler tarafından sergilenir:
maksimum_duration.

Ne zaman duracağınıza karar vermek bir yargı kararıdır ve bu size kalmıştır. Arama içerdiğinden
rastgele bileşen, her zaman devam etmesine izin verirseniz onu bulma şansı vardır.
daha iyi bir şey. Bu yüzden, ne kadar uzun süre ile ne kadar daha iyi olabileceğini takas etmeniz gerekiyor.
bulmak için sürebilir. Yeni bir en iyi olduğunda yazdırılan arama durumu raporları
bulunan sınıflandırma, size bunu yapmanıza yardımcı olacak bilgiler sağlamayı amaçlamaktadır.
değiş tokuş.

Muhtemelen durmanız gerektiğinin açık bir işareti, bulunan sınıflandırmaların çoğunun
öncekilerin kopyaları (bulundukları gibi "dup" ile işaretlenir). Bu sadece olmalı
çok küçük veri kümeleri için veya iki gibi çok az sayıda sınıfı düzeltirken.

Deneyimlerimiz, orta derecede büyük ila aşırı büyük veri kümeleri için (~200 ila ~10,000 arası)
veri), çalıştırmak için gereklidir Otomatik Sınıf en az 50 deneme için.

NE ALIR İADE
Dönmeden hemen önce AUTOCLASS -SEARCH, en iyilerin kısa açıklamalarını verecektir.
sınıflandırmalar bulundu. Kaç tane anlatılacağı ile kontrol edilebilir. n_final_summary.

Varsayılan olarak AUTOCLASS -SEARCH, hem sonuna hem de sonuna bir dizi dosya yazacaktır.
arama sırasında periyodik olarak (sisteminizin bitmeden çökmesi durumunda). Bunlar
dosyaların tümü aynı ada sahip olacaktır (arama parametreleri yol adından alınmıştır [ .s-
params]) ve yalnızca dosya uzantılarında farklılık gösterir. Arama süreniz çok uzunsa ve
makinenizin çökme olasılığı vardır, ara "sonuçlar" alabilirsiniz
dosyalar yazıldı. Bunlar, arama çalıştırmanızı minimum kayıpla yeniden başlatmak için kullanılabilir.
arama çabası. Belge dosyasına bakın /usr/share/doc/autoclass/checkpoint-c.text.

Bir ".log" dosyası, işlem sırasında ekrana yazdırılanların çoğunun bir listesini tutacaktır.
sen ayarlamazsan koş log_file_p böyle bir aptallık istemediğini söylemek için yanlış yapmak. Meğer ki
sonuçlar_file_p false, bir ikili ".results-bin" dosyası (varsayılan) veya bir ASCII ".results"
metin dosyası, döndürülen en iyi sınıflandırmaları tutacaktır ve arama_dosyası_p
false ise, bir ".search" dosyası, arama denemelerinin kaydını tutacaktır. save_compact_p
"sonuç" dosyalarının ikili veya ASCII metni olarak kaydedilip kaydedilmediğini kontrol eder.

"G_safe_file_writing_p" C global değişkeni "autoclass-" içinde TRUE olarak tanımlanırsa
c/prog/globals.c", "sonuç" dosyalarının adları (kaydedilmiş dosyaları içerenler)
sınıflandırmalar) gereksiz dosya yazımı hesaba katmak için dahili olarak değiştirilir. Eğer
arama params dosya adı "my_saved_clsfs" ise aşağıdaki "sonuçlar" dosyasını göreceksiniz
isimler (bu örnek için dizinleri ve yol adlarını yok sayarak)

save_compact_p = doğru --
"my_saved_clsfs.results-bin" - tamamen yazılı dosya
"my_saved_clsfs.results-tmp-bin" - kısmen yazılmış dosya, yeniden adlandırıldı
tamamlandığında

save_compact_p = yanlış --
"my_saved_clsfs.results" - tamamen yazılı dosya
"my_saved_clsfs.results-tmp" - kısmen yazılmış dosya, yeniden adlandırıldı
tamamlandığında

İşaretleme yapılıyorsa, bu ek adlar görünecektir.

save_compact_p = doğru --
"my_saved_clsfs.chkpt-bin" - tamamen yazılı kontrol noktası dosyası
"my_saved_clsfs.chkpt-tmp-bin" - kısmen yazılmış kontrol noktası dosyası,
tamamlandığında yeniden adlandırıldı
save_compact_p = yanlış --
"my_saved_clsfs.chkpt" - tamamen yazılı kontrol noktası dosyası
"my_saved_clsfs.chkpt-tmp" - kısmen yazılmış kontrol noktası dosyası,
tamamlandığında yeniden adlandırıldı

NASIL TO GET BAŞLADI
AUTOCLASS -SEARCH işlevini çağırmanın yolu şudur:

autoclass -search <.db2 dosya yolu> <.hd2 dosya yolu>
<.model dosya yolu> <.s-params dosya yolu>

Önceki bir aramayı yeniden başlatmak için şunu belirtin: force_new_search_p içinde false değeri var
arama params dosyası, çünkü varsayılanı doğrudur. false belirtmek, AUTOCLASS -SEARCH'ı bildirir
önceki uyumlu bir aramayı (<...>.results[-bin] & <...>.search) bulmaya çalışmak için
devam edin ve bulunursa onu kullanmaya yeniden başlar. Bunun yerine yeni bir aramayı zorlamak için
eskisini yeniden başlatmak, parametreyi vermek force_new_search_p true değerini kullanın veya
varsayılan. Mevcut bir arama varsa (<...>.results[-bin] & <...>.search), kullanıcı
Devam, mevcut aramayı iptal edeceğinden, devam etmeyi onaylaması istenecektir.

Bir önceki aramaya devam edilirse, bunun yerine "ARAMA YENİDEN BAŞLIYOR" mesajı verilir.
olağan "BAŞLANGIÇ ARAMA". Bir önceki aramaya devam etmek genellikle daha iyidir
önemli ölçüde farklı bir arama yöntemi denemiyorsanız, yeni bir tane başlatmaktan daha
hangi durum istatistikleri önceki aramadan mevcut olanı yanlış yönlendirebilir.

DURUMU RAPORLAR
Aramayla ilgili çalışan bir yorum ekrana ve günlük dosyasına yazdırılacaktır.
(sürece log_file_p yanlış). ".log" dosyasının hepsinin bir listesini içereceğini unutmayın.
varsayılan arama params değerleri ve geçersiz kılınan tüm params değerleri.

Her denemeden sonra çok kısa bir rapor (sadece birkaç karakter uzunluğunda) verilir. her yeniden sonra
en iyi sınıflandırma, daha uzun bir rapor verilir, ancak daha sık değil min_report_period
(varsayılan 30 saniyedir).

ARAMA DEĞİŞİMLER
AUTOCLASS -SEARCH varsayılan olarak belirli bir standart arama yöntemini veya "dene işlevini" kullanır
(try_fn_type = "converge_search_3"). Diğer iki tane daha mevcuttur: "converge_search_4"
ve "yakınsama"). Sorununuzun fayda sağlayabilecek bir sorun olması durumunda sağlanırlar.
onlardan. Genel olarak varsayılan yöntem, daha iyi sınıflandırmaların bulunmasıyla sonuçlanacaktır.
daha uzun bir arama süresinin maliyeti. Varsayılan, sağlam olması için seçildi,
birçok problemde bile performans. Varsayılanın alternatifleri daha iyisini yapabilir
bazı sorunlar, ancak diğerlerinde önemli ölçüde daha kötü olabilir.

"converge_search_3" mutlak bir durdurma kriteri kullanır (rel_delta_aralığı, varsayılan değeri
0.0025) günlük yaklaşık deltasının her bir sınıfının varyasyonunu test eder.
sınıf hipotezine göre sınıf istatistiklerinin marjinal olasılığı
(class->log_a_w_s_h_j) ardışık arasındaki sınıf ağırlığına (class->w_j) bölünür.
yakınsama döngüleri. Bu değerin arttırılması yakınsamayı gevşetir ve sayıyı azaltır.
döngüler. Bu değerin düşürülmesi yakınsama sıkılaştırır ve sayıyı artırır.
çevrimleri. n_ortalama (varsayılan değer 3), ardışık kaç çevrimin aşağıdakileri karşılaması gerektiğini belirtir.
Durdurma kriteri deneme sona ermeden önce.

"converge_search_4" mutlak bir durdurma kriteri kullanır (cs4_delta_aralığı, varsayılan değeri
0.0025), her bir log sınıfı için eğimin her bir sınıfının varyasyonunu test eder.
sınıf istatistiklerinin sınıfa göre yaklaşık-marjinal-olasılığı
hipotez (class->log_a_w_s_h_j) bölü sınıf ağırlığı (class->w_j)
sigma_beta_n_değerleri (varsayılan değer 6) yakınsama döngüleri. değerini artırmak
cs4_delta_aralığı yakınsamayı gevşetir ve döngü sayısını azaltır. Bunu azaltmak
değeri yakınsamayı sıkılaştırır ve döngü sayısını artırır. Hesaplamalı olarak, bu
try işlevi "converge_search_3" işlevinden daha pahalıdır, ancak aşağıdaki durumlarda yararlı olabilir:
hesaplamalı "gürültü", hesaplanan değerlerdeki değişimlere kıyasla önemlidir.
Anahtar hesaplamalar, çift duyarlıklı kayan noktada ve en büyük veriler için yapılır.
Şimdiye kadar test ettiğimiz temel (5,420 özellikten 93 vaka), hesaplama gürültüsü
değeri olmasına rağmen bir sorun olmuştur. max_cycles 400'e çıkarılması gerekiyor.

"yakınsama", değişkenin varyasyonunu test eden iki mutlak durdurma kriterinden birini kullanır.
ardışık yakınsama arasındaki sınıflandırma (clsf) log_marginal (clsf->log_a_x_h) delta
döngüler. en büyüğü durma_aralığı (varsayılan değer 0.5) ve durma faktörü *
current_clsf_log_marginal) kullanılır (varsayılan değeri durma faktörü 0.0001'dir). Artan
bu değerler yakınsamayı gevşetir ve döngü sayısını azaltır. Bunları azaltmak
değerler yakınsamayı sıkılaştırır ve döngü sayısını artırır. n_ortalama (varsayılan
3) değeri, denemeden önce kaç döngünün durdurma kriterlerini karşılaması gerektiğini belirtir
sona erer. Bu çok yaklaşık bir durdurma kriteridir, ancak size biraz fikir verecektir.
Beklenebilecek sınıflandırma türleri için. "Keşif amaçlı" aramalar için yararlı olacaktır
bir veri tabanı.

Amacı yeniden birleştirme_türü = "chkpt", kesintiye uğramış bir sınıflandırmayı şu şekilde tamamlamaktır:
son kontrol noktasından devam ediyor. Amacı yeniden birleştirme_türü = "sonuçlar"
farklı bir değer kullanarak en iyi tamamlanmış sınıflandırmayı daha da iyileştirmeye çalışın.
try_fn_type ("converge_search_3", "converge_search_4", "converge"). Eğer maksimum_n_deneme is
1'den büyükse, her durumda, yakınsama tamamlandıktan sonra, Otomatik Sınıf irade
<...>.s-params dosyasındaki parametre değerlerine dayalı olarak daha fazla arama denemesi gerçekleştirin.

Kullanımı ile yeniden birleştirme_türü (varsayılan değer ""), birden fazla deneme uygulayabilirsiniz
bir sınıflandırma işlevi görür. kullanarak birkaç keşif denemesi oluşturduğunuzu varsayalım.
try_fn_type = "converge" ve .search ve .results[-bin] dosyalarını kaydederek aramadan çıkın.
Daha sonra ile başka bir aramaya başlayabilirsiniz. try_fn_type = "converge_search_3", yeniden birleştirme_türü
= "sonuçlar" ve maksimum_n_deneme = 1. Bu, en iyinin daha fazla yakınsaması ile sonuçlanacaktır.
ile oluşturulan sınıflandırma try_fn_type = "yakınsama", ile try_fn_type =
"converge_search_3". Ne zaman Otomatik Sınıf bu arama denemesini tamamlarsanız, bir
ek rafine sınıflandırma.

Alternatiflerden herhangi birinin olduğunu doğrulamanın iyi bir yolu try_fun_type bir kuyu oluşturuyorlar
yakınsanmış sınıflandırma çalıştırmaktır Otomatik Sınıf için kullanılan aynı veriler üzerinde tahmin modunda
sınıflandırmayı oluşturur. Ardından ilgili durumu veya sınıfı oluşturun ve karşılaştırın
Orijinal sınıflandırma ve tahmin için çapraz referans dosyaları. Küçük
bu dosyalar arasındaki farklar beklenirken, büyük farklar
eksik yakınsama Bu tür dosya çiftleri arasındaki farklar, ortalama olarak ve modulo olmalıdır.
sınıf silmeleri, daha fazla yakınsama ile monoton olarak azalır.

Denemeye başlamak için rastgele bir sınıflandırma oluşturmanın standart yolu, varsayılan
için "rastgele" değeri start_fn_type. Bu noktada alternatif yok. belirtme
için "blok" start_fn_type tekrarlanabilir rastgele olmayan aramalar üretir. işte böyle
autoclass-c/data/.. alt dizinlerindeki <..>.s-params dosyaları belirtilir. Bu nasıl
geliştirme testleri yapılır.

max_cycles herhangi bir durumda gerçekleştirilecek olan maksimum yakınsama çevrimi sayısını kontrol eder.
yakınsama fonksiyonları tarafından bir deneme. Varsayılan değeri 200'dür. Ekran çıktısı
tamamlanan her döngü için bir nokta (".") gösterir. Arama denemeleriniz 200 döngü için çalışıyorsa,
o zaman ya veri tabanınız çok karmaşık (değeri artırın) ya da try_fn_type değil
durum için yeterli (mevcut olanlardan başka birini deneyin ve yakınsama_baskı_p almak
neler olduğu hakkında daha fazla bilgi).

Belirtme yakınsama_baskı_p doğru olmak, her döngü için kısa bir çıktı üretecektir
varsayılan değerlerini değiştirebilmeniz için bilgi sağlayacaktır.
rel_delta_aralığı & n_ortalama "converge_search_3" için; cs4_delta_aralığı & sigma_beta_n_değerleri
"converge_search_4" için; ve durma_aralığı, durma faktörü, ve n_ortalama "yakınsama" için. Onların
varsayılan değerler, autoclass-c/data/.. alt kısmındaki <..>.s-params dosyalarında verilir.
dizinleri.

NASIL bİRÇOK SINIFLAR?
Her yeni deneme belirli sayıda dersle başlar ve daha az sayıda dersle sonuçlanabilir.
çünkü bazı sınıflar yakınsamadan çıkabilir. Genel olarak, denemeye başlamak istersiniz
önceki denemelerin gösterdiği bazı sınıflar umut verici görünüyor ve siz
Daha önce bir şeyi kaçırmış olmanız ihtimaline karşı başka bir yerde balık tuttuğunuzdan emin olmak istersiniz.

n_classes_fn_type = "random_ln_normal", bu seçimi yapmanın varsayılan yoludur. Bir
en iyi 10 sınıfın (genellikle kısaca "j" olarak adlandırılır) sayısına normal olarak giriş yapın
şimdiye kadar bulunan sınıflandırmalar ve bunlardan rastgele seçer. şu anda yok
alternatif.

Oyunu başlatmak için varsayılan ayar aşağı gitmektir. başlangıç_j_listesi ilk birkaç deneme için ve
sonra geçiş yap n_classes_fn_type. Muhtemel sınıf sayısının olduğuna inanıyorsanız
veri tabanınız 75 diyor, ardından varsayılan değerini kullanmak yerine başlangıç_j_listesi (2, 3,
5, 7, 10, 15, 25), 50, 60, 70, 80, 90, 100 gibi bir şey belirtin.

Diyelim ki, her zaman üç sınıf aramak istiyorsa, kullanabilirsiniz. sabit_j ve geçersiz kıl
üstünde. Arama durumu raporları, j'yi seçmek için geçerli yöntemin ne olduğunu açıklayacaktır.

DO I VAR YETER BELLEK VE DİSK UZAY?
Dahili olarak, mevcut sistemdeki depolama gereksinimleri n_classes_per_clsf düzeyindedir.
* (n_data + n_stored_clsfs * n_attributes * n_attribute_values). Bu, aşağıdakilere bağlıdır:
durum sayısı, öznitelik sayısı, öznitelik başına değerler (gerçek ise 2 kullanın)
değer) ve diğerlerinin olup olmadığını görmek için karşılaştırma için saklanan sınıflandırmaların sayısı
kopyalar -- tarafından kontrol edilir max_n_store (varsayılan değer = 10). Arama işlemi değil
kendisi önemli miktarda bellek tüketir, ancak sonuçların depolanması bunu yapabilir.

Otomatik Sınıf C maksimum 999 özniteliği işleyecek şekilde yapılandırılmıştır. çalıştırmayı denersen
bundan daha fazlasıyla diziye bağlı ihlaller alırsınız. Bu durumda, bunları değiştirin
prog/autoclass.h içindeki yapılandırma parametreleri ve yeniden derleme Otomatik Sınıf C:

#tanımla ALL_ATTRIBUTES 999
#define ÇOK_LONG_STRING_LENGTH 20000
#tanımla VERY_LONG_TOKEN_LENGTH 500

Örneğin, bu değerler birkaç bin özelliği işleyecektir:

#tanımla ALL_ATTRIBUTES 9999
#define ÇOK_LONG_STRING_LENGTH 50000
#tanımla VERY_LONG_TOKEN_LENGTH 50000

"Günlük" dosyasının kapladığı disk alanı elbette aramanın süresine bağlı olacaktır.
n_save (varsayılan değer = 2) en iyi kaç sınıflandırmanın kaydedildiğini belirler.
".results[-bin]" dosyası. save_compact_p "sonuçların" ve "kontrol noktasının" olup olmadığını kontrol eder
dosyalar ikili olarak kaydedilir. İkili dosyalar daha hızlı ve daha kompakttır, ancak
taşınabilir. varsayılan değeri save_compact_p true, bu da ikili dosyaların
yazılı.

"Sonuç" dosyalarını kaydetmek için geçen süre bir sorunsa,
min_save_period (varsayılan değer = 1800 saniye veya 30 dakika). Dosyalar diske kaydedilir
bu genellikle rapor edilecek farklı bir şey varsa.

SADECE NASIL SLOW IS O?
Hesaplama zamanı şu şekildedir n_data * n_attributes * n_classes * n_tries *
converge_cycles_per_try. Bu konudaki en büyük belirsizlikler, temel sırt ve
her denemede yakınsamaya kadar ileri döngüler ve tabii ki deneme sayısı. Numara
deneme başına döngü sayısı genellikle 10-100'dür. try_fn_type "yakınsama" ve 10-200+ için
"converge_search_3" ve "converge_search-4". Maksimum sayı ile belirtilir
maksimum_n_deneme (varsayılan değer = 200). Deneme sayısı size ve müsaitliğinize bağlıdır.
bilgi işlem kaynakları.

Çok büyük veri setlerinin çalışma süresi oldukça belirsiz olacaktır. tavsiye ediyoruz, birkaç
Bir temel belirlemek için sisteminizde küçük ölçekli test çalışmaları yapılır. belirtmek n_veri için
kaç veri vektörünün okunacağını sınırlayın. Çok büyük miktarda veri verildiğinde, Otomatik Sınıf Mayıs ayı
en olası sınıflandırmalarını yüzden fazla sınıfta bulur ve bu
gerektir başlangıç_j_listesi uygun şekilde belirtilmelidir (yukarıdaki bölüme bakın NASIL bİRÇOK
SINIFLAR?). Yalnızca birkaç ders istediğinizden oldukça eminseniz, zorlayabilirsiniz.
Otomatik Sınıf tarafından belirtilen sabit sayıda sınıfla arama yapmak için sabit_j. o zaman yapacaksın
her farklı sabit sayıda sınıfla ayrı aramalar yapmanız gerekir.

DEĞİŞTİRME DOSYA ADLARI IN A KAYDEDİLDİ SINIFLANDIRMA DOSYA
Otomatik Sınıf kaydedilen sınıflandırmadaki verileri, başlığı ve model dosya yol adlarını önbelleğe alır
ikili (".results-bin") veya ASCII (".results") "sonuç" dosyalarının yapısı. Eğer
"sonuçlar" ve "arama" dosyaları farklı bir dizin konumuna taşınır, arama
mutlak yol adları kullandıysanız başarıyla yeniden başlatılamaz. Böylece
invoke çalıştırmak için avantajlı Otomatik Sınıf veri, başlık ve modelin bir üst dizininde
dosyalar, böylece göreli yol adları kullanılabilir. Önbelleğe alınan yol adları daha sonra
göreli olarak, dosyalar farklı bir ana bilgisayara veya dosya sistemine taşınabilir ve yeniden başlatılabilir --
aynı göreli yol adı hiyerarşisinin sağlanması mevcuttur.

Ancak, ".results" dosyası ASCII metni olduğundan, bu yol adları bir
Metin düzeltici (save_compact_p false olarak belirtilmelidir).

ARAMA PARAMETRELERİ
Arama, ".s-params" dosyası tarafından kontrol edilir. Bu dosyada boş bir satır veya bir satır
şu karakterlerden biriyle başlayan bir yorum olarak kabul edilir: "#", "!" veya ";". bu
parametre adı ve değeri eşittir işareti, boşluk veya sekme ile ayrılabilir:

n_clsfs 1
n_clsfs = 1
n_clsfs 1

"=" veya " ise boşluklar yok sayılır " ayırıcı olarak kullanılır. Sonda olmadığına dikkat edin
noktalı virgül.

Arama parametreleri, varsayılan değerleriyle aşağıdaki gibidir:

rel_error = 0.01
olup olmadığına karar verirken clsf-DS-%= tarafından kullanılan göreli fark ölçüsünü belirtir.
yeni clsf, eskisinin bir kopyasıdır.

başlangıç_j_listesi = 2, 3, 5, 7, 10, 15, 25
Aramayı çok hızlı daraltmamak için başlangıçta bu sınıf sayılarını deneyin.
Bu listenin durumu <..>.search dosyasına kaydedilir ve yeniden başlatmalarda kullanılır,
geçersiz kılma belirtimi olmadıkça başlangıç_j_listesi için .s-params dosyasında yapılır
yeniden başlatma çalıştırması. Bu liste, beklenen sınıf sayınızı ve
geniş bir marj! "start_j_list = -999" boş bir liste belirtir (yalnızca
yeniden başlar)

n_classes_fn_type = "random_ln_normal"
bir Zamanlar başlangıç_j_listesi Bitkin, Otomatik Sınıf nasıl olacağına karar vermek için bu işlevi çağıracak
En iyi 10 sınıflandırmaya göre bir sonraki denemede başlamak için birçok sınıf
şimdiye kadar bulundu. Şu anda yalnızca "random_ln_normal" mevcuttur.

sabit_j = 0
Ne zaman sabit_j > 0, geçersiz kılar başlangıç_j_listesi ve n_classes_fn_type, ve Otomatik Sınıf irade
her zaman ilk sınıf sayısı için bu değeri kullanın.

min_report_period = 30
Son rapordan bu yana en azından bu sefer (saniye olarak) ayrıntılı raporlama yapana kadar bekleyin
yine. Kontrol edilirken beklenen çalışma süresinden daha uzun ayarlanmalıdır.
sonuçların tekrarlanabilirliği. Tekrarlanabilir sonuçlar için ayrıca bkz. force_new_search_p,
start_fn_type ve random_random_p. NOT: "interactive_p"den en az biri,
"max_duration" ve "max_n_tries" etkin olmalıdır. Aksi halde Otomatik Sınıf koşacak
süresiz olarak. Aşağıya bakınız.

etkileşimli_p = True
false olduğunda, aksi halde durdurulana kadar çalıştırmanın devam etmesine izin verir. Doğru olduğunda, standart
giriş, algılandığında, çıkış karakteri "q" için her döngüde sorgulanır.
anında durmayı tetikler.

maksimum_duration = 0
= 0 olduğunda, aksi halde durdurulana kadar çalıştırmanın devam etmesine izin verir. > 0 olduğunda,
çalıştırmak için maksimum saniye sayısı.

maksimum_n_deneme = 0
= 0 olduğunda, aksi halde durdurulana kadar çalıştırmanın devam etmesine izin verir. > 0 olduğunda,
maksimum deneme sayısı.

n_save = 2
Bu kadar çok clsf'yi .results[-bin] ve .search dosyalarında diske kaydedin. 0 ise, yapma
herhangi bir şeyi kaydedin (.search & .results[-bin] dosyası yok).

log_file_p = True
Yanlış ise, bir günlük dosyası yazmayın.

arama_dosyası_p = True
Yanlış ise, bir arama dosyası yazmayın.

sonuçlar_file_p = True
Yanlışsa, bir sonuç dosyası yazmayın.

min_save_period = 1800
CPU çökme koruması. Bu, saniye cinsinden maksimum süreyi belirtir. Otomatik Sınıf
mevcut sonuçları diske kaydetmeden önce çalışacaktır. Varsayılan süre 30
dakika.

max_n_store = 10
Dahili olarak depolanan maksimum sınıflandırma sayısını belirtir.

n_final_summary = 10
Arama bittikten sonra yazdırılacak deneme sayısını belirtir.

start_fn_type = "rastgele"
{"rastgele", "blok"} öğelerinden biri. Bu, sınıf başlatmanın türünü belirtir. İçin
normal arama, ilk sınıf olarak örnekleri rastgele seçen "rastgele" kullanın
anlamına gelir ve uygun varyansları ekler. Tekrarlanabilir arama ile test etmek için şunu kullanın:
Veritabanını neredeyse eşit büyüklükte ardışık bloklara bölen "blok".
Tekrarlanabilir sonuçlar için ayrıca bkz. force_new_search_p, min_report_period, ve
random_random_p.

try_fn_type = "converge_search_3"
{"converge_search_3", "converge_search_4", "converge"} seçeneklerinden biri. Bunlar belirtmek
alternatif arama durdurma kriterleri. "yakınsama" yalnızca değişim oranını test eder.
log_marginal sınıflandırma olasılığı (clsf->log_a_x_h), kontrol etmeden
bireysel sınıfların değişim oranı (bkz. durma_aralığı ve durma faktörü).
"converge_search_3" ve "converge_search_4" her biri oranı izler
tüm sınıflar için class->log_a_w_s_h_j/class->w_j ve tüm sınıflar için yakınsamaya devam edin
sessizlik kriterlerini geçmek n_ortalama döngüler. "converge_search_3" testleri
ardışık yakınsama döngüleri arasındaki farklar (bkz. rel_delta_aralığı). Bu
makul, genel amaçlı bir durdurma kriteri sağlar. "converge_search_4"
"sigma_beta_n_values" döngüleri üzerinden oranın ortalamasını alır (bkz. cs4_delta_aralığı). Bu
converge_search_3 birçok benzer sınıf ürettiğinde tercih edilir.

ilk_döngüler_p = True
Doğruysa, initialize_parameters içinde base_cycle gerçekleştirin. yanlış sadece için kullanılır
test.

save_compact_p = True
true, sınıflandırmaları makineye bağlı ikili (.results-bin & .chkpt-bin) olarak kaydeder.
false ascii metin olarak kaydeder (.results & .chkpt)

read_compact_p = True
true, sınıflandırmaları makineye bağlı ikili (.results-bin & .chkpt-bin) olarak okur.
false ascii metin olarak okur (.results & .chkpt).

random_random_p = True
yanlış tohumlar lrand48, tekrarlanabilir vermek için 1 ile sözde rasgele sayı işlevi
test vakaları. true, tohum olarak evrensel zaman saatini kullanır ve yarı rasgele verir
arar. Tekrarlanabilir sonuçlar için ayrıca bkz. force_new_search_p, min_report_period
ve start_fn_type.

n_veri = 0
n_data = 0 ile tüm veritabanı .db2'den okunur. n_data > 0 ile yalnızca bu
sayıda veri okunur.

durma_aralığı = 0.5
try_fn_type "yakınsamaya" iletildi. "converge" try_fn_type ile, yakınsama
halt_range ve (halt_factor * current_log_marginal) öğelerinden daha büyük olduğunda durdurulur
sınıflandırmanın ardışık döngü değerleri arasındaki farkı aşıyor
log_marginal (clsf->log_a_x_h). Bu değerin düşürülmesi yakınsamayı sıkılaştırabilir.
ve döngü sayısını artırın.

durma faktörü = 0.0001
try_fn_type "yakınsamaya" iletildi. "converge" try_fn_type ile, yakınsama
halt_range ve (halt_factor * current_log_marginal) öğelerinden daha büyük olduğunda durdurulur
sınıflandırmanın ardışık döngü değerleri arasındaki farkı aşıyor
log_marginal (clsf->log_a_x_h). Bu değerin düşürülmesi yakınsamayı sıkılaştırabilir.
ve döngü sayısını artırın.

rel_delta_aralığı = 0.0025
Yaklaşık günlük oranını izleyen "converge_search_3" işlevini denemek için geçildi.
sınıf hipotezine göre sınıf istatistiklerinin marjinal olasılığı
(class->log_a_w_s_h_j) her sınıf için sınıf ağırlığına (class->w_j) bölünür.
"converge_search_3", döngüler arasındaki fark, bunun
her sınıf için oran, "n_average" için "rel_delta_range" kadar aşıldı
döngüler. "rel_delta_range" değerini azaltmak yakınsamayı sıkılaştırır ve
döngü sayısı.

cs4_delta_aralığı = 0.0025
oranını izleyen "converge_search_4" işlevini denemek için geçildi.
(class->log_a_w_s_h_j)/(class->w_j), her sınıf için ortalama
"sigma_beta_n_values" yakınsama döngüleri. "converge_search_4" yakınsamayı durdurur
bu oranın ortalama değerlerindeki maksimum farkın altına düştüğünde
"cs4_delta_aralığı". "cs4_delta_range" değerini azaltmak yakınsamayı sıkılaştırır ve
döngü sayısını artırır.

n_ortalama = 3
"converge_search_3" ve "converge" işlevlerini denemek için başarılı oldu. döngü sayısı
Denemenin sona erdirilmesi için yakınsama kriterinin sağlanması gerekir.

sigma_beta_n_değerleri = 6
try_fn_type "converge_search_4"e iletildi. Kullanılacak geçmiş değerlerin sayısı
hesaplama sigma^2 (gürültü) ve beta^2 (sinyal).

max_cycles = 200
Bu, herhangi bir yakınsama için izin verilen maksimum döngü sayısıdır.
sınıflandırma, diğer durdurma kriterlerinden bağımsız olarak. Bu çok bağımlı
veritabanınıza ve model ve yakınsama parametrelerinin seçimine bağlıdır, ancak
ekran dökümü ve .log dosyasında bildirilen ortalama döngü sayısının yaklaşık iki katı

yakınsama_baskı_p = yanlış
Doğruysa, seçilen deneme işlevi, ekranda yararlı olan değerleri yazdıracaktır.
için varsayılan olmayan değerlerin belirtilmesi durma_aralığı, durma faktörü, rel_delta_aralığı,
n_ortalama, sigma_beta_n_değerleri, ve aralık_faktörü.

force_new_search_p = True
Doğruysa, mevcut .search'ü atarak önceki arama sonuçlarını yok sayar
ve kullanıcı tarafından onaylandıktan sonra .results[-bin] dosyaları; yanlışsa devam edecek
mevcut .search ve .results[-bin] dosyalarını kullanarak arama. tekrarlanabilir için
sonuçlar, ayrıca bkz. min_report_period, start_fn_type ve random_random_p.

kontrol noktası_p = yanlış
Doğruysa, mevcut sınıflandırmanın kontrol noktaları her seferinde yazılacaktır.
"min_checkpoint_period" saniye, dosya uzantısı .chkpt[-bin]. Bu sadece
çok büyük sınıflandırmalar için kullanışlıdır

min_checkpoint_period = 10800
checkpoint_p = true ise, kontrol noktası sınıflandırması bu sıklıkta yazılır
- saniye cinsinden (varsayılan = 3 saat)

yeniden birleştirme_türü = "
"chkpt" veya "sonuçlar" olabilir. "checkpoint_p" = true ve "reconverge_type" ise
= "chkpt", ardından içerdiği sınıflandırmanın yakınsamasına devam edin
<...>.chkpt[-bin]. "checkpoint_p" = false ve "reconverge_type" = "results" ise,
<...>.results[-bin] içinde yer alan en iyi sınıflandırmanın yakınsamasına devam edin.

ekran_çıktı_p = True
False ise ekrana çıkış yönlendirilmez. log_file_p = true olduğunu varsayarsak, çıktı
yalnızca günlük dosyasına yönlendirilecektir.

break_on_warnings_p = True
Varsayılan değer, veri tanımı yapıldığında kullanıcıya devam edip etmeyeceğini sorar.
uyarılar bulunur. false olarak belirtilirse, o zaman Otomatik Sınıf rağmen devam edecek
uyarılar -- uyarı terminale ve günlüğe gönderilmeye devam edecek
dosyası.

ücretsiz_storage_p = True
Varsayılan değer söyler Otomatik Sınıf ayrılmış depolama alanının çoğunu boşaltmak için.
Bu gerekli değildir ve DEC Alpha durumunda çekirdek dökümüne neden olur [bu
Hala gerçek?]. false olarak belirtilirse, Otomatik Sınıf depolama alanını boşaltmaya çalışmaz.

NASIL TO GET OTOCLASS C TO ÜRETMEK TEKRARLANABİLİR SONUÇLAR
Bazı durumlarda, tekrarlanabilir sınıflandırmalar gereklidir: temel karşılaştırma Otomatik Sınıf C
farklı platformlarda bütünlük, taşıma Otomatik Sınıf C yeni bir platforma vb.
bu iki şeyi başarmak gereklidir: 1) aynı rasgele sayı üreteci
kullanılmış ve 2) arama parametreleri uygun şekilde belirtilmelidir.

Rastgele numara üreticisi. Bu uygulama Otomatik Sınıf C Unix srand48/lrand48'i kullanır
iyi bilinen doğrusal yöntemi kullanarak sözde rasgele sayılar üreten rasgele sayı üreteci
uyumlu algoritma ve 48 bit tamsayı aritmetiği. lrand48() negatif olmayan değeri döndürür
[0, 2**31] aralığı boyunca düzgün dağılmış uzun tamsayılar.

Arama Parametreleri. Aşağıdaki .s-params dosya parametreleri belirtilmelidir:

force_new_search_p = doğru
start_fn_type "blok"
randomize_random_p = yanlış
;; çalıştırmak istediğiniz deneme sayısını belirtin
maks_n_tries = 50
;; çalıştırma süresinden daha büyük bir süre belirtin
min_report_period = 30000

Mevcut en iyi sınıflandırma raporlarının üretilmeyeceğini unutmayın. sadece bir final
sınıflandırma özeti çıkarılacaktır.

KONTROL NOKTASI


Çok büyük veritabanlarında, herhangi bir işlem sırasında önemli bir sistem çökmesi olasılığı vardır.
bir sınıflandırma denemesi. Bu gibi durumlarda zaman ayırmanız tavsiye edilir.
olası yeniden başlatma için hesaplamaları kontrol edin.

Kontrol noktası, " belirtilerek başlatılır.kontrol noktası_p = true" ".s-params" dosyasında.
Bu, sınıflandırmanın bir kopyasını sisteme kaydetmek için iç yakınsama adımına neden olur.
kontrol noktası dosyası, sınıflandırma her güncellendiğinde belirli bir süre sağlar.
zaman geçti. Dosya uzantısı ".chkpt[-bin]" şeklindedir.

Bir AutoClass bir döngüyü her tamamladığında, bir "." size sağlamak için ekrana çıktı
ayarlanmasında kullanılacak bilgiler min_checkpoint_period değer (varsayılan 10800 saniye
veya 3 saat). Açıkça kontrol noktası sıklığı ile kontrol noktası arasında bir değiş tokuş vardır.
kontrol noktasının tekrar tekrar yazılması nedeniyle makinenizin çökme olasılığı
dosya arama işlemini yavaşlatır.

Otomatik Sınıf Aramayı Yeniden Başlatma:

Yeniden başlatıp yeniden yükledikten sonra sınıflandırmayı kurtarmak ve aramaya devam etmek için
OtomatikSınıf, belirtin yeniden birleştirme_türü = ".s-params" dosyasındaki "chkpt" (belirtiniz
force_new_search_p yanlış olarak).

AutoClass, uygun veri tabanını ve modelleri yeniden yükleyecektir,
kontrol noktası için yüklendikleri andan itibaren dosya adlarında değişiklik
sınıflandırma çalışması ".s-params" dosyası, varsayılan olmayan bağımsız değişkenleri içerir.
orijinal aramaya verilir.

Bir aramanın başlangıcında, daha önce başlangıç_j_listesi boşaltıldı, gerekli olacak
orijinal listeyi, kilitlenen aramada kalanlara göre kırpmak için. Bu olabilir
hangi değerlerin kullanıldığını belirlemek için ".log" dosyasına bakılarak belirlenir. Eğer
the başlangıç_j_listesi boşaltıldı, sonra boş başlangıç_j_listesi içinde belirtilmelidir
".s-params" dosyası. Bu, ya tarafından yapılır

başlangıç_j_listesi =

or

başlangıç_j_listesi = -9999

Kontrol işaretini göstermek için bir dizi komut dosyası:

autoclass -arama verileri/glass/glassc.db2 data/glass/glass-3c.hd2 \
data/glass/glass-mnc.model data/glass/glassc-chkpt.s-params

1) çalıştırın
## glassc-chkpt.s-paramları
maks_n_tries = 2
force_new_search_p = doğru
## --------------------
;; tamamlamak için koş

2) çalıştırın
## glassc-chkpt.s-paramları
force_new_search_p = yanlış
maks_n_tries = 10
checkpoint_p = doğru
min_checkpoint_period = 2
## --------------------
;; 1 kontrol noktasından sonra, cpu çökmesini simüle etmek için ctrl-C

3) çalıştırın
## glassc-chkpt.s-paramları
force_new_search_p = yanlış
maks_n_tries = 1
checkpoint_p = doğru
min_checkpoint_period = 1
reconverge_type = "chkpt"
## --------------------
;; kontrol noktası denemesi bitmeli

ÇIKTI DOSYALAR


Standart raporlar,

1) Nitelik etki değerleri:
datanın hem global (tüm sınıfların ortalaması alınır) hem de yerel olarak öznitelikleri
(özellikle her sınıf için). Göreceli sınıf gücü için bir buluşsal yöntem de
listelenmiş;

2) Durum (veri) numarasına göre çapraz referans: için birincil sınıf olasılığını listeler
her veri, vaka numarasına göre sıralanır. Report_mode = "veri" olduğunda, ek daha az
sınıf olasılıkları (0.001'den büyük veya buna eşit) her bir veri için listelenir;

3) Sınıf numarasına göre çapraz referans: her sınıf için birincil sınıf olasılığı ve
her biri için daha düşük sınıf olasılıkları (0.001'den büyük veya buna eşit) listelenir
vaka numarasına göre sıralanmış sınıftaki veri. Her biri için listelemek de mümkündür.
datum, seçtiğiniz niteliklerin değerleri.

Nitelik etki değerleri raporu, aşağıdakilerin göreceli ölçümlerini sağlamaya çalışır:
Sınıflandırma tarafından bulunan sınıflar üzerindeki veri niteliklerinin "etkisi". bu
normalleştirilmiş sınıf güçleri, normalleştirilmiş öznitelik, tümü üzerinde toplanan değerleri etkiler.
sınıflar ve bireysel etki değerlerinin (I[jkl]) tümü yalnızca göreceli ölçülerdir ve
sıralamadan daha fazla anlamla yorumlanmalı, ancak hiçbir şeye benzememeli
mutlak değerlere yaklaşıyor.

Raporlar, adları ve yol adları ".r-params" dosyasından alınan dosyalara gönderilir.
dosya yolu adı. Rapor dosya türleri (uzantıları) şunlardır:

etkilemek değerlerimiz rapor
"influ-o-text-n" veya "metin yok-n"

çapraz referans by dava
"vaka-metin-n"

çapraz referans by sınıf
"sınıf-metin-n"

veya, rapor_modu "veri" olarak geçersiz kılınmışsa:

etkilemek değerlerimiz rapor
"influ-o-veri-n" veya "verileri etkilemez-n"

çapraz referans by dava
"vaka-veri-n"

çapraz referans by sınıf
"sınıf-veri-n"

nerede n "sonuçlar" dosyasındaki sınıflandırma numarasıdır. ilk veya en iyisi
sınıflandırma 1, sonraki en iyi 2 vb. olarak numaralandırılmıştır. Varsayılan, raporlar oluşturmaktır
sadece "sonuçlar" dosyasındaki en iyi sınıflandırma için. Diğerleri için raporlar üretebilirsiniz.
rapor parametreleri anahtar kelimeleri kullanılarak kaydedilen sınıflandırmalar n_clsfs ve clsf_n_list.
"influ-o-text-n" dosya türü varsayılandır (order_attributes_by_influence_p = doğru) ve
her sınıfın niteliklerini, nitelik etki değerinin azalan düzeninde listeler. Eğer
değeri order_attributes_by_influence_p <...>.r-params içinde false olarak geçersiz kılınır
dosyası, daha sonra her sınıfın nitelikleri, nitelik numarasına göre artan sırada listelenecektir.
Oluşturulan dosyanın uzantısı "influ-no-text-" olacaktır.n". Bu listeleme yöntemi
sınıflar arasında öznitelik değerlerinin görsel karşılaştırmasını kolaylaştırır.

Örneğin, bu komut:

autoclass - örnek/ithalat-85c.results-bin'i raporlar
sample/imports-85c.search sample/imports-85c.r-params

".r-params" dosyasındaki bu satırla:

xref_class_report_att_list = 2, 5, 6

bu çıktı dosyalarını üretecektir:

import-85.influ-o-text-1
import-85.case-text-1
içe aktarılan-85.class-text-1

The Otomatik Sınıf C raporlar için sigma sınıfı kontur değerlerini hesaplama yeteneği sağlar
Etki değerleri raporu oluşturulurken, gerçek değerli nitelik çiftleri
veri seçeneğiyle (report_mode = "veri"). sigma sınıfı konturlarının olmadığını unutmayın.
ayrık tip özniteliklerinden oluşturulur.

Sigma konturları, n-sigma hata çubuklarının iki boyutlu eşdeğeridir.
boyut. Spesifik olarak, iki bağımsız nitelik için n-sigma konturu şu şekilde tanımlanır:
elips nerede

((x - xOrtalama) / xSigma)^2 + ((y - yOrtalama) / ySigma)^2 == n

Kovaryant özniteliklerle, n-sigma konturları döndürülmüş olarak aynı şekilde tanımlanır.
dağılımın ana eksenlerinin koordinat sistemi. Böylece bağımsız nitelikler verir
öznitelik eksenlerine paralel yönlendirilmiş elipsler, sigma konturlarının eksenleri ise
kovaryant nitelikleri, araçlarla belirlenen merkez etrafında döndürülür. Her iki durumda da
sigma konturu, sınıf olasılığının ne olursa olsun sabit olduğu bir çizgiyi temsil eder.
diğer sınıf olasılıklarının

Üç veya daha fazla öznitelikle n-sigma konturları k boyutlu elipsoidal hale gelir.
yüzeyler. Bu kod, bir n-'nin paralel izdüşümü gerçeğinden yararlanır.
Herhangi bir 2-dim düzlemde boyutlu elipsoid, bir elips ile sınırlandırılmıştır. Bu basitleştirilmiş
tek sigma elipsoidini koordinat düzlemlerine yansıtma durumu da doğrudur.
bu elipsin 2 dim kovaryansları, elipsin karşılık gelen elemanlarına eşittir.
n-dim elipsoid kovaryansları. 2-dim kovaryansın öz sistemi daha sonra
varyanslar, tutulmanın temel bileşenlerine ve onu hizalayan dönüşe göre değişir.
verilerle. Bu, marjinal dağılımda bir dağılımı göstermenin en iyi yolunu temsil eder.
uçak.

Kontur değerleri almak için anahtar kelimeyi ayarlayın sigma_contours_att_list gerçek değerliler listesine
öznitelik endeksleri (.hd2 dosyasından) ve verilerle birlikte bir etki değerleri raporu talep edin
seçenek. Örneğin,

rapor_modu = "veri"
sigma_contours_att_list = 3, 4, 5, 8, 15

ÇIKTI BİLDİRİN PARAMETRELERİ
Çıktı raporunun içeriği ".r-params" dosyası tarafından kontrol edilir. Bu dosyada,
boş bir satır veya bu karakterlerden biriyle başlayan satır yorum olarak kabul edilir:
"#", "!", veya ";". Parametre adı ve değeri eşittir işaretiyle ayrılabilir, bir
boşluk veya bir sekme:

n_clsfs 1
n_clsfs = 1
n_clsfs 1

"=" veya " ise boşluklar yok sayılır " ayırıcı olarak kullanılır. Sonda olmadığına dikkat edin
noktalı virgül.

İzin verilen parametreler ve bunların varsayılan değerleri aşağıdadır:

n_clsfs = 1
.results dosyasındaki raporların oluşturulacağı clsfs sayısı, ile başlayan
ilk veya "en iyi".

clsf_n_list =
belirtilirse, bu, okunan clsf dizisindeki tek tabanlı bir clsfs dizin listesidir.
.results dosyasından. "n_clsfs"yi geçersiz kılar. Örneğin:

clsf_n_list = 1, 2

ile aynı çıktıyı üretecek

n_clsfs = 2

fakat

clsf_n_list = 2

yalnızca "en iyi ikinci" sınıflandırma raporunu verir.

rapor tipi =
oluşturulacak rapor türü: "tümü", "influence_values", "xref_case" veya
"xref_class".

rapor_modu =
oluşturulacak raporların modu. "metin" biçimlendirilmiş metin düzenidir. "veri" sayısaldır
-- ileri işleme için uygundur.

yorum_data_headers_p = yanlış
varsayılan değer çoğu rapor_modu = "veri" başlığının 1. sütununa # eklemez
çizgiler. true olarak belirtilirse, yorum karakteri çoğu başlığa eklenecektir.
çizgiler.

num_atts_to_liste =
belirtilirse, etki değerleri raporunda listelenecek özniteliklerin sayısı. değilse
belirtildi, herşey nitelikler listelenecektir. (örn. "num_atts_to_list = 5")

xref_class_report_att_list =
belirtilirse, değerleri çıktılanacak olan öznitelik numaralarının (sıfır tabanlı) bir listesi
vaka olasılıkları ile birlikte "xref_class" raporunda. belirtilmemişse, hayır
öznitelik değerleri çıktı olacaktır. (örn. "xref_class_report_att_list = 1, 2, 3")

order_attributes_by_influence_p = True
Varsayılan değer, her sınıfın niteliklerini azalan nitelik sırasına göre listeler.
değeri etkiler ve etki değerleri rapor dosyası olarak ".influ-o-text-n" kullanır
tip. false olarak belirtilirse, her bir sınıfın özellikleri şurada listelenir:
nitelik numarasına göre artan sıra. Oluşturulan dosyanın uzantısı
"influ-no-text-n".

break_on_warnings_p = True
Varsayılan değer, kullanıcıya veri tanımlandığında devam edip etmeyeceğini sorar.
uyarılar bulunur. false olarak belirtilirse, o zaman Otomatik Sınıf rağmen devam edecek
uyarılar -- uyarı terminale gönderilmeye devam edecektir.

ücretsiz_storage_p = True
Varsayılan değer söyler Otomatik Sınıf ayrılmış depolama alanının çoğunu boşaltmak için.
Bu gerekli değildir ve DEC Alpha durumunda bir çekirdek dökümüne neden olur [bu
Hala gerçek?]. false olarak belirtilirse, Otomatik Sınıf depolama alanını boşaltmaya çalışmaz.

max_num_xref_class_probs = 5
Vaka için kaç tane kiraya veren sınıf olasılığının yazdırılacağını belirler ve
sınıf çapraz referans raporları. Varsayılan, en olası sınıfı yazdırmaktır
olasılık değeri ve 4 adede kadar kiraya veren sınıf olasılığı. Bunun için geçerli olduğunu unutmayın
hem "metin" hem de "veri" sınıfı çapraz referans raporları, ancak yalnızca
"veri" vakası çapraz referans raporu. Yalnızca "metin" vaka çapraz referans raporu
en olası sınıf olasılığına sahiptir.

sigma_contours_att_list =
Belirtilirse, gerçek değerli öznitelik endekslerinin bir listesi (.hd2 dosyasından)
ile etki değerleri raporu oluştururken sigma sınıfı kontur değerlerini hesaplayın
veri seçeneği (report_mode = "veri"). Belirtilmezse sigma olmaz
sınıf kontur çıktısı. (örn. "sigma_contours_att_list = 3, 4, 5, 8, 15")

YORUM OF OTOCLASS SONUÇLAR


NE VAR YOU VAR?
şimdi koştun Otomatik Sınıf veri kümenizde -- neye sahipsiniz? Tipik olarak,
Otomatik Sınıf arama prosedürü birçok sınıflandırma bulur, ancak yalnızca en iyi birkaçını kaydeder. Bunlar
şimdi inceleme ve yorumlama için kullanılabilir. nin en önemli göstergesi
bu alternatif sınıflandırmaların göreli değerleri Log toplam sonsal olasılıktır
değer. Olasılığın 1 ile 0 arasında olduğu için, karşılık gelen Log
olasılık negatiftir ve 0 ile negatif sonsuz arasında değişir. Arasındaki fark
e gücüne yükseltilmiş bu Log olasılık değerleri,
alternatif sınıflandırmaları Yani 100'lük bir fark, bir sınıflandırma anlamına gelir
e^100 ~= 10^43 diğerinden daha olası. Ancak bu rakamlar çok yanıltıcı olabilir,
altında alternatif sınıflandırmaların göreceli olasılığını verdikleri için
Otomatik Sınıf varsayımlar.

VARSAYIMLAR
Spesifik olarak, en önemli Otomatik Sınıf varsayımlar, normal modellerin kullanımıdır.
gerçek değişkenler ve bir sınıf içindeki niteliklerin bağımsızlığı varsayımı. Dan beri
bu varsayımlar pratikte sıklıkla ihlal edilir, sonsal olasılıktaki fark
Alternatif sınıflandırmaların sayısı kısmen bir sınıflandırmanın birbirine daha yakın olmasından kaynaklanabilir.
gerçek bir farklılıktan ziyade varsayımları bir diğerinden tatmin etmek
sınıflandırma kalitesi. Log'un faydası hakkında bir başka belirsizlik kaynağı
olasılık değerleri, herhangi bir spesifik ön bilgiyi hesaba katmamalarıdır.
kullanıcı etki alanı hakkında sahip olabilir. Bu, genellikle alternatif aramaya değer olduğu anlamına gelir.
bunları yorumlayıp yorumlayamayacağınızı görmek için sınıflandırmalar yapın, ancak en çok
ilk ihtimal. Günlük olasılık değeri,
bir sınıf vakası, ezici kanıt olduğunu söylüyor biraz yapısı
veriler ve bu yapının bir kısmı Otomatik Sınıf sınıflandırılması.

ETKİLEMEK BİLDİRİN
Böylece, Log olasılığına göre incelemek istediğiniz bir sınıflandırmayı seçtiniz.
değer; nasıl incelersiniz? Yapılacak ilk şey bir "etki" raporu oluşturmaktır.
içinde belgelenen rapor oluşturma olanaklarını kullanarak sınıflandırma hakkında
/usr/share/doc/autoclass/reports-c.text. Bir etki raporu, durumu özetlemek için tasarlanmıştır.
gömülü önemli bilgiler Otomatik Sınıf veri yapıları.

Bu raporun ilk bölümü, buluşsal sınıfa "güçleri" verir. Sınıf "güç"
burada herhangi bir örneğin "ait" sınıfına ait olduğu geometrik ortalama olasılık olarak tanımlanır,
sınıf olasılık modelinden üretilmiş olurdu. Böylece bir buluşsal sağlar
her sınıfın "kendi" örneklerini ne kadar güçlü tahmin ettiğinin ölçüsü.

İkinci kısım, kullanılan özelliklerin her birinin genel "etkisinin" bir listesidir.
sınıflandırma. Bunlar, göreceli öneminin kaba bir buluşsal ölçüsünü verir.
sınıflandırmadaki her bir öznitelik. Nitelik "etki değerleri" bir sınıftır
sınıflardaki her bir özelliğin "etkisinin" olasılık ağırlıklı ortalaması,
Aşağıda açıklanan.

Raporun sonraki kısmı, her bir sınıfın özet açıklamasıdır. Sınıflar
azalan sınıf ağırlığına göre 0'dan n'ye kadar keyfi olarak numaralandırılır. Bir sınıf
34.1'in ağırlığı, sınıf için üyelik olasılıklarının ağırlıklı toplamının olduğu anlamına gelir.
34.1. 34 sınıf ağırlığının mutlaka 34 vakanın ait olduğu anlamına gelmediğini unutmayın.
çoğu durumda o sınıfa sadece kısmi üyelik olabilir çünkü bu sınıf. Her birinin içinde
sınıf, nitelikler veya nitelik kümeleri, model terimlerinin "etkisine" göre sıralanır.

ÇAPRAZ ENTROPİ
İki olasılık dağılımı arasındaki sapmanın yaygın olarak kullanılan bir ölçüsü,
çapraz entropi: tüm olası x değerlerinin toplamı, P(x|c...)*log[P(x|c...)/P(x|g...)],
burada c... ve g... dağılımları tanımlar. Aynı için sıfırdan değişir
dağılımlar, olasılık 1'i farklı değerlere yerleştiren dağılımlar için sonsuz
bir nitelik. Olasılık dağılımlarında koşullu olarak bağımsız terimlerle,
çapraz entropi, bu terimlerin toplamına bölünebilir. Bu faktörler bir ölçü sağlar
karşılık gelen modellenmiş özniteliğin ikisini ayırt etmedeki etkisinin
dağılımları.

Modellenen terimin bir sınıf üzerindeki "etkisini", aşağıdakiler için çapraz entropi terimi olarak tanımlarız.
sınıf dağılımı, tek sınıfın küresel sınıf dağılımına göre
sınıflandırma. Dolayısıyla "etki", model teriminin ne kadar güçlü bir şekilde yardımcı olduğunun bir ölçüsüdür.
sınıfı tüm veri kümesinden ayırt eder. Bağımsız olarak modellenen niteliklerle,
etki meşru olarak özelliğin kendisine atfedilebilir. İlişkili veya
kovaryant nitelik kümeleri, çapraz entropi faktörü tüm kümenin bir fonksiyonudur ve
etki değerini modellenen niteliklere eşit olarak dağıtırız.

ÖZELLİK ETKİLEMEK DEĞERLER
Her sınıfa ilişkin "etki" raporunda, o sınıf için nitelik parametreleri verilir.
model terimi öznitelik kümeleri için en yüksek etki değeri sırasına göre. Sadece ilk birkaç
öznitelik kümeleri genellikle önemli etki değerlerine sahiptir. Bir etki değeri düşerse
en yüksek değerin yaklaşık %20'sinin altındaysa, muhtemelen önemli değildir, ancak tümü
öznitelik kümeleri, eksiksizlik için listelenir. Her biri için etki değerine ek olarak
öznitelik seti, o sınıftaki öznitelik seti parametrelerinin değerleri birlikte verilir.
karşılık gelen "küresel" değerlerle. Global değerler doğrudan
Sınıflandırmadan bağımsız veriler. Örneğin, özniteliğin sınıf ortalaması ise
"sıcaklık", standart sapma 90 ile 2.5'dır, ancak küresel ortalama, bir ile 68'dir.
16.3 standart sapma, o zaman bu sınıf çok daha yüksek olan durumları seçti
ortalama sıcaklık ve bu yüksek aralıkta oldukça küçük bir yayılma. Benzer şekilde,
ayrık öznitelik kümeleri, o sınıftaki her sonucun olasılığı birlikte verilir.
karşılık gelen küresel olasılıkla -- önemine göre sıralanır: mutlak
değeri (log { / }). Önem işareti
değer, global sınıftan değişimin yönünü gösterir. Bu bilgi bir
en çok sırasına göre her sınıfın tüm veriler için ortalamadan nasıl farklı olduğuna genel bakış
önemli farklılıklar.

SINIF VE OLGU RAPORLAR
"Etki" raporundan sınıfların bir tanımını edindikten sonra,
En sevdiğiniz vakaların hangi sınıflara girdiğini görmek için takip edin. Tersine, isteyebilirsiniz.
hangi vakaların belirli bir sınıfa ait olduğunu görmek için. Bu tür çapraz referans için
bilgi iki tamamlayıcı rapor oluşturulabilir. Bunlar daha eksiksiz belgelenmiştir
in /usr/share/doc/autoclass/reports-c.text. "Sınıf" raporu, tüm vakaları listeler.
her bir sınıfta önemli bir üyelik ve bu tür her bir vakanın ait olduğu derece
o sınıfa. Mevcut sınıfta sınıf üyeliği %90'dan az olan vakalar,
diğer sınıf üyelikleri de listelenir. Bir sınıf içindeki vakalar şu şekilde sıralanır:
artan vaka sayısı. Alternatif "vakalar" raporu, hangi sınıfın (veya sınıfların) bir
durum aittir ve en olası sınıfa üyelik olasılığı. Bu ikisi
raporlar, hangi vakaların hangi sınıflara ait olduğunu veya tam tersini bulmanızı sağlar. Eğer
hemen hemen her vakanın tek bir sınıfta %99'a yakın üyeliği vardır, o zaman bu,
sınıflar iyi bir şekilde ayrılırken, yüksek derecede çapraz üyelik,
sınıflar çok örtüşüyor. Üst üste binen sınıflar, fikrin bir göstergesidir.
sınıflandırma bozuluyor ve karşılıklı olarak üst üste binen sınıflardan oluşan gruplar,
bir tür meta sınıf, muhtemelen verileri anlamanın daha iyi bir yoludur.

KARŞILAŞTIRMA SINIF AĞIRLIKLAR VE SINIF/VAKA BİLDİRİN ÖDEVLER
Sınıf olasılık parametresi olarak verilen sınıf ağırlığı, esasen hepsinin toplamıdır.
örneğin sınıfın bir üyesi olduğu normalleştirilmiş olasılığın veri örnekleri.
Bu sayıyı bir tamsayı olarak biçimlendirmemiz muhtemelen bizim tarafımızdan bir hatadır.
gerçek doğasını vurgulamak yerine rapor edin. Gerçek gerçek değeri bulacaksınız
herhangi bir .results[-bin] dosyasındaki class_DS yapılarında w_j parametresi olarak kaydedilir.

.case ve .class raporları, vakaların sınıfların üyesi olma olasılıklarını verir. Herhangi
vakaların sınıflara atanması bazı karar kuralları gerektirir. maksimum olasılık
Atama kuralı genellikle örtük olarak varsayılır, ancak sonuçta ortaya çıkan sonucun olması beklenemez.
bölüm boyutları, neredeyse tüm sınıf üyeliği olmadıkça sınıf ağırlıklarına eşit olacaktır.
olasılıklar etkin bir şekilde bir veya sıfırdır. 1/0 olmayan üyelik olasılıkları ile,
sınıf ağırlıklarını eşleştirmek, olasılıkların toplanmasını gerektirir.

Ek olarak, EM'nin eksiksizliği sorusu var (beklenti maksimizasyonu)
yakınsama. EM, tahmin sınıfı parametreleri ile tahmin sınıfı arasında geçiş yapar
üyelik olasılıkları Bu tahminler birbirine yakınsar, ancak gerçekte asla
karşılamak. Otomatik Sınıf alternatif durdurma ile birkaç yakınsama algoritması uygular
.s-params dosyasındaki uygun parametreleri kullanarak ölçütler. Bunların doğru ayarlanması
makul ölçüde eksiksiz ve verimli yakınsama elde etmek için parametreler gerektirebilir
deney.

ALTERNATİF SINIFLAMALAR
Özetle, oluşturulabilecek çeşitli raporlar size,
mevcut sınıflandırma Alternatif sınıflandırmalara bakmak genellikle iyi bir fikirdir.
minimum Log olasılık değerlerine sahip olmasalar bile. bu diğer
sınıflandırmalar genellikle diğer sınıflardaki güçlü sınıflara yakından karşılık gelen sınıflara sahiptir.
sınıflandırmalar, ancak zayıf sınıflarda farklılık gösterebilir. Bir sınıf içindeki bir sınıfın "gücü"
sınıflandırma genellikle, en yüksek etki değerinin ne kadar dramatik olduğuna göre değerlendirilebilir.
sınıftaki öznitelikler, karşılık gelen global özniteliklerden farklıdır. eğer hiçbiri
sınıflandırmalar oldukça tatmin edici görünüyor, çalıştırmak her zaman mümkündür Otomatik Sınıf tekrar
yeni sınıflandırmalar oluşturur.

NE SONRAKİ?
Son olarak, anlayışlı bir sınıflandırma bulduktan sonra ne yapmanız gerektiği sorusu
doğar. Genellikle sınıflandırma, bir kümeyi incelemek için bir ön veri analizi adımıdır.
durumların (nesneler, örnekler vb.) gruplandırılıp gruplandırılamayacağını görmek için
grup birbirine "benzer"dir. Otomatik Sınıf kullanıcı olmadan böyle bir gruplama verir
bir benzerlik ölçüsü tanımlamanız gerekir. Yerleşik "benzerlik" ölçüsü, karşılıklı
vakaların öngörülebilirliği. Bir sonraki adım, bazı nesnelerin neden böyle olduğunu "açıklamaya" çalışmaktır.
farklı bir gruptakilerden daha çok diğerleri gibi. Genellikle, alan bilgisi bir
Cevap. Örneğin, insanların gelir, satın alma alışkanlıkları, konum,
yaş vb., daha önce aşikar olmayan belirli sosyal sınıfları ortaya çıkarabilir.
sınıflandırma analizi. Bu tür sınıflar hakkında daha fazla bilgi edinmek için, ayrıca
araba sayısı, hangi dizilerin izlendiği vb. bilgiler bile ortaya çıkaracaktır.
daha fazla bilgi. Boylamsal çalışmalar, sosyal sınıfların nasıl olduğu hakkında bilgi verecektir.
ortaya çıkar ve tutumlarını neyin etkilediğini - bunların hepsi başlangıçtakinin çok ötesine geçiyor.
sınıflandırılması.

Tahminler


Sınıflandırmalar, yeni durumlar için sınıf üyeliğini tahmin etmek için kullanılabilir. yani ek olarak
muhtemelen verilerinizin arkasındaki yapı hakkında size biraz fikir verir, şimdi kullanabilirsiniz
Otomatik Sınıf doğrudan tahminde bulunmak ve karşılaştırmak için Otomatik Sınıf diğer öğrenme sistemlerine

Sınıf olasılıklarını tahmin etmeye yönelik bu teknik, tüm niteliklere uygulanabilir,
veri türü/alt_türü veya olabilirlik modeli terim türünden bağımsız olarak.

Bir veri vakasının sınıf üyeliğinin aşağıdakilerden herhangi biri için 0.0099999'u aşmaması durumunda
"eğitim" sınıfları, her biri için ekran çıktısında aşağıdaki mesaj görünecektir.
durum:

xref_get_data: case_num xxx => sınıf 9999

Sınıf 9999 üyeleri, "vaka" ve "sınıf" çapraz referans raporlarında bir
1.0 sınıf üyeliği.

Dikkatli Noktalar:

Her zamanki kullanım şekli Otomatik Sınıf tüm verilerinizi bir data_file içine koymak, bunu açıklamak
model ve başlık dosyalarıyla veri ve "autoclass -search" komutunu çalıştırın. Şimdi, bir yerine
data_file iki tane olacak, bir training_data_file ve bir test_data_file.

Her iki veritabanının da aynı olması en önemlisidir. Otomatik Sınıf iç temsil.
Bu doğru olmasa gerek, Otomatik Sınıf çıkacak veya muhtemelen bazı durumlarda çökecektir.
Tahmin modu, umutla kullanıcıyı buna uymaya yönlendirmek için tasarlanmıştır.
gereklilik.

Hazırlanışı:

Tahmin, bir eğitim sınıflandırmasına ve bir test veri tabanına sahip olmayı gerektirir. Eğitim
sınıflandırma, eğitim üzerinde "autoclass -search" çalıştırılarak oluşturulur.
data_file ("data/soybean/soyc.db2"), örneğin:

autoclass -arama verileri/soya fasulyesi/soyc.db2 verileri/soya fasulyesi/soyc.hd2
data/soya fasulyesi/soyc.model data/soya fasulyesi/soyc.s-params

Bu, "soyc.results-bin" ve "soyc.search" üretecektir. Ardından bir "raporlar" parametresi oluşturun
"soyc.r-params" gibi bir dosya (bkz. /usr/share/doc/autoclass/reports-c.text), ve koş
Otomatik Sınıf "raporlar" modunda, örneğin:

autoclass -rapor verileri/soya fasulyesi/soyc.results-bin
data/soya fasulyesi/soyc.search data/soya fasulyesi/soyc.r-params

Bu, sınıf ve vaka çapraz referans dosyaları ve bir etki değerleri dosyası oluşturacaktır.
Dosya adları ".r-params" dosya adını temel alır:

data/soya fasulyesi/soyc.class-text-1
data/soya fasulyesi/soyc.case-text-1
data/soya fasulyesi/soyc.influ-text-1

Bunlar, training_data_file dosyasında bulunan sınıfları tanımlayacaktır. Şimdi bu sınıflandırma
test_data_file durumlarının olasılıksal sınıf üyeliğini tahmin etmek için kullanılabilir
("data/soybean/soyc-predict.db2") training_data_file sınıflarında.

autoclass - tahmin verileri/soya fasulyesi/soyc-predict.db2
data/soya fasulyesi/soyc.results-bin data/soya fasulyesi/soyc.search
data/soya fasulyesi/soyc.r-params

Bu, test_data_file durumları için sınıf ve vaka çapraz referans dosyaları oluşturacaktır.
training_data_file sınıflarında olasılıksal sınıf üyeliklerini tahmin etme. bu
dosya adları ".db2" dosya adını temel alır:

data/soya fasulyesi/soyc-predict.class-text-1
data/soya fasulyesi/soyc-predict.case-text-1

onworks.net hizmetlerini kullanarak otomatik sınıfı çevrimiçi kullanın


Ücretsiz Sunucular ve İş İstasyonları

Windows ve Linux uygulamalarını indirin

  • 1
    VBA-M (Arşivlendi - Şimdi Github'da)
    VBA-M (Arşivlendi - Şimdi Github'da)
    Proje şuraya taşındı:
    https://github.com/visualboyadvance-m/visualboyadvance-m
    Özellikler:Hile oluşturmadurumları kaydetçoklu
    sistem, gba, gbc, gb, sgb'yi destekler,
    sgb2Tu...
    VBA-M'yi İndirin (Arşivlendi - Şimdi Github'da)
  • 2
    Stacer
    Stacer
    Linux Sistem Optimize Edici ve İzleme
    Github Deposu:
    https://github.com/oguzhaninan/Stacer.
    Kitle: Son Kullanıcılar/Masaüstü. kullanıcı
    arayüz: Qt. Programlama...
    Stacer'ı indirin
  • 3
    TuruncuTilki
    TuruncuTilki
    TeamWinRecoveryProject(TWRP) çatalı
    birçok ek işlevle, yeniden tasarlayın
    ve daha fazla Özellikler: Tiz ve
    Tiz olmayan ROM'larGüncel Oreo çekirdeği,
    inşa edilmiş...
    OrangeFox'u indirin
  • 4
    itop - ITSM CMDB Açık Kaynak
    itop - ITSM CMDB Açık Kaynak
    BT Operasyonları Portalı: tam bir açık
    kaynak, ITIL, web tabanlı hizmet
    tamamen dahil olmak üzere yönetim aracı
    özelleştirilebilir CMDB, bir yardım masası sistemi ve
    belge adam...
    İndirin - ITSM CMDB Açık Kaynak
  • 5
    Clementine
    Clementine
    Clementine çok platformlu bir müziktir
    esinlenen oyuncu ve kütüphane organizatörü
    Amarok 1.4. Hızlı ve
    kullanımı kolay arayüzü ve size izin verir
    arama ve...
    Clementine'i indirin
  • 6
    XISMuS
    XISMuS
    DİKKAT: 2.4.3 toplu güncellemesi
    serbest bırakıldı!! Güncelleme herhangi biri için çalışır
    önceki 2.xx sürümü. Eğer yükseltme
    v1.xx sürümünden, lütfen indirin ve
    i ...
    XISMuS'u indirin
  • Daha fazla »

Linux komutları

Ad