GoGPT Best VPN GoSearch

Favicon OnWorks

dbacl - Dalam talian dalam Awan

Jalankan dbacl dalam penyedia pengehosan percuma OnWorks melalui Ubuntu Online, Fedora Online, emulator dalam talian Windows atau emulator dalam talian MAC OS

Ini ialah arahan dbacl yang boleh dijalankan dalam penyedia pengehosan percuma OnWorks menggunakan salah satu daripada berbilang stesen kerja dalam talian percuma kami seperti Ubuntu Online, Fedora Online, emulator dalam talian Windows atau emulator dalam talian MAC OS.

JADUAL:

NAMA


dbacl - pengelas Bayesian digram untuk pengecaman teks.

SINOPSIS


dbacl [-01dvnirmwMNDXW] [-T jenis ] -l kategori [-h saiz] [-H gsize] [-x decim] [-q
kualiti] [-w max_order] [-e deftok] [-O talian] [-L mengukur] [-g regex]...
[FAIL]...

dbacl [-vnimNRX] [-h saiz] [-T taip] -c kategori [-c kategori]... [-f menyimpan]... [FAIL]...

dbacl -V

MAKLUMAT UMUM


dbacl ialah pengelas teks dan e-mel Bayesian. Apabila menggunakan -l suis, ia mempelajari badan
teks dan menghasilkan fail bernama kategori yang meringkaskan teks. Apabila menggunakan -c
suis, ia membandingkan aliran teks input dengan sebarang bilangan kategori fail, dan output
nama perlawanan terdekat, atau pilihan pelbagai markah berangka dijelaskan di bawah.

Manakala halaman manual ini bertujuan sebagai rujukan, terdapat beberapa tutorial dan
dokumen yang boleh anda baca untuk mendapatkan maklumat khusus. Dokumentasi khusus tentang
reka bentuk dbacl dan model statistik yang digunakan boleh didapati dalam dbacl.ps. Untuk
gambaran keseluruhan asas klasifikasi teks menggunakan dbacl, lihat tutorial.html. Tutorial pendamping
menjurus kepada penapisan e-mel ialah email.html. Jika anda menghadapi masalah mendapatkan dbacl ke
kelaskan dengan pasti, baca is_it_working.html. Bahagian PENGGUNAAN halaman manual ini juga
mempunyai beberapa contoh.

/usr/share/doc/dbacl/dbacl.ps

/usr/share/doc/dbacl/tutorial.html

/usr/share/doc/dbacl/email.html

/usr/share/doc/dbacl/is_it_working.html

dbacl menggunakan model bahasa entropi (capah minimum) maksimum yang dibina dengan hormat
kepada ukuran rujukan digram (token tidak diketahui diramalkan daripada digram, iaitu pasangan
surat). Secara praktikal, ini bermakna a kategori dibina daripada token dalam
set latihan, manakala token yang sebelum ini tidak kelihatan boleh diramalkan secara automatik daripada mereka
surat. Token di sini adalah sama ada perkataan (serpihan) atau gabungan perkataan (serpihan),
dipilih mengikut pelbagai suis. Pembelajaran secara kasar berfungsi dengan mengubah token
kebarangkalian sehingga data latihan adalah paling tidak mengejutkan.

EXIT STATUS


Konvensyen keluar shell biasa tidak diikuti (maaf!). Apabila menggunakan -l arahan
bentuk, dbacl mengembalikan sifar pada kejayaan, bukan sifar jika ralat berlaku. Apabila menggunakan -c bentuk,
dbacl mengembalikan integer positif yang sepadan dengan kategori dengan posterior tertinggi
kebarangkalian. Sekiranya seri, kategori pertama yang paling berkemungkinan dipilih. Jika kesilapan
berlaku, dbacl mengembalikan sifar.

DESCRIPTION


Apabila menggunakan -l borang arahan, dbacl mempelajari kategori apabila diberi satu atau lebih nama FAIL,
yang sepatutnya mengandungi teks ASCII yang boleh dibaca. Jika tiada FAIL diberikan, dbacl belajar dari STDIN. Jika
FILE ialah direktori, ia dibuka dan semua failnya dibaca, tetapi bukan subdirektorinya.
Hasilnya disimpan dalam fail binari bernama kategori, dan menggantikan sepenuhnya mana-mana
kandungan sebelumnya. Sebagai kemudahan, jika pembolehubah persekitaran DBACL_PATH mengandungi a
direktori, maka itu ditambahkan ke laluan fail, melainkan kategori bermula dengan '/' atau a
'.'.

Teks input untuk pembelajaran diandaikan sebagai teks biasa tidak berstruktur secara lalai. Ini adalah
tidak sesuai untuk belajar e-mel, kerana e-mel mengandungi pelbagai pengekodan pengangkutan dan
arahan pemformatan yang boleh mengurangkan keberkesanan pengelasan. Anda mesti menggunakan -T
tukar dalam kes itu supaya dbacl tahu ia harus melakukan penyahkodan dan penapisan MIME
dan HTML mengikut kesesuaian. Nilai suis yang sesuai ialah "-T e-mel" untuk input e-mel RFC2822,
"-T html" untuk input HTML, "-T xml" untuk input gaya XML generik dan "teks-T" ialah
format teks biasa lalai. Terdapat nilai-nilai lain daripada -T suis yang juga membenarkan baik
penalaan keupayaan penyahkodan.

Apabila menggunakan -c borang arahan, dbacl cuba mengklasifikasikan teks yang terdapat dalam FILE, atau
STDIN jika tiada FAIL diberikan. Setiap mungkin kategori mesti diberikan secara berasingan, dan sepatutnya
nama fail korpus teks yang dipelajari sebelum ini. Sebagai kemudahan, jika pembolehubah
DBACL_PATH mengandungi direktori, ia ditambah pada setiap laluan fail yang tidak bermula
dengan '/' atau '.'. Keluaran klasifikasi yang boleh dilihat bergantung pada gabungan
suis tambahan yang digunakan. Jika tiada suis digunakan, maka tiada output ditunjukkan pada STDOUT. Walau bagaimanapun,
dbacl sentiasa menghasilkan kod keluar yang boleh diuji.

Untuk melihat output bagi klasifikasi, anda mesti menggunakan sekurang-kurangnya satu daripada -v,-U,-n,-N,-D,-d
suis. Kadangkala, ia boleh digunakan dalam kombinasi untuk menghasilkan variasi semula jadi
keluaran individu mereka. kadangkala, dbacl juga mengeluarkan amaran pada STDERR jika berkenaan.

. -v suis mengeluarkan nama kategori terbaik antara semua pilihan yang diberikan.

. -U suis mengeluarkan nama kategori terbaik diikuti dengan peratusan keyakinan.
Biasanya, ini adalah suis yang anda mahu gunakan. Peratusan 100% bermakna itu dbacl
pasti pilihannya, manakala peratusan 0% bermakna beberapa kategori lain adalah sama
berkemungkinan. Ini bukan kebarangkalian model, tetapi mengukur sejauh mana pengelasan yang tidak jelas
adalah, dan boleh digunakan untuk menandai klasifikasi tidak pasti (cth jika keyakinan adalah 25% atau kurang).

. -N suis mencetak setiap nama kategori diikuti dengan kebarangkalian (posterior), dinyatakan
sebagai peratusan. Peratusan sentiasa berjumlah 100%. Ini adalah intuitif, tetapi hanya berharga
jika dokumen yang diklasifikasikan mengandungi segelintir token (sepuluh atau kurang). Secara umum
kes dengan lebih banyak token, kebarangkalian sentiasa sangat dekat dengan 100% dan 0%.

. -n suis mencetak setiap nama kategori diikuti dengan logaritma negatifnya
kebarangkalian. Ini bersamaan dengan menggunakan -N suis, tetapi lebih berguna. Yang paling kecil
nombor memberikan kategori terbaik. Bentuk yang lebih mudah ialah menggunakan kedua-duanya -n and -v yang
mencetak setiap nama kategori diikuti dengan entropi silang dan bilangan token yang dianalisis.
Entropi silang mengukur (dalam bit) kadar mampatan purata yang boleh dicapai,
di bawah model kategori yang diberikan, setiap token teks input. Jika anda menggunakan ketiga-tiga -n,-v,-X
maka nilai tambahan dikeluarkan untuk setiap kategori, mewakili sejenis nilai-p untuk setiap kategori
markah kategori. Ini menunjukkan betapa tipikal skor dibandingkan dengan latihan
dokumen, tetapi hanya berfungsi jika -X suis digunakan semasa pembelajaran, dan hanya untuk sesetengah orang
jenis model (cth e-mel). Nilai-p ini diedarkan secara seragam dan bebas
(jika kategori adalah bebas), jadi boleh digabungkan menggunakan ujian chi kuasa dua Fisher untuk
dapatkan nilai-p komposit untuk pengelompokan kategori.

. -v and -X suis bersama-sama mencetak setiap nama kategori diikuti dengan terperinci
penguraian skor kategori, difaktorkan ke dalam (kadar divergence + entropi shannon
kadar )* kiraan token @ nilai-p. Sekali lagi, ini hanya berfungsi dalam beberapa jenis model.

. -v and -U suis mencetak setiap nama kategori diikuti dengan penguraian
skor kategori ke (kadar divergence + kadar entropi shannon # varians skor )* token
kiraan.

. -D suis mencetak teks input seperti yang diubah suai secara dalaman oleh dbacl sebelum
tokenisasi. Sebagai contoh, jika dokumen e-mel yang dikodkan MIME diklasifikasikan, maka ini
mencetak teks yang dinyahkodkan yang sebenarnya akan ditoken dan diklasifikasikan. Suis ini adalah
terutamanya berguna untuk penyahpepijatan.

. -d tukar token buang dan markah semasa ia dibaca. Ia berguna untuk
penyahpepijatan, atau jika anda ingin mencipta perwakilan grafik klasifikasi. A
penerangan terperinci tentang output adalah di luar skop halaman manual ini, tetapi adalah
mudah jika anda telah membaca dbacl.ps. Variasi yang mungkin termasuk -d Bersama-sama dengan -n
or -N.

Pengelasan boleh dilakukan dengan satu atau beberapa kategori pada dasarnya. Apabila dua atau lebih
kategori digunakan, kebarangkalian posterior Bayesian digunakan, memandangkan teks input,
dengan pengedaran awal yang seragam pada kategori. Untuk pilihan lain yang terdahulu, lihat bahagian
utiliti pendamping bayesol(1). Apabila satu kategori digunakan, klasifikasi boleh dilakukan
dengan membandingkan skor dengan treshold. Walau bagaimanapun, dalam amalan, hasil yang lebih baik adalah
diperoleh dengan beberapa kategori.

Pembelajaran dan pengelasan tidak boleh dicampur pada perintah perintah yang sama, namun ada
tiada masalah mengunci dan berasingan dbacl proses boleh beroperasi serentak dengan jelas
keputusan, kerana operasi fail direka bentuk untuk menjadi atom.

Akhirnya, ambil perhatian bahawa dbacl tidak menguruskan korpora dokumen anda atau pengiraan anda
kategori, dan khususnya ia tidak membenarkan anda memanjangkan fail kategori sedia ada
dengan dokumen baru. Ini tidak seperti pelbagai penapis spam semasa, yang boleh mempelajari baharu
e-mel secara berperingkat. Had ini dbacl sebahagiannya disebabkan oleh prosedur tak linear
digunakan dalam algoritma pembelajaran, dan sebahagiannya keinginan untuk meningkatkan fleksibiliti.

Anda boleh mensimulasikan kesan pembelajaran tambahan dengan menyimpan dokumen latihan anda ke dalam
arkib dan menambah arkib ini dari semasa ke semasa, belajar semula dari awal secara berkala.
Pembelajaran sebenarnya lebih cepat jika arkib ini dimampatkan dan dinyahmampat dengan cepat
apabila diperlukan. Dengan mengekalkan kawalan arkib anda, anda tidak boleh kehilangan maklumat dalam
kategori anda, dan anda boleh mencuba dengan mudah dengan suis atau tokenisasi yang berbeza atau
set dokumen latihan jika anda suka.

SETIAUSAHA PAKAIAN


Secara lalai, dbacl mengklasifikasikan teks input secara keseluruhan. Walau bagaimanapun, apabila menggunakan -f pilihan,
dbacl boleh digunakan untuk menapis setiap baris input secara berasingan, mencetak hanya baris yang
padankan satu atau lebih model yang dikenal pasti oleh menyimpan (gunakan nama kategori atau nombor untuk merujuk kepada a
kategori). Ini berguna jika anda ingin menapis beberapa baris, tetapi ambil perhatian bahawa jika baris
pendek, maka kadar ralat boleh menjadi tinggi.

. -e,-w,-g,-j suis digunakan untuk memilih skim tokenisasi yang sesuai. A
token ialah perkataan atau serpihan perkataan atau gabungan perkataan atau serpihan. Bentuk token
adalah penting kerana ia menjadi asas kepada model bahasa yang digunakan oleh dbacl. Yang -e
suis memilih skim tokenisasi yang dipratentukan, yang pantas tetapi terhad. The -w
suis menentukan token komposit yang diperoleh daripada -e suis. Contohnya, "-e alnum -w 2"
bermakna bahawa token hendaklah serpihan perkataan abjad angka digabungkan menjadi pasangan bertindih
(bigram). Apabila -j suis digunakan, semua token ditukar kepada huruf kecil, yang
mengurangkan bilangan token yang mungkin dan oleh itu penggunaan memori.

Jika -g suis digunakan, anda boleh menentukan sepenuhnya rupa token tersebut
menggunakan ungkapan biasa. beberapa -g suis boleh digunakan untuk membina kompleks
skema tokenisasi, dan kurungan dalam setiap ungkapan boleh digunakan untuk memilih
serpihan dan menggabungkannya menjadi n-gram. Kos fleksibiliti sedemikian dikurangkan
klasifikasi dan kelajuan pembelajaran. Apabila bereksperimen dengan skim tokenisasi, cuba gunakan
yang -d or -D suis semasa belajar atau mengelaskan, kerana mereka akan mencetak token
secara eksplisit supaya anda boleh melihat serpihan teks yang diambil atau terlepas. Untuk biasa
sintaks ungkapan, lihat regex(7).

. -h and -H suis mengawal jumlah memori dbacl boleh digunakan untuk pembelajaran. Teks
pengelasan boleh menggunakan banyak memori, dan secara lalai dbacl menghadkan dirinya walaupun pada
perbelanjaan ketepatan pembelajaran. Dalam banyak kes jika had dicapai, mesej amaran akan
dicetak pada STDERR dengan beberapa nasihat.

Apabila mempelajari semula kategori yang sama beberapa kali, kelajuan yang ketara boleh diperolehi dengan
menggunakan -1 suis, kerana ini membolehkan kebarangkalian yang dipelajari sebelum ini dibaca daripadanya
kategori dan digunakan semula.

Ambil perhatian bahawa ketepatan klasifikasi bergantung terutamanya pada jumlah dan kualiti
sampel latihan, dan kemudian hanya pada jumlah tweaking.

EXIT STATUS


Apabila menggunakan -l borang arahan, dbacl mengembalikan sifar pada kejayaan. Apabila menggunakan -c bentuk,
dbacl mengembalikan integer positif (1,2,3...) yang sepadan dengan kategori dengan yang tertinggi
kebarangkalian belakang. Sekiranya seri, kategori pertama yang paling berkemungkinan dipilih. Jika an
ralat berlaku, dbacl mengembalikan sifar.

PILIHAN


-0 Apabila belajar, menghalang pramuat berat. Biasanya, dbacl menyemak sama ada kategori
fail sudah wujud, dan jika ya, cuba gunakan pemberat sedia ada sebagai permulaan
titik. Ini boleh mempercepatkan pembelajaran secara mendadak. Sekiranya -0 suis (sifar) ditetapkan,
kemudian dbacl berkelakuan seolah-olah tiada fail kategori sudah wujud. Ini berguna terutamanya untuk
ujian. Suis ini kini didayakan secara lalai, untuk melindungi daripada hanyutan berat
yang boleh mengurangkan ketepatan ke atas banyak lelaran pembelajaran. guna -1 untuk memaksa
pramuat.

-1 Paksa pramuat berat jika fail kategori sudah wujud. Lihat perbincangan tentang
-0 suis.

-a Tambah markah. Setiap baris input ditulis kepada STDOUT dan skor dbacl adalah
dilampirkan. Ini berguna untuk pasca pemprosesan dengan bayesol(1). Untuk memudahkan
pemprosesan, setiap baris input asal diinden oleh satu ruang (untuk membezakan
mereka daripada markah yang dilampirkan), dan garisan dengan markah (jika -n digunakan) ialah
diawali dengan rentetan "skor". Jika salinan kedua dbacl perlu membaca ini
output kemudian, ia harus digunakan dengan -A suis.

-d Buang parameter model ke STDOUT. Sempena dengan -l pilihan, ini
menghasilkan ringkasan model entropi maksimum yang boleh dibaca manusia. Bersempena dengan
yang -c pilihan, memaparkan sumbangan setiap token kepada markah akhir.
Menindas semua keluaran normal yang lain.

-e Pilih kelas aksara untuk tokenisasi lalai (bukan berasaskan regex). Secara lalai,
token adalah rentetan abjad sahaja. Ini sepadan dengan kes apabila deftok is
"alfa". Nilai yang mungkin untuk deftok ialah "alfa", "alnum", "graf", "char", "cef"
dan "adp". Dua yang terakhir ialah tokenizer tersuai yang bertujuan untuk mesej e-mel. Lihat
Juga isalpha(3). Tokenizer "char" mengambil aksara tunggal yang boleh dicetak
daripada token yang lebih besar, dan bertujuan untuk ujian sahaja.

-f Tapis setiap baris input secara berasingan, hantar ke baris STDOUT sahaja yang sepadan dengan
kategori dikenal pasti sebagai menyimpan. Pilihan ini harus digunakan berulang kali untuk setiap satu
kategori yang mesti disimpan. menyimpan boleh sama ada kategori nama fail, atau a
integer positif mewakili yang diperlukan kategori dalam susunan yang sama ia muncul pada
baris arahan.

Talian keluaran disiram sebaik sahaja ia ditulis. Jika fail input adalah paip
atau peranti aksara, maka percubaan dibuat untuk menggunakan mod penimbalan baris, jika tidak
penimbalan blok yang lebih cekap digunakan.

-g Ketahui hanya ciri yang diterangkan oleh ungkapan biasa lanjutan regex. ini
mengatasi kaedah pemilihan ciri lalai (lihat -w pilihan) dan belajar, untuk setiap
baris input, hanya token yang dibina daripada gabungan rentetan yang
padankan subungkapan berteg dalam yang dibekalkan regex. Semua subrentetan yang
sepadan dengan regex dalam akhiran setiap baris input dianggap sebagai ciri, walaupun jika
mereka bertindih pada baris input.

Sebagai kemudahan pilihan, regex boleh memasukkan akhiran ||xyz yang menunjukkan
subungkapan dalam kurungan yang manakah harus ditandakan. Dalam kes ini, xyz Sekiranya
terdiri secara eksklusif daripada digit 1 hingga 9, menomborkan dengan tepat subungkapan yang
harus ditag. Sebagai alternatif, jika tiada kurungan wujud dalam regex, maka ia adalah
diandaikan bahawa keseluruhan ungkapan mesti ditangkap.

-h Tetapkan saiz jadual cincang kepada 2^saiz elemen. Apabila menggunakan -l pilihan, ini
merujuk kepada jumlah bilangan ciri yang dibenarkan dalam model entropi maksimum
belajar. Apabila menggunakan -c pilihan bersama-sama dengan -M suis dan jenis multinomial
kategori, ini merujuk kepada bilangan maksimum ciri yang diambil kira semasa
pengelasan. Tanpa -M suis, pilihan ini tidak mempunyai kesan.

-i Mod antarabangsa sepenuhnya. Memaksa penggunaan aksara luas secara dalaman, yang
adalah perlu di beberapa tempat. Ini dikenakan penalti prestasi yang ketara.

-j Jadikan ciri sensitif huruf besar-besaran. Biasanya, semua ciri ditukar kepada huruf kecil
semasa pemprosesan, yang mengurangkan keperluan penyimpanan dan menambah baik statistik
anggaran untuk set data kecil. Dengan pilihan ini, huruf besar asal digunakan
untuk setiap ciri. Ini boleh meningkatkan ketepatan pengelasan.

-m Secara agresif memetakan kategori ke dalam memori dan menguncinya ke dalam RAM untuk menghalang
bertukar-tukar, jika boleh. Ini berguna apabila kelajuan adalah yang terpenting dan ingatan adalah
banyak, contohnya apabila menguji pengelas pada set data yang besar.

Mengunci mungkin memerlukan had pengguna yang santai dengan had(1). Tanya sistem anda
pentadbir. Berhati-hati apabila menggunakan -m bertukar bersama-sama dengan -o suis, sebagai sahaja
satu proses dbacl mesti belajar atau mengklasifikasikan pada satu masa untuk mengelakkan rasuah fail. Jika
tiada pembelajaran berlaku, maka -m suis untuk pengelasan sentiasa selamat digunakan.
Lihat juga perbincangan untuk -o suis.

-n Cetak markah untuk setiap satu kategori. Setiap skor adalah hasil darab dua nombor, iaitu
entropi silang dan kerumitan teks input di bawah setiap model. Berganda-ganda
bersama-sama, mereka mewakili kebarangkalian log bahawa input menyerupai model. Kepada
lihat nombor ini secara berasingan, gunakan juga -v pilihan. Sempena dengan -f
pilihan, berhenti menapis tetapi mencetak setiap baris input yang diawali dengan senarai markah
untuk baris itu.

-q Pilih kualiti pembelajaran, di mana kualiti boleh jadi 1,2,3,4. Nilai yang lebih tinggi mengambil masa yang lebih lama
untuk belajar, dan harus lebih tepat sedikit. lalai kualiti ialah 1 jika
fail kategori tidak wujud atau pemberat tidak boleh dipramuat, dan 2 sebaliknya.

-o Semasa belajar, baca/tulis separa kiraan token supaya boleh digunakan semula. Biasanya,
fail kategori dipelajari daripada data input yang diberikan dan tidak mengandungi
maklumat luar. Apabila pilihan ini berkuat kuasa, beberapa maklumat tambahan adalah
disimpan dalam fail talian, selepas semua input dibaca. Maklumat ini boleh dibaca semula
pada kali seterusnya pembelajaran itu berlaku, untuk meneruskan di mana set data sebelumnya ditinggalkan
dimatikan. Jika talian tidak wujud, ia dicipta. Jika talian wujud, ia dibaca sebelum ini
pembelajaran, dan dikemas kini selepas itu. Fail adalah kira-kira 3 kali lebih besar (at
kurangnya) daripada yang berilmu kategori.

In dbacl, kemas kini fail adalah atom, tetapi jika menggunakan -o suis, dua atau lebih
proses tidak seharusnya belajar serentak, kerana hanya satu proses akan menulis yang berkekalan
kategori dan pembuangan memori. The -m suis juga boleh mempercepatkan pembelajaran dalam talian, tetapi
berhati-hati dengan kemungkinan rasuah. Hanya satu proses harus membaca atau menulis fail. ini
pilihan bertujuan terutamanya untuk larian ujian terkawal.

-r Pelajari model rujukan digram sahaja. Melangkau pembelajaran ciri tambahan dalam
korpus teks.

-v Mod verbose. Semasa belajar, cetak butiran pengiraan, bila
mengelaskan, mencetak nama yang paling berkemungkinan kategori. Bersempena dengan
yang -n pilihan, mencetak markah sebagai produk eksplisit bagi entropi silang dan
kerumitan.

-w Pilih ciri lalai untuk menjadi n-gram sehingga max_order. Ini tidak serasi dengan
yang -g pilihan, yang sentiasa diutamakan. Jika tidak -w or -g pilihan diberi,
dbacl menganggap -w 1. Ambil perhatian bahawa n-gram untuk n lebih daripada 1 tidak mengangkang garis
pecah secara lalai. The -S suis membolehkan talian mengangkang.

-x Tetapkan kebarangkalian pereputan kepada 1 - 2^(-decim). Untuk mengurangkan keperluan memori apabila
pembelajaran, beberapa input dilangkau secara rawak, dan hanya sedikit yang ditambahkan pada model.
Tingkah laku yang tepat bergantung pada yang berkenaan -T pilihan (lalai ialah -T "teks"). Bila
jenisnya bukan "e-mel" (cth "teks"), kemudian ciri input individu ditambah dengan
kebarangkalian 2^(-decim). Apabila jenisnya ialah "e-mel", maka mesej input penuh adalah
ditambah dengan kebarangkalian 2^(-decim). Dalam setiap mesej tersebut, semua ciri adalah
terpakai.

-A Jangkakan input inden dan markah. Dengan suis ini, dbacl menjangkakan baris input menjadi
diinden oleh aksara ruang tunggal (yang kemudian dilangkau). Garisan bermula dengan
mana-mana watak lain diabaikan. Ini adalah rakan sejawat kepada -a suis di atas.
Apabila digunakan bersama-sama dengan -a suis, dbacl mengeluarkan baris yang dilangkau sebagaimana adanya,
dan memasukkan semula ruang di hadapan setiap baris input yang diproses.

-D Cetak output nyahpepijat. Jangan gunakan seperti biasa, tetapi boleh menjadi sangat berguna untuk memaparkan
senaraikan ciri yang diambil semasa belajar.

-H Benarkan jadual cincang membesar sehingga maksimum 2^gsize elemen semasa pembelajaran.
Saiz awal diberikan oleh -h pilihan.

-L Pilih ukuran rujukan digram untuk peralihan aksara. The mengukur boleh
salah satu daripada "uniform", "dirichlet" atau "maxent". Lalai ialah "seragam".

-M Force pengiraan multinomial. Apabila belajar, memaksa ciri model menjadi
dirawat secara multinomial. Apabila mengelas, betulkan skor entropi untuk mencerminkan
kebarangkalian multinomial (hanya terpakai untuk model jenis multinomial, jika ada).
Markah akan sentiasa lebih rendah, kerana susunan ciri hilang.

-N Cetak kebarangkalian posterior untuk setiap satu kategori. Ini menganggap yang dibekalkan
kategori membentuk senarai lengkap kemungkinan. Sempena dengan -f
pilihan, berhenti menapis tetapi mencetak setiap baris input yang diawali dengan ringkasan
pengedaran posterior untuk garisan itu.

-R Sertakan kategori tambahan untuk teks rawak semata-mata. Kategori itu dipanggil "rawak".
Hanya masuk akal apabila menggunakan -c pilihan.

-S Dayakan garisan mengangkang. Ini berguna bersama-sama dengan -w pilihan untuk membenarkan n-gram
untuk n > 1 mengabaikan pemisah baris, jadi token kompleks boleh diteruskan melepasi penghujung
garisan itu. Ini tidak disyorkan untuk e-mel.

-T Tentukan format teks bukan standard. Secara lalai, dbacl menganggap bahawa teks input ialah a
fail teks ASCII semata-mata. Ini sepadan dengan kes apabila jenis ialah "teks".

Terdapat beberapa jenis dan subjenis yang boleh digunakan untuk membersihkan teks input daripada
token luar sebelum pembelajaran atau pengelasan sebenar berlaku. Setiap (sub) jenis
yang anda ingin gunakan mesti ditunjukkan dengan yang berasingan -T pilihan pada baris arahan,
dan secara automatik membayangkan jenis yang sepadan.

Jenis "teks" adalah untuk teks biasa tidak berstruktur. Tiada pembersihan dilakukan. Ini adalah
lalai jika tiada jenis diberikan pada baris arahan.

Jenis "e-mel" adalah untuk fail input format mbox atau e-mel RFC822 tunggal. Pengepala
diiktiraf dan kebanyakannya dilangkau. Untuk memasukkan pengepala standard RFC822 tambahan
(kecuali pengepala surih), gunakan subjenis "e-mel: pengepala". Untuk memasukkan jejak
pengepala, gunakan subjenis "e-mel: pengepala". Untuk memasukkan semua pengepala dalam e-mel, gunakan
subjenis "e-mel:xheaders". Untuk melangkau semua tajuk, kecuali subjek, gunakan
"e-mel:noheaders". Untuk mengimbas lampiran binari untuk rentetan, gunakan "e-mel:atts"
subjenis.

Apabila jenis "e-mel" berkuat kuasa, penanda HTML dialih keluar secara automatik daripada teks
lampiran kecuali teks/lampiran biasa. Untuk mengalih keluar penanda HTML daripada biasa
lampiran teks, gunakan "e-mel:noplain". Untuk mengelakkan penyingkiran markup HTML dalam semua teks
lampiran, gunakan "e-mel:plain".

Jenis "html" adalah untuk mengalih keluar penanda HTML (antara dan tag) dan
teks sekeliling. Ambil perhatian bahawa jika jenis "e-mel" didayakan, maka "html" adalah
didayakan secara automatik untuk lampiran mesej yang serasi sahaja.

Jenis "xml" adalah seperti "html", tetapi tidak menghormati dan , dan tidak
mentafsir teg (jadi ini sepatutnya lebih tepat dipanggil "penanda sudut" penyingkiran, dan
tiada kaitan dengan semantik XML sebenar).

Apabila "html" didayakan, kebanyakan atribut markup hilang (untuk nilai 'most' close
kepada semua'). Subjenis "html:links" memaksa url pautan dihuraikan dan dipelajari,
yang sebaliknya akan diabaikan. Subjenis "html:alt" memaksa menghurai
teks alternatif dalam atribut ALT dan pelbagai tag lain. "html:scripts"
subjenis memaksa menghurai skrip, "html:styles" memaksa menghurai gaya,
"html:forms" memaksa menghurai nilai borang, manakala "html:comments" memaksa menghurai
Komen HTML.

-U Cetakan (U)nambiguiti. Apabila digunakan bersama-sama dengan -v suis, mencetak markah
diikuti dengan sisihan piawai empirikal mereka. Apabila digunakan sahaja, cetakan yang terbaik
kategori, diikuti dengan anggaran kebarangkalian bahawa pilihan kategori ini adalah
tidak jelas. Lebih tepat lagi, kebarangkalian mengukur kekurangan pertindihan CLT
selang keyakinan untuk setiap skor kategori (Jika terdapat pertindihan, maka ada
kekaburan).

Kebarangkalian anggaran ini boleh digunakan sebagai bendera "tidak pasti", contohnya jika dianggarkan
kebarangkalian adalah lebih rendah daripada 50%. Secara formal, skor 0% bermakna kategori lain adalah
berkemungkinan sama untuk digunakan pada input, dan skor 100% bermakna tiada kategori lain
berkemungkinan digunakan pada input. Ambil perhatian bahawa jenis keyakinan ini tidak berkaitan
yang -X suis. Juga, anggaran kebarangkalian biasanya rendah jika dokumen itu
pendek, atau jika mesej mengandungi banyak token yang tidak pernah dilihat sebelum ini
(hanya digunakan untuk ukuran digram yang seragam).

-V Cetak nombor versi program dan keluar.

-W Suka -w, tetapi menghalang ciri daripada mengangkang baris baharu. Lihat penerangan tentang -w.

-X Cetak keyakinan dalam skor yang dikira untuk setiap satu kategori, apabila digunakan bersama
dengan -n or -N suis. Menyediakan model untuk skor keyakinan, apabila digunakan dengan
yang -l suis. Keyakinan adalah anggaran tipikal skor,
dengan mengandaikan hipotesis nol bahawa kategori yang diberikan adalah betul. Apabila digunakan dengan
-v suis sahaja, memfaktorkan skor sebagai perbezaan empirikal ditambah shannon
entropi, didarab dengan kerumitan, dalam susunan itu. The -X suis tidak disokong dalam
semua model yang mungkin, dan memaparkan peratusan "0.0" jika ia tidak boleh dikira.
Ambil perhatian bahawa untuk dokumen yang tidak diketahui, adalah perkara biasa untuk mempunyai keyakinan yang dekat dengannya
sifar.

PENGGUNAAN


Untuk mencipta dua fail kategori dalam direktori semasa daripada dua fail teks ASCII bernama
Mark_Twain.txt dan William_Shakespeare.txt masing-masing, taip:

% dbacl -l dua Mark_Twain.txt
% dbacl -l goncang William_Shakespeare.txt

Kini anda boleh mengklasifikasikan teks input, contohnya:

% echo "hai" | dbacl -v -c twain -c goncang
kembar
% gema "menjadi atau tidak menjadi" | dbacl -v -c twain -c goncang
goncang

Ambil perhatian bahawa -v pilihan sekurang-kurangnya adalah perlu, jika tidak dbacl tidak mencetak apa-apa.
Nilai pulangan ialah 1 dalam kes pertama, 2 dalam kes kedua.

% gema "menjadi atau tidak menjadi" | dbacl -v -N -c twain -c goncang
dua 22.63% goncang 77.37%
% gema "menjadi atau tidak menjadi" | dbacl -v -n -c twain -c goncang
dua 7.04 * 6.0 goncang 6.74 * 6.0

Doa ini adalah setara. Nombor 6.74 dan 7.04 mewakili betapa hampirnya
token purata adalah untuk setiap kategori, dan 6.0 ialah bilangan token yang diperhatikan. Jika anda mahu
untuk mencetak nilai keyakinan mudah bersama dengan kategori terbaik, gantikan -v bersama -U.

% gema "menjadi atau tidak menjadi" | dbacl -U -c twain -c goncang
goncang # 34%

Perhatikan bahawa kebarangkalian sebenar kategori goncang berbanding kategori kembar ialah 77.37%, tetapi
pengiraan agak samar-samar, dan 34% adalah keyakinan daripada 100% bahawa
pengiraan adalah betul secara kualitatif.

Katakan fail document.txt mengandungi baris teks Inggeris yang diselingi dengan baris hingar. Kepada
tapis garis bunyi daripada baris bahasa Inggeris, dengan mengandaikan anda mempunyai kategori sedia ada
goncang katakan, taip:

% dbacl -c goncang -f goncang -R document.txt > document.txt_eng
% dbacl -c goncang -f rawak -R document.txt > document.txt_rnd

Ambil perhatian bahawa kualiti keputusan akan berbeza-beza bergantung pada sejauh mana kategori bergoncang
dan rawak mewakili setiap baris input. Kadang-kadang berguna untuk melihat bahagian belakang
kebarangkalian untuk setiap baris tanpa penapisan:

% dbacl -c goncang -f goncang -RN document.txt > document.txt_probs

Anda kini boleh memproses kebarangkalian posterior untuk setiap baris teks dengan yang lain
skrip, untuk meniru peraturan keputusan Bayesian sewenang-wenangnya pilihan anda.

Dalam kes khas tepat dua kategori, prosedur keputusan Bayesian yang optimum boleh
dilaksanakan bagi dokumen seperti berikut: biarkan p1 menjadi kebarangkalian terdahulu bahawa input
teks dikelaskan sebagai kategori1. Akibatnya, kebarangkalian terdahulu untuk mengklasifikasikan sebagai
kategori2 ialah 1 - p1. Biarkan u12 menjadi kos salah klasifikasi a kategori1 input teks sebagai
kepunyaan kategori2 dan sebaliknya untuk u21. Kami menganggap tiada kos untuk mengklasifikasikan
dengan betul. Kemudian arahan berikut melaksanakan keputusan Bayesian yang optimum:

% dbacl -n -c kategori1 -c kategori2 | awk '{ if($2 * p1 * u12 > $4 * (1 - p1) * u21) {
cetak $1; } else { print $3; } }'

dbacl juga boleh digunakan bersama-sama dengan procmail(1) untuk melaksanakan Bayesian mudah
sistem klasifikasi e-mel. Anggapkan bahawa mel masuk harus dihantar secara automatik
ke salah satu daripada tiga folder mel yang terletak dalam $MAILDIR dan dinamakan bekerja, peribadi, dan spam.
Pada mulanya, ini mesti dibuat dan diisi dengan contoh e-mel yang sesuai. A crontab(1)
fail boleh digunakan untuk mempelajari tiga kategori sekali sehari, cth

CATS=$HOME/.dbacl
5 0 * * * dbacl -T e-mel -l $CATS/kerja $MAILDIR/kerja
10 0 * * * dbacl -T e-mel -l $CATS/peribadi $MAILDIR/peribadi
15 0 * * * dbacl -T e-mel -l $CATS/spam $MAILDIR/spam

Untuk menghantar setiap e-mel masuk secara automatik ke dalam folder yang sesuai, perkara berikut
procmailrc(5) serpihan resipi boleh digunakan:

CATS=$HOME/.dbacl

# jalankan pengelas spam
:0 c
YAY=| dbacl -vT e-mel -c $CATS/kerja -c $CATS/peribadi -c $CATS/spam

# hantar ke peti mel yang sesuai
: 0:
* ? ujian -n "$YAY"
$MAILDIR/$YAY

: 0:
$DEFAULT

Kadang- dbacl akan menghantar e-mel ke peti mel yang salah. Dalam kes itu, salah klasifikasi
mesej harus dialih keluar dari destinasi yang salah dan diletakkan dalam peti mel yang betul.
Ralat akan diperbetulkan apabila mesej anda dipelajari seterusnya. Jika ia dibiarkan dalam
salah kategori, dbacl akan mempelajari statistik korpus yang salah.

Ciri teks lalai (token) dibaca oleh dbacl adalah rentetan abjad semata-mata, yang
meminimumkan keperluan ingatan tetapi boleh menjadi tidak realistik dalam beberapa kes. Untuk membina model
berdasarkan token alfanumerik, gunakan -e suis. Contoh di bawah juga menggunakan pilihan
-D suis, yang mencetak senarai token sebenar yang ditemui dalam dokumen:

% dbacl -e alnum -D -l twain Mark_Twain.txt | kurang

Ia juga mungkin untuk mengatasi kaedah pemilihan ciri lalai yang digunakan untuk mempelajari
model kategori dengan menggunakan ungkapan biasa. Sebagai contoh, pendua berikut
kaedah pemilihan ciri lalai dalam tempat C, sementara menjadi lebih perlahan:

% dbacl -l twain -g '^([[:alpha:]]+)' -g '[^[:alpha:]]([[:alpha:]]+)' Mark_Twain.txt

Kategori dua yang diperoleh hanya bergantung pada perkataan abjad tunggal dalam teks
fail Mark_Twain.txt (dan statistik digram yang dikira untuk ramalan). sekejap
contoh, arahan berikut membina model Markovian (perkataan bigram) terlicin yang
bergantung pada pasangan perkataan yang berturutan dalam setiap baris (tetapi pasangan tidak boleh mengangkang satu baris
rehat):

% dbacl -l twain2 -g '(^|[^[:alpha:]])([[:alpha:]]+)||2' -g
'(^|[^[:alpha:]])([[:alpha:]]+)[^[:alpha:]]+([[:alpha:]]+)||23' Mark_Twain.txt

Model n-gram yang lebih umum, berasaskan baris, bagi semua pesanan (sehingga 7) boleh dibina dalam yang serupa
cara. Untuk membina model berasaskan perenggan, anda harus memformat semula korpora input dengan
awk(1) atau sed(1) untuk mendapatkan satu perenggan setiap baris. Saiz talian dihadkan oleh tersedia
ingatan, tetapi ambil perhatian bahawa prestasi regex akan merosot dengan cepat untuk baris panjang.

PRESTASI


Andaian asas pembelajaran statistik ialah bilangan yang agak kecil
dokumen latihan boleh mewakili set dokumen input yang lebih besar. Oleh itu dalam masa yang panjang
berjalan, pembelajaran boleh terhenti tanpa kesan serius terhadap ketepatan pengelasan. manakala
tidak benar dalam realiti, andaian ini sangat tepat untuk masalah seperti e-mel
penapisan. Dalam amalan, ini bermakna bahawa korpus yang dipilih dengan baik pada susunan sepuluh ribu
dokumen adalah mencukupi untuk keputusan yang sangat tepat selama bertahun-tahun. Pembelajaran berterusan selepas
jisim kritikal sedemikian mengakibatkan pulangan yang semakin berkurangan. Sudah tentu, apabila input dunia sebenar
corak dokumen berubah secara mendadak, kuasa ramalan model boleh hilang. Pada
hujung yang lain, beberapa ratus dokumen sudah memberikan hasil yang boleh diterima dalam kebanyakan kes.

dbacl sangat dioptimumkan untuk kes klasifikasi yang kerap tetapi kumpulan yang jarang
pembelajaran. Ini adalah optimum jangka panjang yang diterangkan di atas. Dalam keadaan ideal, dbacl boleh
kelaskan seratus e-mel sesaat pada perkakasan rendah (500Mhz Pentium III). Pembelajaran
kelajuan tidak terlalu perlahan, tetapi mengambil masa yang lebih lama untuk dokumen yang besar
koleksi atas pelbagai sebab. Apabila menggunakan -m suis, struktur data adalah
secara agresif dipetakan ke dalam ingatan jika boleh, mengurangkan overhed untuk kedua-dua I/O dan memori
peruntukan.

dbacl membuang inputnya secepat mungkin, dan tidak mempunyai had pada dokumen input
saiz. Kedua-dua klasifikasi dan kelajuan pembelajaran adalah berkadar terus dengan bilangan
token dalam input, tetapi pembelajaran juga memerlukan langkah pengoptimuman tak linear yang diperlukan
masa berkadar dengan bilangan token unik ditemui. Pada masa penulisan, dbacl is
salah satu penapis mel sumber terbuka terpantas memandangkan senario penggunaan optimumnya, tetapi menggunakan
lebih banyak ingatan untuk pembelajaran daripada penapis lain.

PELBAGAI PROSES DAN DATA RAWATAN


Apabila menyimpan fail kategori, dbacl mula-mula menulis fail sementara di lokasi yang sama,
dan menamakan semula selepas itu. Jika masalah atau ranap berlaku semasa pembelajaran, kategori lama
oleh itu fail dibiarkan tanpa disentuh. Ini memastikan bahawa kategori tidak boleh dirosakkan, tidak
tidak kira berapa banyak proses yang cuba dipelajari atau dikelaskan secara serentak, dan bermakna ia sah
kategori tersedia untuk klasifikasi pada bila-bila masa.

Apabila menggunakan -m suis, kandungan fail dipetakan memori untuk membaca dan menulis pantas.
Ini, bersama-sama dengan -o suis, bertujuan terutamanya untuk tujuan ujian, apabila berpuluh-puluh
beribu-ribu mesej mesti dipelajari dan dijaringkan dalam makmal untuk diukur dbacl's
ketepatan. Kerana tiada penguncian fail dicuba atas sebab prestasi, rasuah berlaku
mungkin, melainkan anda memastikan bahawa hanya satu dbacl proses membaca atau menulis mana-mana fail pada mana-mana
diberi masa. Ini adalah satu-satunya kes (-m dan -o bersama-sama) apabila rasuah mungkin berlaku.

MEMORY Cara Guna


Apabila mengklasifikasikan dokumen, dbacl memuatkan semua kategori yang ditunjukkan ke dalam RAM, jadi jumlahnya
memori yang diperlukan adalah lebih kurang jumlah saiz fail kategori ditambah kecil tetap
atas kepala. Dokumen input digunakan semasa dibaca, jadi saiznya tidak penting,
tetapi barisan yang sangat panjang boleh mengambil ruang. Apabila menggunakan -m suis, kategori dibaca
menggunakan mmap(2) seperti yang ada.

Apabila belajar, dbacl menyimpan struktur besar dalam ingatan yang mengandungi banyak objek yang
tidak akan disimpan ke dalam kategori output. Saiz struktur ini adalah berkadar dengan
bilangan token unik dibaca, tetapi bukan saiz dokumen input, kerana ia adalah
dibuang semasa dibaca. Sebagai panduan kasar, struktur ini adalah 4x-5x saiz
fail kategori akhir yang dihasilkan.

Untuk mengelakkan pertumbuhan memori yang tidak terkawal, dbacl memperuntukkan secara lalai sejumlah kecil tetap
ingatan untuk token. Apabila ruang ini habis, token selanjutnya akan dibuang yang mempunyai
kesan memesongkan kategori yang dipelajari menjadikannya kurang boleh digunakan apabila lebih banyak token digugurkan. A
amaran dicetak pada STDERR dalam kes sedemikian.

. -h suis membolehkan anda menetapkan saiz awal ruang token dalam kuasa 2, iaitu "-h 17"
bermakna 2^17 = 131072 token yang mungkin. Jika anda menaip "dbacl -V", anda boleh melihat bilangan
bait diperlukan untuk setiap token apabila sama ada belajar atau mengelaskan. Darabkan nombor ini dengan
bilangan maksimum token yang mungkin untuk menganggarkan memori yang diperlukan untuk pembelajaran. The -H
tukar mari dbacl mengembangkan jadualnya secara automatik jika dan apabila diperlukan, sehingga maksimum
ditentukan. Jadi jika anda menaip "-H 21", maka saiz awal akan digandakan berulang kali jika
diperlukan, sehingga kira-kira dua juta token unik.

Apabila belajar dengan -X suis, segelintir dokumen input juga disimpan dalam RAM
melalui.

PERSEKITARAN


DBACL_PATH
Apabila pembolehubah ini ditetapkan, nilainya ditambah kepada setiap kategori nama fail yang
tidak bermula dengan '/' atau '.'.

ISYARAT


INT Jika isyarat ini ditangkap, dbacl hanya keluar tanpa melakukan sebarang pembersihan atau lain-lain
operasi. Isyarat ini selalunya boleh dihantar dengan menekan Ctrl-C pada papan kekunci. Lihat
stty(1).

HUP, BERHENTI, JANGKA
Jika salah satu daripada isyarat ini ditangkap, dbacl berhenti membaca input dan meneruskannya
operasi seolah-olah tiada lagi input tersedia. Ini adalah cara untuk berhenti dengan anggun,
tetapi ambil perhatian bahawa dalam mod pembelajaran, fail kategori akan ditulis berdasarkan
input tidak lengkap. Isyarat QUIT selalunya boleh dihantar dengan menekan Ctrl- pada
papan kekunci. Lihat stty(1).

USR1 Jika isyarat ini ditangkap, dbacl memuatkan semula kategori semasa paling awal
peluang yang boleh dilaksanakan. Ini biasanya tidak berguna sama sekali, tetapi mungkin istimewa
kes, seperti jika -f suis dipanggil bersama-sama dengan input dari jangka masa panjang
paip.

NOTA


dbacl fail kategori yang dijana adalah dalam format binari, dan mungkin atau mungkin tidak mudah alih ke
sistem menggunakan seni bina pesanan bait yang berbeza (ini bergantung pada bagaimana dbacl adalah
disusun). The -V tukar cetakan sama ada kategori mudah alih, atau anda boleh
eksperimen.

dbacl tidak mengenali ungkapan biasa yang setara secara fungsi, dan dalam kes ini
ciri pendua akan dikira beberapa kali.

Dengan setiap kategori yang dipelajari, pilihan baris arahan yang digunakan disimpan. Bila
mengelaskan, pastikan setiap kategori yang berkaitan dipelajari dengan set yang sama
pilihan (regeks dibenarkan berbeza), jika tidak, tingkah laku tidak ditentukan. Tidak ada
perlu mengulangi semua suis apabila mengelaskan.

Jika anda mendapat banyak amaran pendigitalan, maka anda cuba mempelajari terlalu banyak data sekaligus,
atau model anda terlalu kompleks. dbacl disusun untuk menjimatkan memori dengan mendigitalkan akhir
berat, tetapi anda boleh melumpuhkan pendigitalan dengan mengedit dbacl.h dan menyusun semula.

dbacl menawarkan beberapa tokenizer terbina dalam (lihat -e suis) dengan lebih banyak lagi akan datang pada masa hadapan
versi, kerana pengarang menciptanya. Walaupun tokenizer lalai mungkin berkembang, tidak
tokenizer hendaklah dialih keluar, supaya anda sentiasa boleh mensimulasikan sebelumnya dbacl tingkah laku
tertakluk kepada pembetulan pepijat dan perubahan seni bina.

Anggaran keyakinan yang diperolehi melalui -X suis adalah memandang rendah, iaitu lebih
konservatif daripada yang sepatutnya.

Gunakan dbacl dalam talian menggunakan perkhidmatan onworks.net


Pelayan & Stesen Kerja Percuma

Muat turun apl Windows & Linux

Arahan Linux

Ad




×
Pengiklanan
❤ ️Beli, tempah atau beli di sini — tanpa kos, membantu memastikan perkhidmatan percuma.