انگلیسیفرانسویاسپانیایی

Ad


فاویکون OnWorks

dbacl - آنلاین در ابر

dbacl را در ارائه دهنده هاست رایگان OnWorks از طریق Ubuntu Online، Fedora Online، شبیه ساز آنلاین ویندوز یا شبیه ساز آنلاین MAC OS اجرا کنید.

این دستور dbacl است که می تواند در ارائه دهنده هاست رایگان OnWorks با استفاده از یکی از چندین ایستگاه کاری آنلاین رایگان ما مانند Ubuntu Online، Fedora Online، شبیه ساز آنلاین ویندوز یا شبیه ساز آنلاین MAC OS اجرا شود.

برنامه:

نام


dbacl - یک طبقه‌بندی‌کننده بیزی دیگرامیک برای تشخیص متن.

خلاصه


dbacl [-01dvnirmwMNDXW] [-T نوع ] -l دسته [-h اندازه] [-H gsize] [-ایکس دسیم] [-ق
کیفیت] [-w حداکثر_سفارش] [-e دفتوک] [-O آنلاین] [-L اندازه] [-g regex] ...
[فایل]...

dbacl [-vnimNRX] [-h اندازه] [-T نوع] -c دسته [-ج دسته]... [-f نگه داشتن]... [فایل]...

dbacl -V

بررسی اجمالی


dbacl یک طبقه‌بندی کننده متن و ایمیل بیزی است. هنگام استفاده از -l سوئیچ، بدن را یاد می گیرد
متن و تولید فایلی به نام دسته که متن را خلاصه می کند. هنگام استفاده از -c
سوئیچ، یک جریان متن ورودی را با هر تعداد مقایسه می کند دسته فایل ها و خروجی ها
نام نزدیکترین مسابقه یا امتیازهای عددی مختلف که در زیر توضیح داده شده است.

در حالی که این صفحه راهنما به عنوان یک مرجع در نظر گرفته شده است، چندین آموزش وجود دارد و
اسنادی که می توانید برای دریافت اطلاعات تخصصی مطالعه کنید. اسناد خاص در مورد
طراحی dbacl و مدل های آماری که استفاده می کند را می توان در dbacl.ps یافت. برای یک
نمای کلی طبقه بندی متن با استفاده از dbacl، به tutorial.html مراجعه کنید. یک آموزش همراه
برای فیلتر کردن ایمیل، email.html است. اگر در گرفتن dbacl مشکل دارید
طبقه بندی مطمئن، is_it_working.html را بخوانید. بخش استفاده از این صفحه راهنما نیز
چند نمونه دارد

/usr/share/doc/dbacl/dbacl.ps

/usr/share/doc/dbacl/tutorial.html

/usr/share/doc/dbacl/email.html

/usr/share/doc/dbacl/is_it_working.html

dbacl از یک مدل زبان حداکثر آنتروپی (حداقل واگرایی) استفاده می کند که با احترام ساخته شده است
به یک معیار مرجع نموداری (توکن های ناشناخته از نمودارها پیش بینی می شوند، یعنی جفت های
نامه ها). عملاً این بدان معناست که الف دسته از توکن های موجود در ساخته شده است
مجموعه آموزشی، در حالی که نشانه های دیده نشده قبلی را می توان به طور خودکار از روی آنها پیش بینی کرد
نامه ها. نشانه در اینجا یا یک کلمه (قطعه) یا ترکیبی از کلمات (قطعه) است.
با توجه به سوئیچ های مختلف انتخاب شده است. یادگیری تقریباً با بهینه سازی توکن کار می کند
احتمالات تا زمانی که داده های آموزشی حداقل تعجب آور باشد.

خروج وضعیت


کنوانسیون های معمولی خروج از پوسته رعایت نمی شوند (با عرض پوزش!). هنگام استفاده از -l فرمان
فرم، dbacl صفر را در صورت موفقیت، غیر صفر در صورت بروز خطا برمی گرداند. هنگام استفاده از -c فرم،
dbacl یک عدد صحیح مثبت مربوط به را برمی گرداند دسته با بالاترین خلفی
احتمال در صورت تساوی، اولین دسته محتمل انتخاب می شود. اگر یک خطا
اتفاق می افتد ، dbacl صفر را برمی گرداند.

شرح


هنگام استفاده از -l فرم فرمان، dbacl وقتی یک یا چند نام فایل به آنها داده شود، یک دسته را یاد می گیرد،
که باید حاوی متن ASCII قابل خواندن باشد. اگر فایلی داده نشد، dbacl از STDIN یاد می گیرد. اگر
FILE یک دایرکتوری است، باز می شود و همه فایل های آن خوانده می شوند، اما زیرشاخه های آن نه.
نتیجه در فایل باینری به نام ذخیره می شود دسته، و به طور کامل جایگزین هر کدام می شود
مطالب قبلی به عنوان یک راحتی، اگر متغیر محیطی DBACL_PATH حاوی یک
دایرکتوری، سپس به مسیر فایل اضافه می شود، مگر اینکه دسته با '/' یا a شروع می شود
'.'.

متن ورودی برای یادگیری به طور پیش فرض به صورت متن ساده بدون ساختار فرض می شود. این هست
برای یادگیری ایمیل مناسب نیست، زیرا ایمیل حاوی رمزگذاری های مختلف حمل و نقل و
دستورالعمل های قالب بندی که می تواند اثربخشی طبقه بندی را کاهش دهد. باید از -T
در آن صورت تغییر دهید تا dbacl می داند که باید رمزگشایی و فیلتر MIME را انجام دهد
و HTML در صورت لزوم. مقادیر سوئیچ مناسب "-T email" برای ورودی ایمیل RFC2822 است.
"-T html" برای ورودی HTML، "-T xml" برای ورودی سبک XML عمومی و "-T text"
قالب متن ساده پیش فرض مقادیر دیگری نیز وجود دارد -T سوئیچ که همچنین اجازه می دهد تا خوب است
تنظیم قابلیت رمزگشایی

هنگام استفاده از -c فرم فرمان، dbacl تلاش برای طبقه بندی متن یافت شده در FILE، یا
اگر فایلی داده نشود STDIN. هر کدام ممکن است دسته باید جداگانه داده شود و باید داده شود
نام فایل یک مجموعه متنی که قبلاً آموخته شده است. به عنوان یک راحتی، اگر متغیر
DBACL_PATH حاوی یک دایرکتوری است که به هر مسیر فایلی که شروع نمی شود اضافه می شود
با یک '/' یا '.'. خروجی قابل مشاهده طبقه بندی به ترکیب بستگی دارد
سوئیچ های اضافی استفاده شده اگر از سوئیچ استفاده نشود، هیچ خروجی در STDOUT نشان داده نمی شود. با این حال،
dbacl همیشه یک کد خروج تولید می کند که می تواند آزمایش شود.

برای مشاهده خروجی یک طبقه بندی، باید حداقل از یکی از آنها استفاده کنید -v,-U,-n,-N,-D,-d
سوئیچ ها گاهی اوقات، می توان از آنها در ترکیب برای تولید یک تنوع طبیعی استفاده کرد
خروجی های فردی آنها گاهی، dbacl همچنین در صورت وجود هشدارهایی را در STDERR ایجاد می کند.

La -v سوئیچ نام بهترین دسته را در بین تمام انتخاب های داده شده خروجی می دهد.

La -U سوئیچ نام بهترین دسته را به همراه یک درصد اطمینان خروجی می دهد.
به طور معمول، این سوئیچ است که می خواهید استفاده کنید. درصد 100% به این معنی است dbacl
از انتخاب خود مطمئن است، در حالی که درصد 0٪ به این معنی است که برخی از دسته های دیگر به همان اندازه هستند
احتمال دارد. این احتمال مدل نیست، بلکه میزان مبهم بودن طبقه بندی را می سنجد
است، و می تواند برای برچسب گذاری طبقه بندی های نامطمئن استفاده شود (مثلاً اگر اطمینان 25٪ یا کمتر باشد).

La -N سوئیچ نام هر دسته را چاپ می کند و به دنبال آن احتمال (پسین) آن بیان می شود
به عنوان درصد درصدها همیشه 100 درصد جمع می شوند. این شهودی است، اما فقط ارزشمند است
اگر سند طبقه بندی شده حاوی تعداد انگشت شماری نشانه (ده یا کمتر) باشد. در مشترک
در مورد بسیاری از توکن های بیشتر، احتمالات همیشه بسیار نزدیک به 100٪ و 0٪ است.

La -n سوئیچ نام هر دسته را به دنبال لگاریتم منفی آن چاپ می کند
احتمال این معادل استفاده از -N سوئیچ، اما بسیار مفیدتر است. کوچکترین
عدد بهترین دسته را می دهد. یک شکل راحت تر استفاده از هر دو است -n و -v که
نام هر دسته را به دنبال آنتروپی متقاطع و تعداد توکن های تحلیل شده چاپ می کند.
آنتروپی متقاطع (در بیت) میانگین نرخ فشرده سازی قابل دستیابی را اندازه گیری می کند.
تحت مدل دسته بندی داده شده، به ازای هر نشانه متن ورودی. اگر از هر سه مورد استفاده کنید -n,-v,-X
سپس یک مقدار اضافی برای هر دسته تولید می شود که نشان دهنده نوعی p-value برای هر دسته است
امتیاز دسته این نشان می دهد که امتیاز در مقایسه با آموزش چقدر معمولی است
اسناد، اما فقط در صورتی کار می کند که -X سوئیچ در حین یادگیری و فقط برای برخی استفاده شد
انواع مدل ها (به عنوان مثال ایمیل). این مقادیر p به طور یکنواخت توزیع شده و مستقل هستند
(اگر دسته ها مستقل باشند)، بنابراین می توان با استفاده از آزمون مجذور کای فیشر ترکیب کرد
مقادیر p ترکیبی را برای گروه بندی دسته ها بدست آورید.

La -v و -X سوئیچ ها با هم نام هر دسته را چاپ می کنند و به دنبال آن یک نام تفصیلی
تجزیه امتیاز دسته، فاکتور در (نرخ واگرایی + آنتروپی شانون
نرخ )* تعداد توکن @ p-value. باز هم، این فقط در برخی از انواع مدل ها کار می کند.

La -v و -U سوئیچ ها نام هر دسته را چاپ می کنند و سپس تجزیه ای از آن را انجام می دهند
امتیاز دسته به (نرخ واگرایی + نرخ آنتروپی شانون # واریانس امتیاز)* نشانه
شمردن.

La -D سوئیچ متن ورودی را همانطور که در داخل اصلاح شده است چاپ می کند dbacl مقدم بر
نشانه گذاری به عنوان مثال، اگر یک سند ایمیل رمزگذاری شده MIME طبقه بندی شده است، پس این
متن رمزگشایی شده را چاپ می کند که در واقع توکن و طبقه بندی می شود. این سوئیچ است
عمدتا برای اشکال زدایی مفید است.

La -d سوییچ توکن ها و امتیازها را در حین خواندن حذف می کند. برای آن مفید است
اشکال زدایی، یا اگر می خواهید نمایش گرافیکی طبقه بندی ایجاد کنید. آ
توضیح دقیق خروجی خارج از محدوده این صفحه راهنما است، اما چنین است
اگر dbacl.ps را خوانده اید ساده است. تغییرات احتمالی شامل -d با -n
or -N.

طبقه بندی اصولاً با یک یا چند دسته قابل انجام است. وقتی دو یا بیشتر
دسته ها استفاده می شود، با توجه به متن ورودی، از احتمال پسین بیزی استفاده می شود.
با توزیع قبلی یکنواخت بر روی دسته ها. برای سایر انتخاب های قبلی، به ادامه مطلب مراجعه کنید
ابزار همراه بایزول(1). هنگامی که از یک دسته استفاده می شود، طبقه بندی می تواند انجام شود
با مقایسه امتیاز با یک آستانه. اما در عمل نتایج بسیار بهتری حاصل می شود
با چندین دسته به دست آمده است.

یادگیری و طبقه بندی را نمی توان با فراخوانی یکسانی با هم ترکیب کرد
بدون مشکل قفل و جدا dbacl فرآیندها می توانند به طور همزمان با آشکار عمل کنند
نتایج، زیرا عملیات فایل به صورت اتمی طراحی شده است.

در نهایت توجه داشته باشید که dbacl مجموعه اسناد یا محاسبات شما را مدیریت نمی کند
دسته ها، و به ویژه به شما اجازه نمی دهد که یک فایل دسته بندی موجود را گسترش دهید
با مدارک جدید این برخلاف فیلترهای هرزنامه های مختلف فعلی است که می توانند موارد جدید را یاد بگیرند
ایمیل ها به صورت تدریجی این محدودیت از dbacl تا حدی به دلیل روش غیر خطی است
مورد استفاده در الگوریتم یادگیری، و تا حدی تمایل به افزایش انعطاف پذیری.

با ذخیره اسناد آموزشی خود می توانید اثر یادگیری افزایشی را شبیه سازی کنید
بایگانی و اضافه شدن به این آرشیوها در طول زمان، یادگیری مجدد از ابتدا به صورت دوره ای.
اگر این آرشیوها به سرعت فشرده و از حالت فشرده خارج شوند، یادگیری در واقع سریعتر است
در موقع لزوم. با حفظ کنترل آرشیو خود، هرگز نمی توانید اطلاعات موجود در آن را از دست بدهید
دسته های خود را، و شما به راحتی می توانید با سوئیچ های مختلف یا توکنیزاسیون یا
در صورت تمایل مجموعه ای از اسناد آموزشی

ثانوی سوئیچ ها


به طور پیش فرض، dbacl متن ورودی را به عنوان یک کل طبقه بندی می کند. با این حال، هنگام استفاده از -f گزینه،
dbacl می توان برای فیلتر کردن هر خط ورودی به طور جداگانه استفاده کرد و فقط خطوطی را چاپ کرد که
مطابقت با یک یا چند مدل شناسایی شده توسط نگه داشتن (از نام یا شماره دسته برای مراجعه به a استفاده کنید
دسته بندی). اگر می خواهید برخی از خطوط را فیلتر کنید، مفید است، اما توجه داشته باشید که اگر خطوط
کوتاه هستند، پس میزان خطا می تواند بالا باشد.

La -e,-w,-g,-j سوئیچ ها برای انتخاب یک طرح توکن سازی مناسب استفاده می شوند. آ
نشانه کلمه یا قطعه کلمه یا ترکیبی از کلمات یا قطعات است. شکل ژتون ها
مهم است زیرا اساس مدل های زبانی مورد استفاده را تشکیل می دهد dbacl. -e
سوئیچ یک طرح توکن سازی از پیش تعریف شده را انتخاب می کند که سریع اما محدود است. در -w
سوئیچ توکن های ترکیبی مشتق شده از را مشخص می کند -e تعویض. به عنوان مثال، "-e alnum -w 2"
به این معنی است که نشانه‌ها باید قطعات الفبایی عددی باشند که در جفت‌های همپوشانی ترکیب شده‌اند
(بیگرام). وقتی که -j سوئیچ استفاده می شود، تمام نشانه ها به حروف کوچک تبدیل می شوند که
تعداد توکن های ممکن و در نتیجه مصرف حافظه را کاهش می دهد.

اگر -g سوئیچ استفاده می شود، شما می توانید به طور کامل مشخص کنید که توکن ها چگونه باید باشند
با استفاده از یک عبارت منظم چندین -g سوئیچ ها را می توان برای ساخت مجتمع استفاده کرد
برای انتخاب می توان از طرح های توکن سازی و پرانتزهای درون هر عبارت استفاده کرد
قطعات و آنها را به n گرم ترکیب کنید. هزینه چنین انعطاف پذیری کاهش می یابد
طبقه بندی و سرعت یادگیری هنگام آزمایش طرح‌های توکن‌سازی، سعی کنید از آن استفاده کنید
la -d or -D هنگام یادگیری یا طبقه بندی سوئیچ می کند، زیرا آنها توکن ها را چاپ می کنند
به صراحت، بنابراین شما می توانید ببینید که چه قطعات متنی برداشته شده یا از دست رفته است. برای معمولی
نحو بیان، ببینید regex(7).

La -h و -H سوئیچ ها میزان حافظه را تنظیم می کنند dbacl ممکن است برای یادگیری استفاده شود. متن
طبقه بندی می تواند مقدار زیادی از حافظه استفاده کند، و به طور پیش فرض dbacl خود را محدود می کند حتی در
هزینه دقت یادگیری در بسیاری از موارد در صورت رسیدن به حد مجاز، یک پیام هشدار دهنده خواهد بود
با توصیه هایی در STDERR چاپ شود.

هنگامی که چندین بار یک دسته را دوباره یاد می گیرید، سرعت قابل توجهی را می توان به دست آورد
با استفاده از -1 تغییر دهید، زیرا این امکان را می دهد تا احتمالات قبلاً آموخته شده را از آنها خوانده شود
دسته و استفاده مجدد

توجه داشته باشید که دقت طبقه بندی در درجه اول به مقدار و کیفیت آن بستگی دارد
نمونه های آموزشی، و پس از آن فقط در مقدار بهینه سازی.

خروج وضعیت


هنگام استفاده از -l فرم فرمان، dbacl موفقیت صفر را برمی گرداند. هنگام استفاده از -c فرم،
dbacl یک عدد صحیح مثبت (1,2,3،XNUMX،XNUMX...) مربوط به را برمی گرداند دسته با بالاترین
احتمال پسین در صورت تساوی، اولین دسته محتمل انتخاب می شود. اگر یک
خطا رخ می دهد، dbacl صفر را برمی گرداند.

OPTIONS


-0 هنگام یادگیری، از بارگذاری اولیه وزن جلوگیری می کند. به طور معمول، dbacl بررسی می کند که آیا دسته
فایل از قبل وجود دارد، و اگر چنین است، سعی می کند از وزن های موجود به عنوان شروع استفاده کند
نقطه. این می تواند به طور چشمگیری سرعت یادگیری را افزایش دهد. اگر -0 سوئیچ (صفر) تنظیم شده است،
سپس dbacl طوری رفتار می کند که گویی هیچ فایل دسته ای از قبل وجود ندارد. این عمدتا برای
آزمایش کردن. این سوئیچ اکنون به طور پیش فرض فعال است تا در برابر کاهش وزن محافظت شود
که می تواند دقت را در بسیاری از تکرارهای یادگیری کاهش دهد. استفاده کنید -1 به زور
پیش بارگذاری

-1 در صورتی که فایل دسته از قبل وجود داشته باشد، بارگذاری اولیه وزن را اجباری کنید. بحث در مورد را ببینید
-0 سوئیچ.

-A اضافه کردن نمرات. هر خط ورودی در STDOUT نوشته می شود و امتیازات dbacl هستند
ضمیمه شده است. این برای پس پردازش با مفید است بایزول(1). برای سهولت
پردازش، هر خط ورودی اصلی با یک فاصله منفرد فرورفته می شود (برای تشخیص
آنها را از نمرات ضمیمه)، و خط با امتیازات (اگر -n استفاده می شود) است
پیشوند با رشته "scores". اگر نسخه دوم از dbacl نیاز به خواندن این
خروجی بعدا، باید با فراخوانی شود -A سوئیچ.

-d پارامترهای مدل را به STDOUT بریزید. در ارتباط با -l گزینه، این
خلاصه ای قابل خواندن برای انسان از مدل حداکثر آنتروپی تولید می کند. در رابطه با
la -c گزینه، سهم هر نشانه را در امتیاز نهایی نمایش می دهد.
تمام خروجی های عادی دیگر را سرکوب می کند.

-e کلاس کاراکتر را برای توکن‌سازی پیش‌فرض (نه مبتنی بر regex) انتخاب کنید. به صورت پیش فرض،
نشانه ها فقط رشته های الفبایی هستند. این مربوط به موردی است که دفتوک is
"آلفا". مقادیر ممکن برای دفتوک "آلفا"، "النوم"، "گراف"، "char"، "cef" هستند.
و "adp". دو مورد آخر توکنایزرهای سفارشی هستند که برای پیام های ایمیل در نظر گرفته شده اند. دیدن
همچنین ایزالفا(3). نشانه‌ساز «char» نویسه‌های تکی قابل چاپ را انتخاب می‌کند
نسبت به توکن های بزرگتر، و فقط برای آزمایش در نظر گرفته شده است.

-f هر خط ورودی را به طور جداگانه فیلتر کنید و فقط خطوطی را که با آن مطابقت دارند به STDOUT منتقل کنید
دسته مشخص شده به عنوان نگه داشتن. این گزینه باید به طور مکرر برای هر کدام استفاده شود
دسته که باید حفظ شود. نگه داشتن می تواند یکی باشد دسته نام فایل یا الف
عدد صحیح مثبت نشان دهنده مورد نیاز است دسته به همان ترتیبی که در آن ظاهر می شود
خط فرمان

خطوط خروجی به محض نوشتن پاک می شوند. اگر فایل ورودی یک لوله باشد
یا دستگاه کاراکتر، سپس سعی می شود از حالت خط بافر استفاده شود، در غیر این صورت
از بافر بلوکی کارآمدتر استفاده می شود.

-g فقط ویژگی هایی را بیاموزید که با عبارت منظم توسعه یافته توضیح داده شده اند regex. این
روش انتخاب ویژگی پیش‌فرض را لغو می‌کند (نگاه کنید به -w گزینه) و برای هر یک می آموزد
خط ورودی، فقط نشانه‌هایی که از الحاق رشته‌ها ساخته می‌شوند
با عبارات فرعی برچسب گذاری شده در ارائه شده مطابقت دهید regex. تمام رشته های فرعی که
همخوانی داشتن regex در یک پسوند از هر خط ورودی به عنوان ویژگی در نظر گرفته می شود، حتی اگر
روی خط ورودی همپوشانی دارند.

به عنوان یک راحتی اختیاری، regex می تواند شامل پسوند باشد ||xyz که نشان می دهد
کدام عبارات فرعی در پرانتز باید برچسب گذاری شوند. در این مورد، XYZ باید
منحصراً از ارقام 1 تا 9 تشکیل شده است که دقیقاً آن عبارات فرعی را شماره گذاری می کند
باید تگ شود متناوبا، اگر هیچ پرانتزی در داخل وجود نداشته باشد regex، پس از آن است
فرض می شود که کل عبارت باید گرفته شود.

-h اندازه جدول هش را 2^ تنظیم کنیداندازه عناصر. هنگام استفاده از -l گزینه، این
به تعداد کل ویژگی های مجاز در مدل حداکثر آنتروپی اشاره دارد
یاد گرفت. هنگام استفاده از -c گزینه همراه با -M سوئیچ و نوع چندجمله ای
دسته ها، این به حداکثر تعداد ویژگی هایی اشاره دارد که در طول در نظر گرفته شده است
طبقه بندی. بدون -M سوئیچ، این گزینه هیچ تاثیری ندارد.

-i حالت کاملا بین المللی. استفاده از کاراکترهای گسترده در داخل را مجبور می کند، که
در برخی مناطق ضروری است. این جریمه عملکرد قابل توجهی را به همراه دارد.

-j ویژگی ها را به حروف بزرگ و کوچک حساس کنید. به طور معمول، تمام ویژگی ها به حروف کوچک تبدیل می شوند
در طول پردازش، که نیازهای ذخیره سازی را کاهش می دهد و آمار را بهبود می بخشد
تخمین برای مجموعه داده های کوچک با این گزینه از حروف بزرگ اصلی استفاده می شود
برای هر ویژگی این می تواند دقت طبقه بندی را بهبود بخشد.

-m به طور تهاجمی دسته‌ها را در حافظه نقشه‌برداری می‌کند و برای جلوگیری از آن در RAM قفل می‌کند
در صورت امکان تعویض این زمانی مفید است که سرعت در اولویت است و حافظه مهم است
فراوان، به عنوان مثال هنگام آزمایش طبقه بندی کننده در مجموعه داده های بزرگ.

قفل کردن ممکن است به کاهش محدودیت‌های کاربر نیاز داشته باشد اولیمیت(1). از سیستم خود بپرسید
مدیر هنگام استفاده از -m سوئیچ همراه با -o سوئیچ، به عنوان تنها
یک فرآیند dbacl باید در یک زمان یاد بگیرد یا طبقه بندی کند تا از خراب شدن پرونده جلوگیری شود. اگر
هیچ یادگیری صورت نمی گیرد، سپس -m سوئیچ برای طبقه بندی همیشه برای استفاده بی خطر است.
همچنین به بحث برای -o سوئیچ.

-n نمرات چاپ برای هر دسته. هر نمره حاصل ضرب دو عدد است
آنتروپی متقاطع و پیچیدگی متن ورودی در هر مدل. چند برابر
با هم، آنها احتمال ورود به سیستم را نشان می دهند که ورودی شبیه مدل است. به
این اعداد را جداگانه ببینید، همچنین از -v گزینه. در ارتباط با -f
گزینه، فیلتر کردن را متوقف می کند، اما هر خط ورودی را با لیستی از امتیازات چاپ می کند
برای آن خط

-q انتخاب کنید کیفیت از یادگیری، کجا کیفیت می تواند 1,2,3,4،XNUMX،XNUMX،XNUMX باشد. مقادیر بالاتر زمان بیشتری می برد
برای یادگیری، و باید کمی دقیق تر باشد. به طور پیش فرض کیفیت 1 است اگر
فایل دسته وجود ندارد یا وزن ها را نمی توان از قبل بارگذاری کرد و 2 در غیر این صورت.

-o هنگام یادگیری، تعداد نشانه های جزئی را می خواند/نوشتن می کند تا بتوان از آنها مجددا استفاده کرد. به طور معمول،
فایل های دسته بندی دقیقاً از داده های ورودی داده شده آموخته می شوند و حاوی نیستند
اطلاعات اضافی هنگامی که این گزینه در حال اجرا است، برخی از اطلاعات اضافی است
در فایل ذخیره شده است آنلاین، بعد از اینکه همه ورودی ها خوانده شد. این اطلاعات را می توان دوباره خواند
دفعه بعد که یادگیری اتفاق می افتد، برای ادامه در جایی که مجموعه داده قبلی باقی مانده است
خاموش اگر آنلاین وجود ندارد، ایجاد شده است. اگر آنلاین وجود دارد، قبلا خوانده می شود
یادگیری، و پس از به روز رسانی. فایل تقریباً 3 برابر بزرگتر است (در
حداقل) از آموخته ها دسته.

In dbacl، به روز رسانی فایل ها اتمی هستند، اما در صورت استفاده از -o سوئیچ، دو یا بیشتر
فرآیندها نباید به طور همزمان یاد بگیرند، زیرا تنها یک فرآیند یک فرآیند ماندگار را می نویسد
دسته و حافظه خالی در -m سوئیچ همچنین می تواند سرعت یادگیری آنلاین را افزایش دهد، اما
مراقب فساد احتمالی باشید فقط یک فرآیند باید یک فایل را بخواند یا بنویسد. این
گزینه در درجه اول برای اجرای آزمایشی کنترل شده در نظر گرفته شده است.

-r فقط مدل مرجع نموداری را بیاموزید. از یادگیری ویژگی های اضافی در
مجموعه متن

-v حالت پرحرف. هنگام یادگیری، جزئیات محاسبات را چاپ کنید، چه زمانی
طبقه بندی، نام محتمل ترین را چاپ کنید دسته. در رابطه با
la -n گزینه، نمرات را به عنوان یک محصول صریح از آنتروپی متقاطع چاپ می کند و
پیچیدگی

-w ویژگی های پیش فرض را انتخاب کنید تا n گرم باشد حداکثر_سفارش. این ناسازگار است
la -g گزینه ای که همیشه اولویت دارد. اگر نه -w or -g گزینه ها داده شده است،
dbacl فرض می کند -w 1. توجه داشته باشید که n-گرم برای n بزرگتر از 1 خط را نمی‌کشد
به طور پیش فرض می شکند. در -S سوئیچ راه اندازی خط را فعال می کند.

-x احتمال کاهش را روی 1 - 2 ^( تنظیم کنید-دسیم). برای کاهش نیاز به حافظه زمانی که
یادگیری، برخی از ورودی ها به طور تصادفی نادیده گرفته می شوند و تنها تعدادی به مدل اضافه می شوند.
رفتار دقیق بستگی به موارد قابل اجرا دارد -T گزینه (پیش فرض است -T "متن"). چه زمانی
نوع "ایمیل" نیست (به عنوان مثال "متن")، سپس ویژگی های ورودی فردی به آن اضافه می شود
احتمال 2^(-دسیم). وقتی نوع "ایمیل" است، پیام های ورودی کامل هستند
با احتمال 2^(-دسیم). در هر یک از این پیام ها، همه ویژگی ها هستند
استفاده شده.

ورودی و نمرات انتظار می رود. با این سوئیچ، dbacl انتظار دارد خطوط ورودی باشد
تورفتگی توسط یک کاراکتر فاصله (که پس از آن نادیده گرفته می شود). خطوطی که با
هر شخصیت دیگری نادیده گرفته می شود. این همتای -a سوئیچ بالا
هنگام استفاده همراه با -a تعویض، dbacl خطوط رد شده را همانطور که هستند خروجی می دهد،
و فضای جلوی هر خط ورودی پردازش شده را دوباره وارد می کند.

-D خروجی اشکال زدایی چاپ. به طور معمول استفاده نکنید، اما می تواند برای نمایش آن بسیار مفید باشد
ویژگی هایی را که در حین یادگیری انتخاب شده اند فهرست کنید.

-H اجازه دهید جدول هش حداکثر تا 2^ بزرگ شودgsize عناصر در طول یادگیری
اندازه اولیه توسط -h گزینه.

-L معیار مرجع نموداری برای انتقال کاراکترها را انتخاب کنید. در اندازه می تواند
یکی از "یکنواخت"، "dirichlet" یا "maxent". پیش فرض "یکنواخت" است.

-M Force محاسبات چند جمله ای. هنگام یادگیری، ویژگی های مدل را مجبور می کند که باشد
چند جمله ای درمان می شود. هنگام طبقه‌بندی، امتیازهای آنتروپی را برای بازتاب تصحیح می‌کند
احتمالات چند جمله ای (فقط برای مدل های نوع چند جمله ای، در صورت وجود قابل استفاده است).
نمرات همیشه پایین تر خواهد بود، زیرا ترتیب ویژگی ها از بین می رود.

-N احتمالات پسین را برای هر کدام چاپ کنید دسته. این موضوع عرضه شده را فرض می کند
دسته بندی ها فهرست جامعی از احتمالات را تشکیل می دهند. در ارتباط با -f
گزینه، فیلتر کردن را متوقف می کند اما هر خط ورودی را که با خلاصه ای از آن اضافه شده است چاپ می کند
توزیع پسین برای آن خط.

-R شامل یک دسته اضافی برای متن کاملا تصادفی است. دسته "تصادفی" نامیده می شود.
فقط هنگام استفاده از -c گزینه.

-S راه اندازی خط را فعال کنید. این همراه با مفید است -w گزینه ای برای اجازه n-gram
برای n > 1 برای نادیده گرفتن خط شکن، بنابراین یک نشانه پیچیده می تواند پس از پایان ادامه یابد
خط این برای ایمیل توصیه نمی شود.

-T قالب متن غیر استاندارد را مشخص کنید. به صورت پیش فرض، dbacl فرض می کند که متن ورودی a است
فایل متنی کاملا اسکی این مربوط به موردی است که نوع "متن" است.

چندین نوع و زیرگروه وجود دارد که می توان از آنها برای پاک کردن متن ورودی استفاده کرد
نشانه های خارجی قبل از اینکه یادگیری یا طبقه بندی واقعی انجام شود. هر (زیر) نوع
شما می خواهید استفاده کنید باید با یک علامت جداگانه نشان داده شود -T گزینه ای در خط فرمان،
و به طور خودکار نوع مربوطه را دلالت می کند.

نوع "متن" برای متن ساده بدون ساختار است. هیچ پاکسازی انجام نمی شود. این هست
اگر هیچ نوع در خط فرمان داده نشده باشد، پیش‌فرض است.

نوع "ایمیل" برای فایل های ورودی با فرمت mbox یا ایمیل های تک RFC822 است. سرصفحه ها
شناخته می شوند و اکثر آنها نادیده گرفته می شوند. برای اضافه کردن هدرهای استاندارد RFC822 اضافی
(به جز هدرهای ردیابی)، از زیرنوع "email:headers" استفاده کنید. برای گنجاندن ردیابی
هدرها، از زیرگروه "email:theaders" استفاده کنید. برای گنجاندن تمام سرصفحه ها در ایمیل، استفاده کنید
زیرگروه "email:xheaders". برای رد شدن از همه سرصفحه ها، به جز موضوع، استفاده کنید
"email:noheaders". برای اسکن پیوست های باینری برای رشته ها، از "email:atts" استفاده کنید.
زیرنوع

هنگامی که نوع "ایمیل" اعمال می شود، نشانه گذاری HTML به طور خودکار از متن حذف می شود
پیوست ها به جز پیوست های متنی/ساده. همچنین برای حذف نشانه گذاری HTML از حالت ساده
پیوست های متنی، از "email:noplain" استفاده کنید. برای جلوگیری از حذف نشانه گذاری HTML در تمام متن
پیوست ها، از "email:plain" استفاده کنید.

نوع "html" برای حذف نشانه گذاری HTML (بین و برچسب ها) و
متن اطراف توجه داشته باشید که اگر نوع "ایمیل" فعال باشد، "html" است
به طور خودکار فقط برای پیوست های پیام سازگار فعال می شود.

نوع "xml" مانند "html" است، اما افتخار نمی کند و ، و نمی کند
برچسب‌ها را تفسیر می‌کند (بنابراین این باید به‌طور صحیح‌تر حذف «علامت‌گذاری زاویه» نامیده شود، و
هیچ ربطی به معنای واقعی XML ندارد).

هنگامی که "html" فعال می شود، بیشتر ویژگی های نشانه گذاری از بین می روند (برای مقادیر "most" بسته
به همه'). زیرنوع "html:links" URL های پیوند را مجبور به تجزیه و یادگیری می کند.
که در غیر این صورت نادیده گرفته می شود. زیرگروه "html:alt" تجزیه را مجبور می کند
متن جایگزین در ویژگی های ALT و تگ های مختلف دیگر. "html:scripts"
نوع فرعی تجزیه اسکریپت ها را مجبور می کند، "html:styles" تجزیه سبک ها را،
"html:forms" تجزیه مقادیر فرم را مجبور می کند، در حالی که "html:comments" تجزیه مقادیر فرم را مجبور می کند
نظرات HTML

-U چاپ (U) ابهام. هنگامی که همراه با استفاده می شود -v سوئیچ، نمرات چاپ می کند
به دنبال انحراف معیار تجربی آنها. هنگامی که به تنهایی استفاده می شود، بهترین چاپ را انجام می دهد
دسته، و به دنبال آن یک احتمال تخمین زده شده که انتخاب این دسته است
بدون ابهام به طور دقیق تر، احتمال عدم همپوشانی CLT را اندازه گیری می کند
فواصل اطمینان برای نمره هر دسته (اگر همپوشانی وجود داشته باشد، وجود دارد
گنگ).

این احتمال تخمین زده می تواند به عنوان یک پرچم "نامطمئن" استفاده شود، به عنوان مثال اگر تخمین زده شود
احتمال کمتر از 50 درصد است. به طور رسمی، نمره 0٪ به معنای دسته دیگری است
به همان اندازه به احتمال زیاد برای ورودی اعمال می شود، و نمره 100٪ به معنای عدم وجود دسته دیگری است
به احتمال زیاد برای ورودی اعمال می شود. توجه داشته باشید که این نوع اعتماد به آن ارتباطی ندارد
la -X تعویض. همچنین، اگر سند باشد، تخمین احتمال معمولاً پایین است
کوتاه است، یا اگر پیام حاوی نشانه های زیادی باشد که قبلاً هرگز دیده نشده اند
(فقط برای اندازه گیری نموداری یکنواخت اعمال می شود).

-V شماره نسخه برنامه را چاپ کرده و خارج شوید.

-W مانند -w است، اما مانع از ورود ویژگی‌ها به خطوط جدید می‌شود. توضیحات را ببینید -w.

-X اعتماد به نفس در نمره محاسبه شده برای هر یک را چاپ کنید دسته، هنگامی که با هم استفاده می شود
با -n or -N تعویض. در صورت استفاده، مدل را برای نمرات اطمینان آماده می کند
la -l تعویض. اطمینان تخمینی از معمولی بودن امتیاز است،
با فرض صحت مقوله داده شده فرضیه صفر. هنگام استفاده با
-v سوئیچ به تنهایی، امتیاز را به عنوان واگرایی تجربی به اضافه شانون فاکتور می کند
آنتروپی، ضرب در پیچیدگی، به ترتیب. در -X سوئیچ در پشتیبانی نمی شود
همه مدل‌های ممکن را نشان می‌دهد و در صورتی که قابل محاسبه نباشد، درصد "0.0" را نمایش می‌دهد.
توجه داشته باشید که برای اسناد ناشناخته، کاملاً معمول است که اعتمادهای نزدیک به آن وجود داشته باشد
صفر

طریقه استفاده


برای ایجاد دو فایل دسته بندی در دایرکتوری فعلی از دو فایل متنی ASCII به نام
Mark_Twain.txt و William_Shakespeare.txt را به ترتیب تایپ کنید:

% dbacl -l twain Mark_Twain.txt
% dbacl -l تکان دادن William_Shakespeare.txt

اکنون می توانید متن ورودی را طبقه بندی کنید، به عنوان مثال:

% echo "سلام" | لرزش dbacl -v -c twain -c
تواین
% echo "بودن یا نبودن" | لرزش dbacl -v -c twain -c
لرزش

توجه داشته باشید که -v حداقل گزینه لازم است، در غیر این صورت dbacl چیزی چاپ نمی کند
مقدار بازگشتی در حالت اول 1 و در حالت دوم 2 است.

% echo "بودن یا نبودن" | لرزش dbacl -v -N -c تواین -c
دوگانه 22.63% لرزش 77.37%
% echo "بودن یا نبودن" | dbacl -v -n -c twain -c لرزش
دوتایی 7.04 * 6.0 شیک 6.74 * 6.0

این فراخوان ها معادل هستند. اعداد 6.74 و 7.04 نشان دهنده این است که چقدر نزدیک است
میانگین توکن برای هر دسته است و 6.0 تعداد توکن های مشاهده شده است. اگر بخواهید
برای چاپ یک مقدار اطمینان ساده همراه با بهترین دسته، جایگزین کنید -v با -U.

% echo "بودن یا نبودن" | لرزش dbacl -U -c twain -c
لرزش # 34%

توجه داشته باشید که احتمال واقعی دسته لرزش در مقابل دسته تواین 77.37٪ است، اما
محاسبه تا حدودی مبهم است و 34٪ اطمینان از 100٪ است که
محاسبه از نظر کیفی صحیح است.

فرض کنید فایل document.txt حاوی خطوط متن انگلیسی است که با خطوط نویز در هم آمیخته شده اند. به
با فرض اینکه یک دسته بندی موجود دارید، خطوط نویز را از خطوط انگلیسی فیلتر کنید
تکان دادن بگو، تایپ کن:

% dbacl -c shake -f shake -R document.txt > document.txt_eng
% dbacl -c shake -f تصادفی -R document.txt > document.txt_rnd

توجه داشته باشید که کیفیت نتایج بسته به میزان تکان دادن دسته ها متفاوت خواهد بود
و تصادفی هر خط ورودی را نشان می دهد. گاهی اوقات دیدن پشتی مفید است
احتمالات برای هر خط بدون فیلتر:

% dbacl -c shake -f shake -RN document.txt > document.txt_probs

اکنون می توانید احتمالات پسین را برای هر خط متن با خط دیگری پس پردازش کنید
اسکریپت، برای تکرار یک قانون تصمیم گیری دلخواه بیزی به انتخاب شما.

در مورد خاص دقیقاً دو دسته، روش تصمیم گیری بهینه بیزی می تواند
برای اسناد به شرح زیر اجرا شود: اجازه دهید p1 احتمال قبلی که ورودی باشد
متن به عنوان طبقه بندی می شود class1. در نتیجه، احتمال قبلی طبقه بندی به عنوان
class2 1 است - p1. اجازه دهید u12 هزینه طبقه بندی اشتباه الف باشد class1 متن ورودی به عنوان
متعلق به class2 و بالعکس برای u21. ما فرض می کنیم که هیچ هزینه ای برای طبقه بندی وجود ندارد
به درستی. سپس دستور زیر تصمیم بیزی بهینه را پیاده سازی می کند:

% dbacl -n -c class1 -c class2 | awk '{ if($2 * p1 * u12 > $4 * (1 - p1🇧🇷 u21) {
چاپ 1 دلار؛ } else { چاپ $3; } }'

dbacl همچنین می تواند در ارتباط با تبلیغ کردن(1) برای پیاده سازی یک بیزی ساده
سیستم طبقه بندی ایمیل فرض کنید نامه های دریافتی باید به صورت خودکار تحویل داده شوند
به یکی از سه پوشه ایمیل که در $MAILDIR قرار دارد و نامگذاری شده است کار, شخصیو اسپم.
در ابتدا، اینها باید ایجاد و با ایمیل های نمونه مناسب پر شوند. آ کرونتاب(1)
فایل را می توان برای یادگیری سه دسته یک بار در روز استفاده کرد، به عنوان مثال

CATS=$HOME/.dbacl
5 0 * * * dbacl -T ایمیل -l $CATS/کار $MAILDIR/کار
10 0 * * * dbacl -T ایمیل -l $CATS/شخصی $MAILDIR/شخصی
15 0 * * * dbacl -T ایمیل -l $CATS/هرزنامه $MAILDIR/هرزنامه

برای تحویل خودکار هر ایمیل دریافتی در پوشه مناسب، موارد زیر را انجام دهید
procmailrc(5) می توان از قطعه دستور غذا استفاده کرد:

CATS=$HOME/.dbacl

# طبقه بندی کننده هرزنامه را اجرا کنید
: 0 c
YAY=| ایمیل dbacl -vT -c $CATS/کار -c $CATS/شخصی -c $CATS/هرزنامه

# ارسال به صندوق پستی مناسب
: 0:
*؟ test -n "$YAY"
$MAILDIR/$YAY

: 0:
$DEFAULT

گاهی اوقات، dbacl ایمیل را به صندوق پستی اشتباهی ارسال می کند. در آن صورت، طبقه بندی اشتباه شده است
پیام باید از مقصد اشتباه خود حذف شود و در صندوق پستی صحیح قرار گیرد.
دفعه بعد که پیام های شما آموخته شد، خطا تصحیح خواهد شد. اگر آن را در
دسته بندی اشتباه، dbacl آمار بدنه اشتباه را یاد خواهد گرفت.

ویژگی‌های متن پیش‌فرض (توکن‌ها) توسط خوانده می‌شوند dbacl رشته های صرفا الفبایی هستند که
نیازهای حافظه را به حداقل می رساند اما در برخی موارد می تواند غیر واقعی باشد. برای ساخت مدل ها
بر اساس نشانه های الفبایی عددی، از -e تعویض. مثال زیر نیز از گزینه اختیاری استفاده می کند
-D سوئیچ، که لیستی از نشانه های واقعی موجود در سند را چاپ می کند:

% dbacl -e alnum -D -l twain Mark_Twain.txt | کمتر

همچنین می‌توان روش انتخاب ویژگی پیش‌فرض مورد استفاده برای یادگیری را نادیده گرفت
مدل دسته با استفاده از عبارات منظم. به عنوان مثال، موارد زیر را کپی می کند
روش انتخاب ویژگی پیش‌فرض در زبان C، در حالی که بسیار کندتر است:

% dbacl -l twain -g '^([[:alpha:]]+)' -g '[^[:alpha:]]([[:alpha:]]+)' Mark_Twain.txt

دسته دوگانه ای که به دست می آید فقط به تک کلمات الفبایی در متن بستگی دارد
فایل Mark_Twain.txt (و آمار نمودار محاسبه شده برای پیش بینی). برای یک ثانیه
به عنوان مثال، دستور زیر یک مدل مارکویی صاف شده (کلمه بیگرام) می سازد که
به جفت کلمات متوالی در هر سطر بستگی دارد (اما جفت ها نمی توانند در یک خط قرار بگیرند
زنگ تفريح):

% dbacl -l twain2 -g '(^|[^[:alpha:]])([[:alpha:]]+)||2' -g
'(^|[^[:alpha:]])([[:alpha:]]+)[^[:alpha:]]+([[:alpha:]]+)||23' Mark_Twain.txt

مدل های کلی تر، مبتنی بر خط، n-gram از همه سفارشات (تا 7) را می توان در یک مشابه ساخت.
مسیر. برای ساخت مدل‌های مبتنی بر پاراگراف، باید پیکره‌های ورودی را دوباره قالب‌بندی کنید
بیدار(1) یا SED(1) برای به دست آوردن یک پاراگراف در هر خط. اندازه خط با موجود محدود است
حافظه، اما توجه داشته باشید که عملکرد regex برای خطوط طولانی به سرعت کاهش می یابد.

کارایی


فرض اساسی یادگیری آماری این است که تعداد نسبتا کمی از
اسناد آموزشی می توانند مجموعه بسیار بزرگتری از اسناد ورودی را نشان دهند. بنابراین در طولانی مدت
در حال اجرا، یادگیری می تواند بدون تأثیر جدی بر دقت طبقه بندی متوقف شود. در حالی که
در واقعیت درست نیست، این فرض به طرز شگفت انگیزی برای مشکلاتی مانند ایمیل درست است
فیلتر کردن در عمل، این بدان معنی است که یک پیکره خوب در مرتبه ده هزار انتخاب شده است
اسناد برای نتایج بسیار دقیق برای سالها کافی است. یادگیری مستمر بعد از
چنین جرم بحرانی منجر به کاهش بازده می شود. البته، زمانی که ورودی دنیای واقعی
الگوهای اسناد به طور چشمگیری تغییر می کنند، قدرت پیش بینی مدل ها می تواند از بین برود. در
از طرف دیگر، چند صد سند در اکثر موارد نتایج قابل قبولی را ارائه می دهند.

dbacl به شدت برای دسته بندی های مکرر اما دسته ای نادر بهینه شده است
یادگیری. این بهینه بلندمدت است که در بالا توضیح داده شد. در شرایط ایده آل، dbacl می توان
طبقه‌بندی صد ایمیل در ثانیه بر روی سخت‌افزار ارزان قیمت (500 مگاهرتز Pentium III). یادگیری
سرعت خیلی کمتر نیست، اما برای یک سند بزرگ، عملاً زمان بیشتری می برد
مجموعه ها به دلایل مختلف هنگام استفاده از -m سوئیچ، ساختارهای داده هستند
در صورت امکان به طور تهاجمی در حافظه نگاشت می شود و هزینه های اضافی برای ورودی/خروجی و حافظه کاهش می یابد
تخصیص ها

dbacl ورودی خود را در اسرع وقت دور می اندازد و هیچ محدودیتی در سند ورودی ندارد
اندازه. هر دو طبقه بندی و سرعت یادگیری با تعداد آنها نسبت مستقیم دارند
توکن ها در ورودی هستند، اما یادگیری به یک مرحله بهینه سازی غیرخطی نیز نیاز دارد که طول می کشد
زمان متناسب با تعداد توکن های منحصر به فرد کشف شده. در زمان نوشتن، dbacl is
یکی از سریعترین فیلترهای ایمیل منبع باز با توجه به سناریوی استفاده بهینه از آن، اما استفاده می کند
حافظه بیشتر برای یادگیری نسبت به فیلترهای دیگر.

چند برابر فرآیندها و داده ها فساد


هنگام ذخیره فایل های دسته بندی، dbacl ابتدا یک فایل موقت را در همان مکان می نویسد،
و پس از آن نام آن را تغییر می دهد. اگر مشکل یا خرابی در حین یادگیری رخ دهد، دسته قدیمی است
بنابراین فایل دست نخورده باقی می ماند. این تضمین می کند که دسته ها هرگز نمی توانند خراب شوند، خیر
مهم است که چند فرآیند به طور همزمان یاد بگیرند یا طبقه بندی کنند، و به این معنی است که معتبر است
دسته ها برای طبقه بندی در هر زمان در دسترس هستند.

هنگام استفاده از -m سوئیچ، محتویات فایل برای خواندن و نوشتن سریع در حافظه نقشه برداری می شوند.
این، همراه با -o سوئیچ، عمدتاً برای اهداف آزمایشی در نظر گرفته شده است، زمانی که ده ها مورد
برای اندازه گیری هزاران پیام باید در آزمایشگاه آموخته و امتیازدهی شود dbacl's
دقت. از آنجایی که هیچ تلاشی برای قفل کردن فایل به دلایل عملکرد انجام نمی شود، خرابی ها وجود دارد
ممکن است، مگر اینکه مطمئن شوید که فقط یک dbacl فرآیند هر فایلی را می خواند یا می نویسد
زمان داده شده. این تنها موردی است (-m و -o با هم) که فساد ممکن است.

حافظه استفاده از


هنگام طبقه بندی یک سند، dbacl همه دسته های مشخص شده را در RAM بارگذاری می کند، بنابراین کل
حافظه مورد نیاز تقریباً مجموع اندازه فایل های دسته به اضافه کوچک ثابت است
در بالای سر. سند ورودی هنگام خواندن مصرف می شود، بنابراین اندازه آن مهم نیست،
اما خطوط بسیار طولانی می توانند فضا را اشغال کنند. هنگام استفاده از -m سوئیچ، دسته ها خوانده می شوند
با استفاده از نقشه(2) در صورت موجود بودن

هنگام یادگیری، dbacl ساختار بزرگی را در حافظه نگه می دارد که شامل بسیاری از اشیاء است که
در دسته خروجی ذخیره نخواهد شد. اندازه این ساختار متناسب با
تعداد نشانه های منحصر به فرد خوانده شده، اما نه اندازه اسناد ورودی، زیرا آنها هستند
هنگام خواندن دور انداخته می شود به عنوان یک راهنمای تقریبی، این ساختار 4x-5 برابر اندازه است
فایل دسته بندی نهایی که تولید می شود.

برای جلوگیری از رشد بی رویه حافظه، dbacl به طور پیش فرض مقدار کوچک ثابتی از
حافظه برای توکن ها وقتی این فضا تمام شد، توکن‌های بیشتری دور ریخته می‌شوند
اثر انحراف مقوله آموخته شده باعث می شود تا با حذف توکن های بیشتر، کمتر قابل استفاده باشد. آ
هشدار در چنین موردی در STDERR چاپ می شود.

La -h سوئیچ به شما امکان می دهد اندازه اولیه فضای نشانه را در توان های 2، یعنی "-h 17" ثابت کنید.
یعنی 2^17 = 131072 توکن ممکن. اگر "dbacl -V" را تایپ کنید، می توانید تعداد آن را ببینید
بایت های مورد نیاز برای هر نشانه هنگام یادگیری یا طبقه بندی. این عدد را در ضرب کنید
حداکثر تعداد نشانه های ممکن برای تخمین حافظه مورد نیاز برای یادگیری. در -H
سوئیچ اجازه می دهد dbacl جداول خود را به طور خودکار در صورت نیاز و در صورت نیاز تا حداکثر رشد دهید
مشخص شده. بنابراین اگر "-H 21" را تایپ کنید، اندازه اولیه به طور مکرر دو برابر می شود
لازم است، تا حدود دو میلیون توکن منحصر به فرد.

هنگام یادگیری با -X سوئیچ، تعداد انگشت شماری از اسناد ورودی نیز در RAM نگهداری می شوند
در سراسر

محیط زیست


DBACL_PATH
هنگامی که این متغیر تنظیم می شود، مقدار آن به هر یک اضافه می شود دسته نام فایل که
با "/" یا "." شروع نمی شود.

علائم


INT اگر این سیگنال گرفته شود، dbacl به سادگی بدون انجام هیچ گونه پاکسازی یا دیگری خارج می شود
عملیات این سیگنال اغلب با فشار دادن Ctrl-C روی صفحه کلید ارسال می شود. دیدن
استی(1).

HUP، QUIT، TERM
اگر یکی از این سیگنال ها گرفته شود، dbacl خواندن ورودی را متوقف می کند و به آن ادامه می دهد
عملیات به گونه ای که گویی هیچ ورودی دیگری در دسترس نیست. این راهی است برای ترک دلپذیر،
اما توجه داشته باشید که در حالت یادگیری، یک فایل دسته بندی بر اساس نوشته خواهد شد
ورودی ناقص سیگنال QUIT اغلب می تواند با فشار دادن Ctrl- بر روی آن ارسال شود
صفحه کلید دیدن استی(1).

USR1 اگر این سیگنال گرفته شود، dbacl دسته های فعلی را در اولین فرصت بارگیری مجدد می کند
فرصت عملی این معمولاً به هیچ وجه مفید نیست، اما ممکن است در موارد خاص باشد
موارد، مانند اگر -f سوئیچ همراه با ورودی از یک در حال اجرا طولانی فراخوانی می شود
لوله

NOTES


dbacl فایل‌های دسته‌بندی تولید شده در قالب باینری هستند و ممکن است قابل حمل باشند یا نباشند
سیستم‌هایی که از معماری ترتیب بایت متفاوتی استفاده می‌کنند (این بستگی به چگونگی آن دارد dbacl بود
گردآوری شده است). در -V سوئیچ نشان می‌دهد که دسته‌ها قابل حمل هستند یا نه
آزمایش کردن

dbacl عبارات منظم معادل عملکردی را نمی شناسد و در این مورد
ویژگی های تکراری چندین بار شمارش می شود.

با هر دسته‌ای که آموخته‌اید، گزینه‌های خط فرمان استفاده شده ذخیره می‌شوند. چه زمانی
در طبقه‌بندی، مطمئن شوید که هر دسته‌بندی مرتبط با همان مجموعه از یاد گرفته شده است
گزینه ها (regexe ها مجاز هستند متفاوت باشند)، در غیر این صورت رفتار تعریف نشده است. وجود ندارد
نیاز به تکرار همه سوئیچ ها هنگام طبقه بندی.

اگر اخطارهای دیجیتالی شدن زیادی دریافت می کنید، در این صورت سعی می کنید داده های زیادی را به طور همزمان یاد بگیرید.
یا مدل شما خیلی پیچیده است. dbacl برای صرفه جویی در حافظه با دیجیتالی کردن نهایی کامپایل شده است
وزن‌ها، اما می‌توانید دیجیتالی‌سازی را با ویرایش dbacl.h و کامپایل مجدد غیرفعال کنید.

dbacl چندین توکن ساز داخلی را ارائه می دهد (نگاه کنید به -e سوئیچ) با موارد بیشتری در آینده
نسخه ها، همانطور که نویسنده آنها را ابداع کرده است. در حالی که توکنایزر پیش فرض ممکن است تکامل یابد، خیر
توکنایزر باید همیشه حذف شود تا همیشه بتوانید قبلی را شبیه سازی کنید dbacl رفتار
در معرض رفع اشکال و تغییرات معماری است.

برآوردهای اطمینان به دست آمده از طریق -X سوئیچ دست کم گرفته شده است، یعنی بیشتر است
محافظه کار از آنچه که باید باشد.

با استفاده از خدمات onworks.net از dbacl آنلاین استفاده کنید


سرورها و ایستگاه های کاری رایگان

دانلود برنامه های ویندوز و لینوکس

دستورات لینوکس

Ad