این دستور unicharset_extractor است که می تواند در ارائه دهنده هاست رایگان OnWorks با استفاده از یکی از چندین ایستگاه کاری آنلاین رایگان ما مانند Ubuntu Online، Fedora Online، شبیه ساز آنلاین ویندوز یا شبیه ساز آنلاین MAC OS اجرا شود.
برنامه:
نام
unicharset_extractor - unicharset را از فایل های Tesseract استخراج کنید
خلاصه
unicharset_extractor [-D dir] فایل...
شرح
Tesseract باید مجموعه ای از کاراکترهای ممکن را که می تواند خروجی دهد بداند. برای تولید
فایل دیتا unicharset از برنامه unicharset_extractor در همین صفحات آموزشی استفاده کنید
فایل های باند باکس همانطور که برای خوشه بندی استفاده می شود:
unicharset_extractor fontfile_1.box fontfile_2.box ...
unicharset در فایل قرار خواهد گرفت dir/unicharset، یا به سادگی ./unicharset اگر نه
دایرکتوری خروجی ارائه شده است.
Tesseract همچنین باید به ویژگی های کاراکتر isalpha، isdigit، isupper دسترسی داشته باشد.
islower، علامت نقطه گذاری تمام این داده های کمکی و بیشتر در این فایل کدگذاری شده است. (دیدن
unicharset(5))
اگر سیستم شما از توابع wctype پشتیبانی می کند، این مقادیر به طور خودکار توسط تنظیم می شوند
unicharset_extractor و نیازی به ویرایش فایل unicharset نیست. روی برخی قدیمی تر
سیستم ها (به عنوان مثال ویندوز 95)، فایل unicharset باید با دست ویرایش شود تا این ویژگی ها اضافه شود
کدهای توضیحات
توجه داشته باشید هر زمان که inttemp، normproto و pffmtable هستند، فایل unicharset باید دوباره تولید شود.
تولید شده (یعنی همه آنها باید با تغییر فایل جعبه دوباره ایجاد شوند) همانطور که باید انجام دهند
هماهنگ باشد این کار نسبت به نسخه های قبلی با اجرای unicharset_extractor آسان تر شده است
قبل از mftraining و cntraining و دادن unicharset به mftraining.
با استفاده از خدمات onworks.net از unicharset_extractor به صورت آنلاین استفاده کنید