هذا هو الأمر combin_tessdata الذي يمكن تشغيله في مزود الاستضافة المجانية OnWorks باستخدام إحدى محطات العمل المجانية المتعددة عبر الإنترنت مثل Ubuntu Online أو Fedora Online أو محاكي Windows عبر الإنترنت أو محاكي MAC OS عبر الإنترنت
برنامج:
اسم
Combined_tessdata - دمج / استخراج / الكتابة فوق بيانات Tesseract
موجز
الجمع بين البيانات [OPTION] FILE
الوصف
الجمع بين البيانات(1) هو البرنامج الرئيسي لدمج / استخراج / الكتابة فوق مكونات tessdata
في ملفات [lang] .traineddata.
لدمج جميع مكونات tessdata الفردية (unicharset ، DAWGs ، المصنف
القوالب ، الغموض ، تكوينات اللغة) الموجودة في ، على سبيل المثال ، /الصفحة الرئيسية/USER USER / temp / eng. * تشغيل:
الجمع بين البيانات /الصفحة الرئيسية/$ USER / temp / eng.
ستكون النتيجة ملف tessdata مدمج /الصفحة الرئيسية/USER USER / temp / eng.traineddata
حدد الخيار -e إذا كنت ترغب في استخراج مكونات فردية من ملف
ملف بيانات التدريب. على سبيل المثال ، لاستخراج ملف تكوين اللغة و unicharset من
تشغيل tessdata / eng.traineddata:
Combined_tessdata -e tessdata / eng.traineddata \
/الصفحة الرئيسية/$ USER / temp / eng.config /الصفحة الرئيسية/USER USER / temp / eng.unicharset
ستتم كتابة ملف التكوين المطلوب و unicharset /الصفحة الرئيسية/$ USER / temp / eng.config
/الصفحة الرئيسية/USER USER / temp / eng.unicharset
حدد الخيار -o للكتابة فوق المكونات الفردية لملف [lang] .traineddata المحدد.
على سبيل المثال ، لاستبدال تكوين اللغة و unichar ملفات غامضة في ملفات
استخدام tessdata / eng.traineddata:
Combined_tessdata -o tessdata / eng.traineddata \
/الصفحة الرئيسية/$ USER / temp / eng.config /الصفحة الرئيسية/USER / temp / eng.unicharambigs. دولار أمريكي
نتيجة لذلك ، ستحتوي tessdata / eng.traineddata على تهيئة اللغة الجديدة و unichar
ambigs ، بالإضافة إلى جميع DAWGs الأصلية وقوالب المصنفات وما إلى ذلك.
ملاحظة: يجب أن تحتوي أسماء الملفات المراد الاستخراج منها والكتابة فوقها بامتداد
لواحق الملفات المناسبة (الامتدادات) التي تشير إلى نوع مكون tessdata الخاص بهم
(.unicharset ل unicharset ، .unicharambigs ل unichar ambigs ، إلخ). انظر k * FileSuffix
متغير في ccutil / tessdatamanager.h.
حدد الخيار -u لفك ضغط جميع المكونات إلى المسار المحدد:
Combined_tessdata -u tessdata / eng.traineddata /الصفحة الرئيسية/$ USER / temp / eng.
هذا سيخلق /الصفحة الرئيسية/ملفات USER / temp / eng. * بمكونات tessdata فردية من
tessdata / eng.traineddata.
OPTIONS
-e .البيانات المدربة FILE...: لاستخراج المكونات المحددة من ملف .traineddata
-o .البيانات المدربة FILE...: الكتابة فوق المكونات المحددة لملف .traineddata بامتداد
تلك المقدمة على خط كوماند.
-u .البيانات المدربة باثبريفيكس يفك حزم .traineddata باستخدام البادئة المتوفرة.
تحفظات
بادئة يشير إلى بادئة الملف الكامل ، بما في ذلك النقطة (.)
مكونات
المكونات في ملف Tesseract lang.traineddata اعتبارًا من Tesseract 3.02 مختصرة
هو موضح أدناه؛ لمزيد من المعلومات حول العديد من هذه الملفات ، راجع
https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract
lang.config
(اختياري) تتخطى اللغة الخاصة بمتغيرات التكوين الافتراضية.
لانج
(مطلوب) قائمة الرموز التي يتعرف عليها موقع Tesseract مع الخصائص. يرى
أحادي(5).
lang.unicharambigs
(اختياري) يحتوي هذا الملف على معلومات عن أزواج من الرموز التي تم التعرف عليها
كثيرا ما مرتبك. على سبيل المثال، rn و m.
lang.inttemp
(مطلوب) قوالب أشكال الأحرف لكل unichar. من إنتاج com.mftraining(1).
lang.pffmtable
(مطلوب) عدد الميزات المتوقعة لكل unichar. من إنتاج com.mftraining(1)
تبدأ من .tr الملفات.
lang.normproto
(مطلوب) النماذج الأولية لتطبيع الأحرف التي تم إنشاؤها بواسطة com.cntraining(1) من .tr
الملفات.
lang.punc-dawg
(اختياري) dawg مصنوع من أنماط الترقيم الموجودة حول الكلمات. جزء "الكلمة"
بمسافة واحدة.
lang.word-dawg
(اختياري) dawg مصنوع من كلمات القاموس من اللغة.
لانج رقم دوج
(اختياري) dawg مصنوع من الرموز التي تحتوي في الأصل على أرقام. كل رقم هو
استبداله بحرف مسافة.
لانج فريك دوج
(اختياري) dawg مصنوع من أكثر الكلمات شيوعًا التي كان من الممكن أن تدخل فيها
كلمة دوج.
lang. الطول الثابت dawgs
(اختياري) عدة فواتير بأطوال ثابتة مختلفة - مفيدة للغات مثل
صينى.
lang.cube-unicharset
(اختياري) مجموعة أحادية للمكعب ، إذا تم تدريب المكعب على مجموعة مختلفة من الرموز.
lang.cube-word-dawg
(اختياري) كلمة dawg للمكعب أحادي الشكل البديل. لا حاجة إذا تم تدريب Cube
مع Tesseract's unicharset.
لانج
(اختياري) عندما تكون موجودة ، فإن الشكل القابل للتشكيل هو طبقة إضافية بين الشخصية
المصنف ومعرف الكلمات الذي يسمح لمصنف الأحرف بإرجاع ملف
مجموعة من معرفات وخطوط unichar بدلاً من معرف وحيد وخط واحد.
لانج بيجرام دوج
(اختياري) dawg من الكلمات الكبيرة حيث يتم فصل الكلمات بمسافة وكل منها
يتم استبدال الرقم بـ ?.
لانج أونامبيج دوج
(اختياري) TODO: وصف.
lang.params- نموذج التدريب
(اختياري) TODO: وصف.
التاريخ
الجمع بين البيانات(1) ظهر لأول مرة في الإصدار 3.00 من Tesseract
استخدم comb_tessdata عبر الإنترنت باستخدام خدمات onworks.net