אנגליתצרפתיתספרדי

Ad


סמל OnWorks

combine_tessdata - מקוון בענן

הפעל combine_tessdata בספק אירוח חינמי של OnWorks על אובונטו מקוון, פדורה מקוון, אמולטור מקוון של Windows או אמולטור מקוון של MAC OS

זוהי הפקודה combine_tessdata שניתן להריץ בספק האירוח החינמי של OnWorks באמצעות אחת מתחנות העבודה המקוונות המרובות שלנו, כגון Ubuntu Online, Fedora Online, אמולטור מקוון של Windows או אמולטור מקוון של MAC OS

תָכְנִית:

שֵׁם


combine_tessdata - שלב/חלץ/דרוס נתוני Tesseract

תַקצִיר


combine_tessdata [אוֹפְּצִיָה] קובץ...

תיאור


combine_tessdata(1) היא התוכנית הראשית לשילוב/חילוץ/החלפת רכיבי tessdata
בקבצי [lang].traineddata.

לשלב את כל רכיבי tessdata הבודדים (unicharset, DAWGs, classifier
תבניות, אי בהירות, תצורות שפה) הממוקמות, למשל, /בית/$USER/temp/eng.* הרץ:

combine_tessdata /בית/$USER/temp/eng.

התוצאה תהיה קובץ tessdata משולב /בית/$USER/temp/eng.traineddata

ציין אפשרות -e אם תרצה לחלץ רכיבים בודדים משילוב
קובץ traineddata. לדוגמה, כדי לחלץ את קובץ תצורת השפה ואת ה-unicharset
ריצת tessdata/eng.traineddata:

combine_tessdata -e tessdata/eng.traineddata \
/בית/$USER/temp/eng.config /בית/$USER/temp/eng.unicharset

קובץ התצורה הרצוי ו-unicharset ייכתבו /בית/$USER/temp/eng.config
/בית/$USER/temp/eng.unicharset

ציין אפשרות -o כדי להחליף רכיבים בודדים של קובץ [lang].traineddata הנתון.
לדוגמה, כדי להחליף קבצים של תצורת שפה ו-unichar עמימות
שימוש ב-tessdata/eng.traineddata:

combine_tessdata -o tessdata/eng.traineddata \
/בית/$USER/temp/eng.config /בית/$USER/temp/eng.unicharambigs

כתוצאה מכך, tessdata/eng.traineddata יכיל את תצורת השפה החדשה ואת unichar
ambigs, בתוספת כל ה-DAWGs המקוריים, תבניות הסיווג וכו'.

הערה: שמות הקבצים של הקבצים שאליהם יש לחלץ ולדרוס מהם צריכים להיות
סיומות קבצים מתאימות (הרחבות) המציינות את סוג רכיב ה-tessdata שלהם
(.unicharset עבור unicharset, .unicharambigs עבור unichar ambigs וכו'). ראה k*FileSuffix
משתנה ב-ccutil/tessdatamanager.h.

ציין אפשרות -u כדי לפרוק את כל הרכיבים לנתיב שצוין:

combine_tessdata -u tessdata/eng.traineddata /בית/$USER/temp/eng.

זה ייצור /בית/קבצי $USER/temp/eng.* עם רכיבי tessdata בודדים מ
tessdata/eng.traineddata.

אפשרויות


-e .traineddata קובץ...: מחלץ את הרכיבים שצוינו מקובץ ה-traineddata

-o .traineddata קובץ...: מחליף את הרכיבים שצוינו של קובץ ה-traineddata עם
אלה שסופקו בשורת הפקודה.

-u .traineddata PATHPREFIX מפרק את הנתונים .trained באמצעות הקידומת שסופקה.

מערות


קידומת מתייחס לקידומת הקובץ המלאה, כולל נקודה (.)

רכיבים


הרכיבים בקובץ Tesseract lang.traineddata נכון ל-Tesseract 3.02 הם בקצרה
המתואר להלן; למידע נוסף על רבים מהקבצים הללו, ראה
https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract

lang.config
(אופציונלי) עקיפות ספציפיות לשפה למשתני תצורת ברירת מחדל.

lang.unicharset
(חובה) רשימת הסמלים ש-Tesseract מזהה, עם מאפיינים. לִרְאוֹת
unicharset(5).

lang.unicharambigs
(אופציונלי) קובץ זה מכיל מידע על זוגות של סמלים מזוהים שהם
לעתים קרובות מבולבל. לדוגמה, rn ו m.

lang.inttemp
(חובה) תבניות צורת תווים עבור כל Unichar. המיוצר על ידי אימון(1).

lang.pffmtable
(חובה) מספר התכונות הצפויות עבור כל Unichar. המיוצר על ידי אימון(1)
החל מ- .tr קבצים.

lang.normproto
(חובה) אבות טיפוס לנורמליזציה של תווים שנוצרו על ידי אימון(1) מאת .tr
קבצים.

lang.punc-dawg
(אופציונלי) דפוס עשוי מדפוסי פיסוק שנמצאו סביב מילים. חלק ה"מילה".
מוחלף בחלל בודד.

lang.word-dawg
(אופציונלי) דגל עשוי ממילים במילון מהשפה.

lang.number-dawg
(אופציונלי) דאוג עשוי מאסימונים שהכילו במקור ספרות. כל ספרה היא
הוחלף בתו רווח.

lang.freq-dawg
(אופציונלי) תצהיר שנעשה מהמילים השכיחות ביותר שהיו נכנסות
מילה-דאוג.

lang.fixed-length-dawgs
(אופציונלי) מספר דגמים באורכים קבועים שונים - שימושי לשפות כמו
סִינִית.

lang.cube-unicharset
(אופציונלי) ערכת יחידה לקובייה, אם הקובייה אומנה על קבוצה אחרת של סמלים.

lang.cube-word-dawg
(אופציונלי) מילה Dawg עבור ה-unicharset החלופי של הקובייה. לא נחוץ אם קיוב אומנה
עם ה-unicharset של Tesseract.

lang.shapetable
(אופציונלי) כאשר קיים, טבלת צורה היא שכבה נוספת בין הדמות
מסווג ומזהה המילים המאפשר למסווג התווים להחזיר א
אוסף של זיהויים וגופנים של Unichar במקום זיהוי וגופן יחיד של unichar.

lang.bigram-dawg
(אופציונלי) אוסף של ביגרמות מילים שבהן המילים מופרדות ברווח וכל אחת מהן
הספרה מוחלפת ב-a ?.

lang.unambig-dawg
(אופציונלי) TODO: תאר.

lang.params-training-model
(אופציונלי) TODO: תאר.

הִיסטוֹרִיָה


combine_tessdata(1) הופיע לראשונה בגרסה 3.00 של Tesseract

השתמש ב-combin_tessdata באופן מקוון באמצעות שירותי onworks.net


שרתים ותחנות עבודה בחינם

הורד אפליקציות Windows & Linux

פקודות לינוקס

  • 1
    aarch64-linux-gnu-gnatbind
    aarch64-linux-gnu-gnatbind
    gnat, gnatbind, gnatbl, gnatchop,
    gnatfind, gnathtml, gnatkr, gnatlink,
    gnatls, gnatmake, gnatprep, gnatpsta,
    gnatpsys, gnatxref - ארגז כלים של GNAT
    תיאור: ה...
    הפעל את aarch64-linux-gnu-gnatbind
  • 2
    aarch64-linux-gnu-gnatchop-5
    aarch64-linux-gnu-gnatchop-5
    gnat, gnatbind, gnatbl, gnatchop,
    gnatfind, gnathtml, gnatkr, gnatlink,
    gnatls, gnatmake, gnatprep, gnatpsta,
    gnatpsys, gnatxref - ארגז כלים של GNAT
    תיאור: ה...
    הפעל את aarch64-linux-gnu-gnatchop-5
  • 3
    cpupower-idle-info
    cpupower-idle-info
    cpupower idle-info - כלי עזר ל
    אחזר מידע על ליבת המעבד הסרק
    תחביר: cpupower [ -c cpulist ]
    Idle-info [אפשרויות] תיאור: כלי
    אשר מדפיס ע'...
    הפעל cpupower-idle-info
  • 4
    cpupower-בטל-סט
    cpupower-בטל-סט
    cpupower idle-set - כלי עזר להגדרת cpu
    אפשרויות ליבה ספציפיות למצב סרק
    תחביר: cpupower [ -c cpulist ]
    Idle-info [אפשרויות] תיאור: ה
    cpupower idle-se...
    הפעל cpupower-idle-set
  • 5
    g.mapsetsgrass
    g.mapsetsgrass
    g.mapsets - משנה/מדפיס את המשתמשים
    נתיב החיפוש הנוכחי של ערכת מפות. משפיע על
    הגישה של המשתמש לנתונים הקיימים תחת
    ערכות מפות אחרות במיקום הנוכחי. ...
    הפעל את g.mapsetsgrass
  • 6
    g.messagegrass
    g.messagegrass
    g.message - מדפיס הודעה, אזהרה,
    מידע על התקדמות, או שגיאה קטלנית ב-
    דרך דשא. יש להשתמש במודול זה ב
    סקריפטים להודעות המוגשות למשתמש.
    KEYWO...
    הפעל את g.messagegrass
  • עוד »

Ad