Amazon Best VPN GoSearch

סמל OnWorks

tesseract - מקוון בענן

הפעל tesseract בספק אירוח בחינם של OnWorks על אובונטו מקוון, פדורה מקוון, אמולטור מקוון של Windows או אמולטור מקוון של MAC OS

זהו הפקודה tesseract שניתן להריץ בספק האירוח החינמי של OnWorks באמצעות אחת מתחנות העבודה המקוונות המרובות שלנו, כגון Ubuntu Online, Fedora Online, אמולטור מקוון של Windows או אמולטור מקוון של MAC OS

תָכְנִית:

שֵׁם


tesseract - מנוע OCR בשורת הפקודה

תַקצִיר


טסראקט שם תמונה|סטדין בסיס פלט|stdout [אפשרויות...] [configfile...]

תיאור


טסראקט(1) הוא מנוע OCR באיכות מסחרית שפותחה במקור ב-HP בין 1985
ו-1995. בשנת 1995, מנוע זה היה בין 3 המובילים שהוערכו על ידי UNLV. זה היה בקוד פתוח
על ידי HP ו-UNLV ב-2005, ומאז פותחה בגוגל.

בפנים בחוץ טיעונים


שם תמונה
שם תמונת הקלט. רוב הפורמטים של קבצי תמונה (כל מה שניתן לקרוא על ידי Leptonica)
נתמכים.

סטדין
הוראה לקריאת נתונים מקלט סטנדרטי

בסיס פלט
שם הבסיס של קובץ הפלט (אליו תצורף הסיומת המתאימה).
כברירת מחדל, הפלט יקבל שם outbase.txt.

stdout
הוראה לשלוח נתוני פלט לפלט סטנדרטי

אפשרויות


--tessdata-dir /נָתִיב
ציין את המיקום של נתיב tessdata

--מילות-משתמש /נתיב/אל/קובץ
ציין את המיקום של קובץ מילות המשתמש

--דפוסי משתמש /נתיב/אל/קובץ לפרט
המיקום של קובץ דפוסי המשתמש

-c configvar=ערך
הגדר ערך עבור פרמטר הבקרה. מותרים ארגומנטים מרובים -c.

-l lang
השפה להשתמש. אם לא צוין, הנחה היא אנגלית. מספר שפות עשויות
יצוין, מופרד באמצעות תווי פלוס. Tesseract משתמש בתקן ISO 3-639 בן 2 תווים
קודי שפה. (ראה שפות)

-psm N
הגדר ל-Tesseract להפעיל רק תת-קבוצה של ניתוח פריסה ולהניח צורה מסוימת של
תמונה. האפשרויות עבור N הם:

0 = זיהוי וזיהוי סקריפט (OSD) בלבד.
1 = פילוח עמודים אוטומטי עם OSD.
2 = פילוח עמודים אוטומטי, אך ללא OSD, או OCR.
3 = פילוח עמודים אוטומטי לחלוטין, אך ללא OSD. (בְּרִירַת מֶחדָל)
4 = הנח עמודה אחת של טקסט בגדלים משתנים.
5 = נניח גוש אחד אחיד של טקסט מיושר אנכית.
6 = נניח גוש טקסט אחד אחיד.
7 = התייחס לתמונה כשורה טקסט יחידה.
8 = התייחס לתמונה כאל מילה אחת.
9 = התייחס לתמונה כאל מילה אחת במעגל.
10 = התייחס לתמונה כאל תו בודד.

configfile
שם של תצורה לשימוש. תצורה היא קובץ טקסט רגיל המכיל רשימה של
משתנים וערכיהם, אחד בכל שורה, עם רווח המפריד בין משתנה לערך.
קובצי תצורה מעניינים כוללים:

· hocr - פלט בפורמט hOCR במקום כקובץ טקסט.

· pdf - פלט ב-pdf במקום קובץ טקסט.

הערה בנה: האפשרויות -l lang ו -psm N חייב להתרחש לפני כל configfile.

יחיד אפשרויות


-v
מחזירה את הגרסה הנוכחית של טסראקט(1) בר הפעלה.

--list-langs
רשימת השפות הזמינות עבור מנוע tesseract. ניתן להשתמש עם --tessdata-dir.

--פרמטרי הדפסה
להדפיס פרמטרים של tesseract ל-stdout.

שפות


יש כרגע חבילות שפה זמינות עבור השפות הבאות (ב
https://github.com/tesseract-ocr/tessdata):

afr (אפריקנית) אממ (אמהרית) ara (ערבית) ASM (אסאמי) aze (אזרבייג'נית) aze_cyrl
(אזרבייג'נית - קירילית) בל (בלארוסית) בן (בנגלית) דירקטוריון (טיבטי) יער (בוסנית) bul
(בולגרית) חתול (קטלאנית; ולנסיאנית) CEB (סבואנו) CES (צ'כית) chi_sim (סינית -
מְפוּשָׁט) chi_tra (מסורת סינית) chr (צ'ירוקי) cym (וולשית) דן (דַנִי)
dan_frak (דנית - Fraktur) deu (גרמנית) deu_frak (גרמנית - פראקטור) דזו (דזונגקה) אַמָה
(יוונית, מודרנית (1453-)) eng (אנגלית) אממ (אנגלית, בינונית (1100-1500)) אפו (אֶסְפֵּרַנְטוֹ)
שווה (מודול זיהוי מתמטיקה / משוואות) est (אסטונית) היה (באסקית) fas (פרסית) סנפיר
(פִינִית) FRA (צרפתית) frk (פרנקית) frm (צרפתית, בינונית (בערך 1400-1600)) gle (אִירִית) שווה
(גליציית) יווני (יוונית, עתיקה (עד 1453)) guj (גוג'ראטי) כובע (האיטי; קריאולי האיטי) WK
(עִברִית) הין (הינדי) Hrv (קרואטית) hun (הונגרי) איקו (אינוקטיטוט) ind (אינדונזית) איסל
(איסלנדית) איטה (אִיטַלְקִית) ita_old (איטלקית - ישנה) JAV (ג'אבנית) Jpn (יַפָּנִית) יכול להיות
(קנדה) קאט (גאורגית) kat_old (גאורגית - ישן) kaz (קזחית) קמ (חמר מרכזי) קיר
(קירגיזית; קירגיזית) קור (קוריאנית) כור (כורדית) לאו (לאו) lat (לָטִינִית) נמוך (לטבית) מיטה
(ליטאית) mal (מלאיאלם) לְקַלְקֵל (מראטי) mkd (מקדונית) מ"ל (מלטזית) MSA (מלאית) מיאה
(בורמזי) כן (נפאלי) NLD (הולנדית; פלמית) ולא (נורווגית) אורי (אוריה) OSD (נטייה
ומודול זיהוי סקריפט) מחבת (פנג'בי; פנג'בי) מוט (פולני) ידי (פורטוגזית) מוגלה
(פושטו; פשטו) רון (רומנית; מולדבית; מולדובה) רוס (רוסית) רחוב (סנסקריט) חטא
(סינהאלה; סינהלית) slk (סלובקית) slk_frak (סלובקית - פראקטור) SLV (סלובנית) ספא
(ספרדית; קסטיליאנית) ספא_ישן (ספרדית; קסטיליאנית - ישן) sqi (אלבנית) srp (סרבית)
srp_latn (סרבית - לטינית) swa (סווהילי) שלו (שוודית) SYR (סורית) טאם (טמילית) טל
(טלוגו) tgk (טג'יקית) TGL (טאגלוג) tha (תאילנדי) טיר (טיגריניה) tur (טורקי) uig (אויגורי;
אויגורי) ukr (אוקראינית) אדיר (אורדו) uzb (אוזבקית) uzb_cyrl (אוזבקית - קירילית) להתחרות (וייטנאמית)
YID (אִידִישׁ)

כדי להשתמש בחבילת שפה לא סטנדרטית בשם foo.traineddata, להגדיר את TESSDATA_PREFIX
משתנה סביבה כך שניתן למצוא את הקובץ ב TESSDATA_PREFIX/tessdata/Foo.traineddata
ותן ל-Tesseract את הטיעון -l Foo.

התצורה קבצים ו הגדלה עִם משתמש נתונים


קבצי התצורה של Tesseract מורכבים משורות עם צמדי ערכים משתנים (מופרדים בין רווחים). ה
משתנים מתועדים כדגלים בקוד המקור כמו זה הבא ב
tesseractclass.h:

STRING_VAR_H(tessedit_char_blacklist, "", "רשימה שחורה של תווים שלא ניתן לזהות");

משתנים אלה עשויים להפעיל או להשבית תכונות שונות של המנוע, ועלולים לגרום לכך
לטעון (או לא לטעון) נתונים שונים. לדוגמה, נניח שאתה רוצה לבצע OCR באנגלית,
אבל תדחיק את המילון הרגיל וטען רשימת מילים חלופית ואלטרנטיבה
רשימה של תבניות - שני קבצים אלה הם קבצי הנתונים הנוספים הנפוצים ביותר.

אם ערכת השפה שלך נמצאת ב-/path/to/eng.traineddata ותצורת ה-hocr נמצאת ב-
/path/to/configs/hocr ואז צור שלושה קבצים חדשים:

/path/to/eng.user-words:

מה היא
מהיר
חום
שועל
קפץ

/path/to/eng.user-patterns:

1-\d\d\d-GOOG-411
www.\n\\\*.com

/path/to/configs/bazaar:

load_system_dawg F
load_freq_dawg F
User_words_suffix User-words
user_patterns_suffix user-patterns

עכשיו, אם תעביר את המילה בזאר כפרמטר שורת פקודה נגרר ל-Tesseract,
Tesseract לא יטרח לטעון את מילון המערכת וגם לא את המילון של תדיר
מילים ויטען וישתמש בקבצי eng.user-words ו-eng.user-patterns שסיפקת.
הראשון הוא רשימת מילים פשוטה, אחת בכל שורה. הפורמט של האחרון מתועד ב
dict/trie.h ב-read_pattern_list().

הִיסטוֹרִיָה


המנוע פותח במעבדות Hewlett Packard Bristol וב- Hewlett Packard
Co, Greeley Colorado בין 1985 ל-1994, עם עוד כמה שינויים שנעשו ב-1996 לנמל אל
Windows, וקצת C++izing ב-1998. הרבה מהקוד נכתב ב-C, ואחר כך עוד קצת
נכתב ב-C++. הקוד C\++ עושה שימוש רב במערכת רשימה באמצעות פקודות מאקרו. זֶה
לפני stl, היה נייד לפני stl, והוא יעיל יותר מרשימות stl, אבל יש לו את
שלילי גדול שאם אתה מקבל הפרת פילוח, קשה לנפות באגים.

גרסה 2.00 הביאה תמיכה ביוניקוד (UTF-8), שש שפות ויכולת להתאמן
tesseract

Tesseract נכלל במבחן השנתי הרביעי של UNLV לדיוק OCR. לִרְאוֹת
https://github.com/tesseract-ocr/docs/blob/master/AT-1995.pdf. עם Tesseract 2.00,
סקריפטים כלולים כעת כדי לאפשר לכל אחד לשחזר חלק מהבדיקות הללו. לִרְאוֹת
https://github.com/tesseract-ocr/tesseract/wiki/TestingTesseract לקבלת פרטים נוספים.

Tesseract 3.00 מוסיף מספר שפות חדשות, כולל סינית, יפנית וקוריאנית. זה
גם מציגה מערכת חדשה מבוססת קובץ בודד לניהול נתוני שפה.

Tesseract 3.02 מוסיף תמיכה בטקסט דו-כיווני, היכולת לזהות מרובים
שפות בתמונה אחת, וניתוח פריסה משופר.

לפרטים נוספים, עיין בקובץ ReleaseNotes הכלול בהפצה.

מקורות


אתר אינטרנט ראשי: https://github.com/tesseract-ocr מידע על אימון:
https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract

השתמש ב-tesseract באינטרנט באמצעות שירותי onworks.net


שרתים ותחנות עבודה בחינם

הורד אפליקציות Windows & Linux

פקודות לינוקס

Ad




×
פרסומת
❤️קנו, הזמינו או קנו כאן - ללא עלות, עוזר לשמור על שירותים בחינם.