GoGPT Best VPN GoSearch

סמל OnWorks

enconv - אונליין בענן

הפעל את enconv בספק האירוח החינמי של OnWorks דרך Ubuntu Online, Fedora Online, אמולטור מקוון של Windows או אמולטור מקוון של MAC OS

זוהי הפקודה enconv שניתן להריץ בספק האירוח החינמי של OnWorks באמצעות אחת מתחנות העבודה המקוונות החינמיות שלנו, כגון Ubuntu Online, Fedora Online, אמולטור מקוון של Windows או אמולטור מקוון של MAC OS.

תָכְנִית:

שֵׁם


enca -- לזהות ולהמיר קידוד של קבצי טקסט

תַקצִיר


דגם [-L שָׂפָה] [אוֹפְּצִיָה]... [קובץ] ...
enconverb [-L שָׂפָה] [אוֹפְּצִיָה]... [קובץ] ...

מבוא ו דוגמאות


אם יתמזל מזלכם, שני הדברים היחידים שתצטרכו לדעת הם: פקודה

דגם קובץ

יגיד לך איזה קובץ קידוד קובץ שימושים (מבלי לשנות אותם), ו

enconverb קובץ

ימיר קובץ קובץ לקידוד המקומי שלך. כדי להמיר את הקובץ לקידוד אחר
קידוד משתמש ב -x אפשרות (ראה -x ערך בסעיף אפשרויות וסעיפים המרה ו
קידודים לפרטים).

שניהם עובדים עם קבצים מרובים וגם עם קלט (פלט) סטנדרטי. לדוגמה

enca -x latin2

מבטיח שהקובץ `sometext' יהיה ב-ISO Latin 2 כאשר הוא נשלח למדפסת.

הסיבה העיקרית לכך שפקודות אלו ייכשלו ויהפכו את הקבצים שלכם לזבל היא ש-Enca
צריך לדעת את השפה שלהם כדי לזהות את הקידוד. זה מנסה לקבוע את השפה שלך
וערכת תווים מועדפת מהגדרות המקומיות, וזה אולי לא מה שאתה רוצה.

אתה יכול (או חייב) להשתמש -L אפשרות לציין את השפה הנכונה. נניח שהורדת
קובץ HTML רוסי כלשהו, `file.htm', טוען שזה Windows-1251 אבל זה לא. אז אתה מפעיל

קובץ enca -L ru.htm

וגלו שזה KOI8-R (לדוגמה). שימו לב, כרגע אין הרבה תמיכה.
שפות (ראה סעיף שפות).

אזהרה נוספת נוגעת לעובדה שמספר תכונות של Enca, כלומר המרת קבוצות התווים שלה
יכולות, תלויות במידה רבה בכלים האחרים המותקנים במערכת שלך (ראה
סעיף הֲמָרָה)--לָרוּץ

enca --גרסה

כדי לקבל רשימת תכונות (ראה סעיף מאפיינים). נסו גם

אנקה --עזרה

כדי לקבל תיאור של כל אפשרויות Enca האחרות (ולמצוא את שאר דף המדריך הזה)
מְיוּתָר).

תיאור


אנקה קוראת קבצי טקסט נתונים, או קלט סטנדרטי כאשר לא ניתנים, ומשתמשת בידע
לגבי השפה שלהם (חייב להיות נתמך על ידך) ותערובת של ניתוח, סטטיסטיקה
ניתוח, ניחושים וקסם שחור כדי לקבוע את הקידודים שלהם, שאותם הוא מדפיס לאחר מכן
פלט סטנדרטי (או שהוא מודה שאין לו מושג מה יכול להיות הקידוד).
ברירת מחדל, Enca מציגה תוצאות כתיאורים מרובי שורות הניתנים לקריאה על ידי בני אדם, מספר אפשרויות נוספות
קיימים פורמטים - ראה בוררי סוג פלט להלן.

Enca יכולה גם להמיר קבצים לקידוד אחר ENC כשאתה מבקש את זה - בין אם באמצעות
ממיר מובנה, ספריית המרות כלשהי, או על ידי קריאה לממיר חיצוני.

המטרה העיקרית של Enca היא להיות שמיש ללא השגחה, ככלי המרה אוטומטי, למרות שזה
אולי עדיין לא הגענו לנקודה הזו (אנא עיינו בסעיף אבטחה).

שימו לב, למעט במקרים נדירים, Enca באמת צריכה לדעת את שפת קבצי הקלט כדי לתת...
לך תשובה אמינה. מצד שני, הוא יכול להתמודד די טוב עם קבצים שהם
לא טקסטואלי גרידא או אפילו לזהות קבוצת תווים של מחרוזות טקסט בתוך קובץ בינארי כלשהו;
כמובן, זה תלוי באופי הרכיב שאינו טקסטואלי.

לאנקה לא אכפת ממבנה קבצי הקלט, היא רואה בהם חלק אחיד של...
טקסט/נתונים. במקרה של קבצים מרובי חלקים (למשל תיבות דואר), עליך להשתמש בכלי כלשהו המכיר
המבנה כדי לחלץ את החלקים הבודדים תחילה. זוהי עלות היכולת לזהות
קידודים של קבצים פגומים, לא שלמים או שגויים בדרך אחרת.

אפשרויות


ישנן מספר קטגוריות של אפשרויות: אפשרויות מצב פעולה, בוררי סוג פלט,
פרמטרים של ניחוש, פרמטרים של המרה, אפשרויות כלליות ורישומים.

ניתן לקצר את כל האפשרויות הארוכות כל עוד הן פרמטרים חד משמעיים וחובה
של אופציות ארוכות חובה גם עבור אופציות שורט.

פעולה מצבי
עוקבים:

-c, --המרה אוטומטית
שווה ערך לקריאה לאנקה כ enconverb.

אם לא צוין בורר סוג פלט, יש לזהות קידודי קבצים, לנחש את
ערכת תווים מועדפת ממקומות מקומיים, ולהמיר קבצים אליה (זמין רק עם
(תכונה +target-charset-auto).

-g, --לְנַחֵשׁ
שווה ערך לקריאה לאנקה כ דגם.

אם לא צוין בורר סוג פלט, יש לזהות קידודי קבצים ולדווח עליהם.

תְפוּקָה סוג סלקטורים
לבחור איזו פעולה Enca תבצע כאשר היא קובעת את הקידוד; רובם פשוט
לבחור בין שמות, פורמטים ומוסכמות שונים כיצד ניתן להדפיס קידודים, אבל
אחד מהם (-x) הוא מיוחד: הוא מורה ל-Enca לקודד מחדש קבצים לקידוד אחר ENC.
אפשרויות אלו סותרות זו את זו; אם תציין יותר מבורר סוג פלט אחד
האחרון מקבל עדיפות.

מספר סוגי פלט מייצגים שם של קבוצת תווים המשמשת תוכנית אחרת, אך לא כולם
תוכניות יודעות את כל מערכות התווים ש-Enca מזהה. הזהרו, Enca לא משנה דבר.
בין קבוצת תווים לא מזוהה לבין קבוצת תווים שאין לה שם במרחב השמות הנתון במרחב כזה
מצבים.

-d, --פרטים
בעבר היה מדפיס כמה עמודים של פרטים על תהליך הניחושים, אבל מאז אנקה
זוהי רק תוכנה המקושרת לספריית Enca, זה לא אפשרי והאפשרות הזו
שווה בערך ל- --קריא אדם, אלא שהוא מדווח על סיבת הכשל כאשר
אנקה לא מזהה את הקידוד.

-e, --enca-name
מדפיס את השם הנחמד של קבוצת התווים של אנקה, כלומר, אולי השם המקובל ביותר
ומזהה תווים קריא פחות או יותר על ידי בני אדם, עם משטחים מצורפים.

שם זה משמש גם בעת קריאה לממיר חיצוני.

-f, --קריא אדם
מדפיס תיאור מילולי של מערך התווים והמשטחים שזוהו - משהו אנושי
מבין הכי טוב. זוהי התנהגות ברירת המחדל.

הפורמט המדויק הוא הבא: השורה הראשונה מכילה את שם קבוצת התווים בלבד, ו-
אחריו אפס או יותר שורות מוזחות המכילות שמות של משטחים שזוהו.
עם זאת, פורמט זה אינו מתאים או מיועד לעיבוד מכונה נוסף,
ותיאורי התווים המילוליים צפויים להשתנות בעתיד.

-i, --שם-אייקון
מדפיס כיצד סמל(3) (ו/או סמל(1)) קורא לקבוצת התווים שזוהתה. ליתר דיוק,
הוא מדפיס כינוי אחד, שנבחר באופן שרירותי פחות או יותר, המתקבל על ידי iconv.
לא ידוע ל-iconv נחשב כלא ידוע.

סוג פלט זה הגיוני רק כאשר Enca עובר קומפילציה עם תמיכה ב-iconv (תכונה
+ממשק-iconv).

-r, --rfc1345-name
מדפיס שם ערכת תווים של RFC 1345. כאשר שם כזה אינו קיים מכיוון ש-RFC 1345
לא מגדיר קידוד נתון, שם אחר המוגדר ב-RFC אחר או סתם
השם שהמחבר מחשיב כ"קנוני ביותר", מודפס.

מכיוון ש-RFC 1345 אינו מגדיר משטחים, לא נוסף מידע על משטחים.

-m, --שם-מיים
מדפיס שם MIME מועדף של קבוצת התווים שזוהתה. זהו השם שעליך להשתמש בו
בדרך כלל משתמשים בו בעת תיקון הודעות דוא"ל או דפי אינטרנט.

קבוצת תווים שאינה קיימת ב http://www.iana.org/assignments/character-sets נחשב כ
לא ידוע.

-s, --cstocs-name
מדפיס כיצד cstocks(1) קורא לקבוצת התווים שזוהתה. קבוצת תווים שאינה ידועה ל-cstocs
נחשב כלא ידוע.

-n, --name=WORD
מדפיס את שם ערכת התווים (קידוד) שנבחר על ידי WORD (ניתן לקצר כל עוד
(חד משמעי). עבור שמות המפורטים לעיל, --name=WORD שווה --WORD.

שימוש כינויים מכיוון שסוג הפלט גורם ל-Enca להדפיס רשימה של כל הכינויים המקובלים
של קבוצת התווים שזוהה.

-x, --המרה-ל=[..]ENC
ממיר קובץ לקידוד ENC.

לפונקציה האופציונלית `..' לפני קידוד השם אין משמעות מיוחדת, מלבד האפשרות להשתמש
כדי להזכיר לעצמך שבניגוד ל קידוד מחדש(1), עליך לציין רצוי
קידוד, במקום זרם.

אתה יכול להשתמש קידוד מחדש(1) שרשראות קידוד מחדש או כל סוג אחר של קידוד מחדש חסר מוח
מפרט עבור ENC, בתנאי שתגידו לאנקה להשתמש בהבנה מסוימת של כלים
אותו לצורך המרה (ראה סעיף המרה).

כאשר Enca נכשלת בקביעת הקידוד, היא מדפיסה אזהרה ומשאירה את ה...
קובץ כפי שהוא; כאשר הוא מופעל כמסנן הוא מנסה לעשות כמיטב יכולתו להעתיק קובץ סטנדרטי
קלט לפלט סטנדרטי ללא שינוי. אף על פי כן, אין להסתמך על זה ולעשות
גיבוי

מנחש פרמטרים
יש רק אחד: -L הגדרת שפת קבצי הקלט. אפשרות זו היא חובה (אך ראה
להלן).

-L, --שפה=שפה
מגדיר את שפת קבצי הקלט ל שפה.

לייתר דיוק, שפה יכול להיות כל שם מקומי חוקי (או כינוי עם +כינוי-מקום
תכונה) של שפות נתמכות מסוימות. ניתן גם לציין `none' כשם השפה,
רק קידודים מרובי-בייט מזוהים לאחר מכן. הפעלה

enca --רשימה של שפות

כדי לקבל רשימה של שפות נתמכות. כאשר אינך מציין שפה כלשהי, Enca מנסה
לנחש את השפה שלך מהגדרות מקומיות ומניח שקבצי קלט משתמשים בזה
שפה. ראה סעיף שפות לקבלת פרטים.

המרה פרמטרים
נותנים לך שליטה טובה יותר על אופן ביצוע המרת קבוצות תווים. הם אינם משפיעים על
כל דבר מתי -x לא צוין כסוג פלט. אנא עיין בסעיף המרה עבור
פרטי המרה עקובים מדם.

-C, --try-converters=רשימה
מוסיף מופרד בפסיקים רשימה לרשימת הממירים שייבדקו כשאתה
לבקש המרה. ניתן לקצר את שמותיהם כל עוד הם
חד משמעי. רוץ

ממירים של enca --list

כדי לקבל רשימה של כל שמות הממירים התקפים (וראה סעיף המרה עבורם
תיאור).

רשימת ברירת המחדל תלויה באופן שבו Enca הוקמפל, הפעל

אנקה --עזרה

כדי לגלות את רשימת הממירים המוגדרת כברירת מחדל.

שים לב שרשימת ברירת המחדל משמשת רק כאשר אינך מציין -C בכלל. אחרת,
הרשימה בנויה כאילו הייתה ריקה בתחילה וכל -C מוסיף ממירים חדשים
אליו. יתר על כן, ציון אף לא אחד מכיוון ששם הממיר גורם לניקוי הממיר
רשימה.

-E, --תוכנית-ממיר-חיצוני=נתיב
מגדיר את שם תוכנית הממיר החיצונית ל- נתיבממיר חיצוני ברירת מחדל תלוי
על אופן עמידה בדרישות ה-ENCA, והאפשרות להשתמש בממירים חיצוניים
לא יהיה זמין כלל. רוץ

אנקה --עזרה

כדי לגלות את תוכנית ההמרה ברירת המחדל בבניית enca שלך.

כללי אפשרויות
לא מתאים לקטגוריות אופציות אחרות...

-p, --עם-שם קובץ
מאלץ את Enca להוסיף קידומת של כל תוצאה בשם קובץ תואם. כברירת מחדל, Enca
מקדימה תוצאות עם שמות קבצים כאשר היא פועלת על מספר קבצים.

קלט סטנדרטי מודפס כ STDIN ופלט סטנדרטי כ STDOUT (האחרון יכול להיות
כנראה נראה רק בהודעות שגיאה).

-P, --אין שם קובץ
מאלץ את Enca לא להוסיף קידומת לתוצאות עם שמות קבצים. כברירת מחדל, Enca לא מוסיף קידומת
תוצאה עם שם קובץ בעת הפעלה על קובץ יחיד (כולל קלט סטנדרטי).

-V, --מִלוּלִי
מגדיל את רמת המלל (כל שימוש מגדיל אותה באחד).

כרגע אפשרות זו אינה שימושית במיוחד מכיוון שחלקים שונים של Enca מגיבים
באופן שונה לאותה רמת מילול, לרוב בכלל לא.

רישומים
כולם סופיים, כלומר כאשר Enca נתקלת בכמה מהם היא מדפיסה את הרשימה הנדרשת
ומסתיים מבלי לעבד אף אחת מהאפשרויות הבאות.

-h, - עזרה
עזרה קצרה בשימוש מדפיסה.

-G, --רישיון
מדפיס רישיון Enca מלא (דרך ביפר, אם אפשר).

-l, --list=WORD
רשימת הדפסים שצוינה על ידי WORD (ניתן לקצר כל עוד זה חד משמעי).
הרשימות הזמינות כוללות:

ערכות תווים מובנותכל הקידודים ניתנים להמרה באמצעות ממיר מובנה, לפי קבוצה (שניהם
קידוד הקלט והפלט חייב להיות מרשימה זו ולהשתייך לאותה קבוצה עבור
המרה פנימית).

קידודים מובנים. שווה ערך ל ערכות תווים מובנות, אך נחשב מיושן; יהיה
להתקבל עם אזהרה, לזמן מה.

ממירכל שמות הממירים התקפים (לשימוש עם -C).

ערכות תוויםכל הקידודים (ערכות תווים). ניתן לבחור אילו שמות יודפסו.
עם --שֵׁם או כל בורר סוג פלט של שם (כמובן, רק קידודים בעלי
שם במרחב השמות הנתון יודפס אז), יש לציין את הבורר
לפני --רשימה.

קידודים. שווה ערך ל ערכות תווים, אך נחשב מיושן; יתקבל עם
אזהרה, לזמן מה.

שפותכל השפות הנתמכות יחד עם ערכות התווים השייכים להן. הערה
סוג הפלט בוחר כאן את סגנון שם השפה, ולא את סגנון שם ערכת התווים.

שמותכל הערכים האפשריים של --שֵׁם אוֹפְּצִיָה.

רשימותכל הערכים האפשריים של אפשרות זו. (משוגע?)

משטחיםכל המשטחים ש-Enca מזהה.

-v, --גִרְסָה
מדפיס את גרסת התוכנית ורשימת התכונות (ראה סעיף מאפיינים).

המרה


למרות ש-Enca תוכנן במקור ככלי לניחוש קידוד בלבד, כעת הוא
כולל מספר שיטות להמרת תווים. ניתן לשלוט באיזו מהן תהיה
משמש עם -C.

Enca מנסה באופן רציף ממירים מהרשימה שצוינה על ידי -C עד שזה ימצא משהו כזה
מסוגל לבצע את ההמרה הנדרשת או עד שתמלא את הרשימה. עליך לציין
ממירים מועדפים תחילה, פחות מועדפים בהמשך. ממיר חיצוני (חיצוני) צריך להיות
תמיד מצוין אחרון, רק כמוצא אחרון, מכיוון שבדרך כלל לא ניתן לשחזר
כאשר זה נכשל. רשימת הממירים המוגדרת כברירת מחדל תמיד מתחילה ב- מובנה ולאחר מכן
ממשיך עם הראשון הזמין מ: ליברהקוד, סמל, כלום.

יש לציין שכאשר אנקה אומרת שהיא לא מסוגלת לבצע את ההמרה, זה רק אומר
אף אחד מהממירים לא מסוגל לבצע זאת. עדיין ניתן לבצע את
נדרשה המרה בכמה שלבים, באמצעות מספר ממירים, אבל כדי להבין איך,
כנראה שדרושה אינטליגנציה אנושית.

Built-in מֵמִיר
הוא הפשוט והמהיר ביותר מכולם, יכול לבצע רק כמה בייט לבייט
המרות ומשנה קבצים ישירות במקום (עשוי להיחשב מסוכן, אך הוא
די יעיל). אתה יכול לקבל רשימה של כל הקידודים שהוא יכול להמיר איתם

enca --list מובנה

מלבד מהירות, היתרון העיקרי שלו (וגם החיסרון) הוא שלא אכפת לו: הוא
פשוט ממיר תווים שיש להם ייצוג בקידוד היעד, לא נוגע
כל דבר אחר ולעולם לא מדפיס הודעת שגיאה.

ניתן לציין ממיר זה כ מובנה עם -C.

ליבראקוד מֵמִיר
הוא ממשק לספריית הקידוד מחדש של GNU, שמבצע את עבודת הקידוד מחדש בפועל. זה עשוי או עשוי
לא ניתן לקמפל ב; להריץ

enca --גרסה

כדי לברר את זמינותו בבניית enca שלך (feature +librecode-interface).

כדאי להכיר קידוד מחדש(1) לפני השימוש בו, מכיוון שקידוד מחדש הוא די
כלי המרת תווים מתוחכם וחזק. ייתכן שתיתקל בבעיות בשימוש בו
יחד עם Enca במיוחד בגלל התמיכה של Enca במשטחים שאינם תואמים ב-100%,
מכיוון שקוד מחדש מנסה יותר מדי להפוך את הטרנספורמציה להפיכה, מכיוון שלפעמים היא
מתעלם בשקט משגיאות קלט/פלט, ומכיוון שהוא מלא באגים בצורה יוצאת דופן. אנא עיין בקידוד מחדש של GNU.
דפי מידע לקבלת פרטים על ספריית קידוד מחדש.

ניתן לציין ממיר זה כ ליברהקוד עם -C.

Iconv מֵמִיר
הוא ממשק ל-UNIX98 סמל(3) פונקציות המרה, שמבצעות את הקידוד בפועל
עבודה. ייתכן שהיא תתבצע או לא תתבצע ב; run

enca --גרסה

כדי לברר את זמינותו בבניית enca שלך (feature +iconv-interface).

בעוד ש-iconv קיים ברוב המערכות של ימינו, הוא מציע רק לעתים רחוקות קבוצה שימושית כלשהי של
המרות זמינות, היוצא מן הכלל הבולט היחיד הוא iconv מ-GNU libc. זה
בדרך כלל די בררנים לגבי משטחים (ובמקביל לא מיישמים משטחים)
המרה). עם זאת, הוא כנראה מייצג את הכלי הסטנדרטי היחיד המסוגל לבצע
המרה מ/ל-Unicode. אנא עיין בתיעוד של iconv לקבלת פרטים נוספים.
יכולות במערכת הספציפית שלך.

ניתן לציין ממיר זה כ סמל עם -C.

חיצוני מֵמִיר
הוא כלי המרה חיצוני שרירותי שניתן לציין באמצעות -E אפשרות (לכל היותר אחת
(ניתן להגדיר בו זמנית). ישנם כמה סטנדרטים, המסופקים יחד עם enca:
cstocks, קידוד מחדש, מַפָּה, umap, ו פיקונבכולם סקריפטים של עטיפת טקסט: עבור cstocks(1), קידוד מחדש(1),
מַפָּה(1), umap(1), ו פיקונב(1).

שימו לב שאין ל-enca שליטה רבה על מה שהממיר החיצוני עושה באמת. אם תגדירו
זה ל /bin/rm אתה אחראי באופן מלא על ההשלכות.

אם אתם רוצים ליצור ממיר משלכם לשימוש עם enca, כדאי שתדעו שזה תמיד אפשרי
נקרא

מֵמִיר ENC_CURRENT ENC קובץ [-]

איפה מֵמִיר הוא מה שנקבע על ידי -E, ENC_CURRENT זוהה קידוד, ENC זה מה ש
צוין עם -x, ו קובץ הוא הקובץ להמרה, כלומר הוא נקרא עבור כל אחד מהם
קובץ בנפרד. הפרמטר הרביעי האופציונלי, -, אמור לגרום (כאשר קיים) לשליחת
תוצאת המרה לפלט סטנדרטי במקום החלפת הקובץ קובץ. ה
הממיר צריך גם לדאוג שלא לשנות הרשאות קבצים, ולהחזיר קוד שגיאה 1
כאשר הוא נכשל וניקוי הקבצים הזמניים שלו. אנא עיין בקובץ החיצוני הסטנדרטי
ממירים כדוגמאות.

ניתן לציין ממיר זה כ חיצוני עם -C.

בְּרִירַת מֶחדָל יעד ערכה
הדרך הפשוטה לציין מערך תווים יעד היא -x אפשרות, אשר גוברת על כל אפשרות אחרת
ברירות מחדל. כאשר Enca נקראת כ enconverb, ערכת תווים ברירת מחדל נבחרה בדיוק ב-
באותה דרך כמו קידוד מחדש(1) עושה את זה.

אם DEFAULT_CHARSET כאשר משתנה הסביבה מוגדר, הוא משמש כקבוצת תווים יעד.

אחרת, אם המערכת שלך מספקת את nl_langinfo(3) פונקציה, המיקום המקורי של המיקום הנוכחי
ערכת התווים משמשת כקבוצת התווים של היעד.

כאשר שתי השיטות נכשלות, אנקה מתלוננת ומסיימת את המשימה.

הֲפִיכוּת הערות
אם הפיכות היא קריטית עבורך, אסור לך להשתמש ב-enca כממיר כלל (או אולי
אתה יכול, עם עיצוב שתוכנן במיוחד קידוד מחדש(1) עטיפה). אחרת עליך ב
לפחות דעו שישנן ארבע דרכים בסיסיות לטיפול בישויות תווים בלתי ניתנות להמרה:

להיכשל - גם זו אפשרות, ואגב, זה בדיוק מה ש-GNU libc הנוכחי עושה
יישום iconv עושה זאת (ניתן גם להורות ל-recode לעשות זאת)

אל תיגעו בהם - זה מה שממיר פנימי של enca תמיד עושה וזה מה ש-recode יכול לעשות;
למרות שזה לא הפיך, אדם בדרך כלל מסוגל לשחזר את המקור (ב
לפחות באופן עקרוני)

לקרב אותם - זה מה ש-cstocs יכולים לעשות, וגם לקודד מחדש, אם כי בצורה שונה; וה-
הבחירה הטובה ביותר אם אתה רק רוצה להפוך את הטקסט המקולל לקריא

להשמיט אותם - זה מה שגם recode וגם cstocs יכולים לעשות (cstocs יכולים גם להחליף את אלה
תווים על ידי תו קבוע כלשהו במקום התעלמות גרידא); שימושי כאשר
תווים שיש להשמיט מכילים רק רעש.

אנא עיין במדריך הממיר המועדף עליך לקבלת פרטים על בעיה זו. באופן כללי, אם
אין לך מזל מספיק כדי שיהיו לך את כל התווים הניתנים להמרה בקובץ שלך, ידני
בכל מקרה נדרשת התערבות.

ביצוע הערות
ביצועים ירודים של ממירים זמינים היו אחת הסיבות העיקריות להכללה
ממיר מובנה ב-enca. נסה להשתמש בו בכל הזדמנות אפשרית, כלומר כאשר קבצים נמצאים ב-
השיקול הוא אם ערכת התווים נקייה מספיק או ערכת התווים מבולגנת מספיק כך שאין בה שום תכונה מובנית.
אינטליגנציה לא משנה. היא לא דורשת שטח דיסק נוסף או זיכרון נוסף ויכולה
ביצועים טובים יותר קידוד מחדש(1) יותר מ-10 פעמים על קבצים גדולים וגרסת Perl (כלומר, המהירה יותר)
אחד) של cstocks(1) יותר מ-400 פעמים על קבצים קטנים (למעשה זה כמעט מהיר כמו סתם
cp(1)).

נסו להימנע ממירים חיצוניים כאשר זה לא הכרחי לחלוטין מכיוון שכל הפיצול
והזזת דברים היא איטית להפליא.

קידודים


ניתן לקבל רשימה של ערכות תווים מזוהות באמצעות

enca --list ערכות תווים

ושימוש --שֵׁם פרמטר זה מאפשר לך לבחור כל שם שתרצה שישמש ברשימה.
ניתן גם לרשום את כל המשטחים עם

enca --list משטחים

שמות קידוד ושמות פני שטח אינם תלויי רישיות ותווים שאינם אלפאנומריים אינם תלויי רישיות
נלקחים בחשבון. עם זאת, תווים שאינם אלפאנומריים לרוב אינם מותרים כלל.
המותרים היחידים הם: `-', `_', `.', `:', ו-`/' (כמפריד תווים/משטח).
`ibm852' ו-`IBM-852' זהים, בעוד ש-`IBM 852' אינו מקובל.

ערכות תווים
הרשימה הבאה של קבוצות תווים מוכרות משתמשת בשמות של Enca (-e) ותיאורים מילוליים כמו
דווח על ידי אנקה (-f):

תווי ASCII של 7 סיביות
תקן ISO-8859-2 ISO 8859-2; ISO Latin 2
תקן ISO-8859-4; לטיני 8859
תקן ISO-8859-5 ISO 8859-5; תקן קירילי ISO
תקן ISO-8859-13 ISO 8859-13; ISO בלטית; לטיני 7
תקן ISO-8859-16 ISO 8859-16
דף קוד CP1125 של MS-Windows 1125
דף קוד CP1250 של MS-Windows 1250
דף קוד CP1251 של MS-Windows 1251
עמוד קוד 1257 של MS-Windows CP1257; WinBaltRim
IBM852 דף קידוד IBM/MS 852; מחשב (DOS) Latin 2
דף קוד IBM855 של IBM/MS 855
דף קוד IBM775 של IBM/MS 775
דף קוד IBM866 של IBM/MS 866
הבלטי ISO-IR-179; הבלטי
קידוד KEYBCS2 Kamenicky; KEYBCS2
macce Macintosh מרכז אירופה

מקיריל מקינטוש
ECMA-113 אקמה קירילית; ECMA-113
קוד KOI-8_CS_2 KOI8-CS2 (`T602')
KOI8-R KOI8-R קירילית
KOI8-U KOI8-U קירילית
KOI8-UNI KOI8-קירילית מאוחדת
רצפי בקרה של TeX (La)TeX
סט תווים אוניברסלי UCS-2 2 בתים; UCS-2; BMP
UCS-4 סט תווים אוניברסלי 4 בתים; UCS-4; ISO-10646
פורמט טרנספורמציה אוניברסלי UTF-7 7 סיביות; UTF-7
פורמט טרנספורמציה אוניברסלי UTF-8 8 סיביות; UTF-8
קידוד קורק קורק; T1
תקן לאומי סיני פשוט GBK; GB2312
תקן תעשייתי סיני מסורתי BIG5; Big5
HZ HZ מקודד GB2312
קידוד לא ידוע

איפה לא ידוע אין קידוד אמיתי, זה מדווח כאשר Enca לא מסוגל לתת
תשובה אמינה.

משטחים
ל-Enca יש תמיכה ניסיונית מסוימת עבור מה שנקרא משטחים (ראה להלן). היא מזהה
המשטחים הבאים (לא כולם ניתנים להחלת על כל קבוצות התווים):

מסופי קו CR /CR
מסופי קו LF /LF
מסופי קו CRLF /CRLF
מסופי קו מעורבים NA
לא זמין מוקף/מעורבב עם נתונים שאינם טקסטואליים
/21 סדר הבייטים הפוך בזוגות (1,2 -> 2,1)
/4321 סדר הבייטים הפוך בארבעה חלקים (1,2,3,4 -> 4,3,2,1)
NA חתיכות אנדיאן קטנות וגדולות, משורשרות
/qp מצוטט - ניתן להדפסה מקודד

שימו לב שבחלק מהמשטחים יש NA במקום מזהה - לא ניתן לציין אותם בפקודה.
קו, רק אנקה יכולה לדווח עליהם. זה מכוון כי הם רק מודיעים לך
מדוע לא ניתן להתייחס לקובץ כעקבי בפני השטח במקום לייצג דבר אמיתי
משטח.

לכל קבוצת תווים יש את המשטח הטבעי שלה (הנקרא 'מרומז' בקידוד מחדש) שאינו מדווח,
לדוגמה, עבור ערכת התווים של IBM 852 זהו `CRLF line terminators'. עבור קידודי UCS, big endian הוא
נחשב כמשטח טבעי; סדרי בתים יוצאי דופן בנויים מ-21 ו-4321
תמורות: 2143 מדווח פשוט כ-21, בעוד ש-3412 מדווח כשילוב של 4321
ו21.

UTF-8 בקידוד כפול אינו ערכת תווים ואינו משטח, הוא רק מדווח.

אודות ערכות תווים, קידודים ו משטחים
קבוצת תווים היא קבוצה של ישויות תווים בעוד קידוד הוא ייצוג שלה במונחים
של בתים וביטים. באנגלית, המילה הַצפָּנָה פירושו זהה ל'ייצוג טקסט',
כלומר, הקשר בין רצף ישויות הדמויות המרכיבות את הטקסט לבין
רצף הבייטים (ביטים) המרכיבים את הקובץ.

אז, קידוד הוא גם קבוצת תווים וגם מה שנקרא משטח (מסיימי שורה, סדר בתים,
שילוב, טרנספורמציה של Base64 וכו'). אף על פי כן, זה מתגלה כנוח לעבודה עם
חלק מהזוגות של {charset,surface} כמו עם קבוצות תווים אמיתיות. אז, כמו ב קידוד מחדש(1), כל UCS- ו
קידודי UTF של קבוצת תווים אוניברסלית נקראים קבוצות תווים. אנא ראה קידוד מחדש
תיעוד לקבלת פרטים נוספים על בעיה זו.

הדבר הטוב היחיד במשטחים הוא: כשלא מתחילים לשחק איתם, גם לא
אנקה לא יתחיל לפעול וינסה להתנהג ככל האפשר כאדם שאינו מודע למשטח.
תוכנית, אפילו כאשר מדברים עם קידוד מחדש.

שפות


Enca צריכה לדעת את שפת קבצי הקלט כדי לעבוד בצורה אמינה, לפחות במקרה של
קידוד רגיל של 8 סיביות. יש לזהות קידודי רב-בייט עבור כל לטיני, קירילי
או שפה יוונית.

אתה יכול (או חייב) להשתמש -L אפשרות לומר לאנקה את השפה. מכיוון שאנשים לרוב
לעבוד עם קבצים באותה שפה שעבורה הם הגדירו את הלוקלים, Enca מנסה
מנסה לנחש את השפה על ידי בחינת הערך של LC_CTYPE וקטגוריות מקומיות אחרות
(אנא ראה אזור(7)) ושימוש בו עבור השפה כאשר אינך מציין אף אחת. של
כמובן, זה עלול להיות שגוי לחלוטין וייתן לך תשובות חסרות משמעות ויפגע בך
קבצים, אז בבקשה אל תשכחו להשתמש ב -L אפשרות. ניתן גם להשתמש אנקאופט סביבה
משתנה להגדרת שפת ברירת מחדל (ראה סעיף הסביבה).

השפות הבאות נתמכות על ידי Enca (כל שפה רשומה יחד עם השפות הנתמכות)
קידוד של 8 סיביות).

בלארוסית CP1251 IBM866 ISO-8859-5 KOI8-UNI maccyr IBM855
בולגרית CP1251 ISO-8859-5 IBM855 maccyr ECMA-113
צ'כית ISO-8859-2 CP1250 IBM852 KEYBCS2 macce KOI-8_CS_2 CORK
אסטונית ISO-8859-4 CP1257 IBM775 ISO-8859-13 macce baltic
הקרואטי CP1250 ISO-8859-2 IBM852 macce CORK
הונגרי ISO-8859-2 CP1250 IBM852 macce CORK
CP1257 הליטאי ISO-8859-4 IBM775 ISO-8859-13 macce baltic
לטבית CP1257 ISO-8859-4 IBM775 ISO-8859-13 macce baltic
פולני ISO-8859-2 CP1250 IBM852 macce ISO-8859-13 ISO-8859-16 Baltic CORK
רוסית KOI8-R CP1251 ISO-8859-5 IBM866 maccyr
סלובקית CP1250 ISO-8859-2 IBM852 KEYBCS2 macce KOI-8_CS_2 CORK
סלובני ISO-8859-2 CP1250 IBM852 macce CORK
אוקראיני CP1251 IBM855 ISO-8859-5 CP1125 KOI8-U maccyr
GBK סיני BIG5 HZ
אף לא אחד

השפה המיוחדת אף לא אחד ניתן לקצר ל __, הוא אינו מכיל קידודים של 8 סיביות, אז רק
זוהו קידודים מרובי בייט.

ניתן גם להשתמש בשמות מקומיים במקום שפות:

בלארוסית להיות
בולגרית bg
צ'כית cs
אסטונית
שעה קרואטית
הונגרית
ליטאית
לטבית lv
פולנית רב
רוסי
סלובקית
סלובנית sl
אוקראינית בריטניה
סיני zh

מאפיינים


מספר תכונות של Enca תלויות במה שזמין במערכת שלך וכיצד הוא הופעל
הוקם. אתה יכול לקבל את הרשימה שלהם עם

enca --גרסה

סימן פלוס לפני שם תכונה פירושו שהיא זמינה, סימן מינוס פירושו שלבנייה זו חסרה
התכונה הספציפית.

ממשק librecodeל-Enca יש ממשק להמרת תווים בספריית קידוד מחדש של GNU.
פונקציות.

ממשק iconvל-Enca יש ממשק לפונקציות המרת תווים של iconv ב-UNIX98.

ממיר חיצוניEnca יכולה להשתמש בתוכנות המרה חיצוניות (אם יש לך תוכנות מתאימות)
מותקן).

זיהוי שפהאנקה מנסה לנחש שפה (-L) ממקומות מקומיים. אינך צריך את
--שפה אופציה, לפחות באופן עקרוני.

שם מיקום-כינויEnca מסוגלת לפענח כינויי מקומיים המשמשים לשמות שפות.

יעד-תווים-אוטומטיEnca מנסה לזהות את מערך התווים המועדף עליך מתוך מיקומים. אפשרות
--המרה אוטומטית וקורא לאנקה בתור enconverb עובד, לפחות באופן עקרוני.

אנקאופטEnca מסוגלת לנתח נכון את משתנה הסביבה הזה לפני שורת הפקודה.
פרמטרים. דברים פשוטים כמו ENCAOPT="-L בְּרִיטַנִיָה" יעבוד גם בלי תכונה זו.

הסביבה


המשתנה אנקאופט יכול להכיל קבוצה של אפשרויות ברירת מחדל של Enca. תוכנו מתפרש
לפני ארגומנטים משורת הפקודה. למרבה הצער, זה לא עובד בכל מקום (חייב להיות
+תכונת ENCAOPT).

LC_CTYPE, LC_COLLATE, LC_MESSAGES (אולי קיבלתי בירושה LC_ALL or שפה) משמש עבור
ניחוש השפה שלך (חובה +תכונת זיהוי שפה).

המשתנה DEFAULT_CHARSET ניתן להשתמש בו על ידי enconverb כקבוצת תווים ברירת מחדל של יעד.

דיאגנוסטיקה


Enca מחזירה קוד יציאה 0 כאשר כל קבצי הקלט הועברו בהצלחה (כלומר, כל
קידודים זוהו וכל הקבצים הומרו לקידוד הנדרש, אם ההמרה
(נדרש). קוד יציאה 1 מוחזר כאשר Enca לא הצליח לנחש את הקידוד או
לבצע המרה על כל קובץ קלט מכיוון שזה לא מספיק חכם. קוד יציאה 2 הוא
מוחזר במקרה של בעיות חמורות (למשל, קלט/פלט).

אבטחה


אמורה להיות אפשרות לאפשר לאנקה לעבוד ללא השגחה, זו המטרה שלה. עם זאת:

אין אחריות שהזיהוי עובד ב-100%. אל תסתכנו בזה, אתם יכולים בקלות להפסיד.
נתונים יקרי ערך.

אל תשתמשו ב-enca (התוכנית), פנו ל-libenca במקום זאת אם אתם רוצים משהו הדומה ל-
אבטחה. עליך לבצע את ההמרה הסופית בעצמך.

אל תשתמשו בממירים חיצוניים. באופן אידיאלי, השבתו אותם בזמן הקומפילציה.

להיות מודע ל אנקאופט וכל הניחושים האוטומטיים המובנים של דברים שונים מ
סביבה, כלומר מקומות.

השתמש ב-enconv באינטרנט באמצעות שירותי onworks.net


שרתים ותחנות עבודה בחינם

הורד אפליקציות Windows & Linux

פקודות לינוקס

Ad




×
פרסומת
❤️קנו, הזמינו או קנו כאן - ללא עלות, עוזר לשמור על שירותים בחינם.