Este es el comando enca que se puede ejecutar en el proveedor de alojamiento gratuito de OnWorks utilizando una de nuestras múltiples estaciones de trabajo en línea gratuitas, como Ubuntu Online, Fedora Online, emulador en línea de Windows o emulador en línea de MAC OS.
PROGRAMA:
NOMBRE
enca: detecta y convierte la codificación de archivos de texto
SINOPSIS
resistencia [-L IDIOMA] [OPCIÓN] ... [ARCHIVO] ...
enconv [-L IDIOMA] [OPCIÓN] ... [ARCHIVO] ...
INTRODUCCIÓN Y EJEMPLOS
Si tiene la suerte, las únicas dos cosas que necesitará saber son: comando
resistencia ARCHIVO
te dirá qué archivo de codificación ARCHIVO utiliza (sin cambiarlo), y
enconv ARCHIVO
convertirá el archivo ARCHIVO a la codificación nativa de su localidad. Para convertir el archivo a otro
codificación utiliza el -x opción (ver -x entrada en la sección OPCIONES y secciones CONVERSIÓN y
CODIFICACIONES para más detalles).
Ambos funcionan con varios archivos y también con entrada (salida) estándar. P.ej
enca -x latin2
asegura que el archivo `sometext 'está en ISO Latin 2 cuando se envía a la impresora.
La razón principal por la que estos comandos fallarán y convertirán sus archivos en basura es que Enca
necesita conocer su idioma para detectar la codificación. Intenta determinar tu idioma
y el juego de caracteres preferido de la configuración regional, que puede que no sea lo que desea.
Puedes (o tienes que) usar -L opción para decirle el idioma correcto. Supongamos que descargaste
algún archivo HTML ruso, `file.htm ', afirma que es Windows-1251 pero no lo es. Entonces tu corres
enca -L ru archivo.htm
y averigüe que es KOI8-R (por ejemplo). Tenga cuidado, actualmente no hay muchos compatibles.
idiomas (ver sección IDIOMAS).
Otra advertencia se refiere al hecho de que varias características de Enca, a saber, su conversión de juego de caracteres
capacidades, dependen en gran medida de qué otras herramientas están instaladas en su sistema (consulte
. CONVERSIÓN)--correr
enca --versión
para obtener una lista de características (consulte la sección CARACTERÍSTICAS). Intenta también
enca --ayuda
para obtener una descripción de todas las demás opciones de Enca (y para encontrar el resto de esta página de manual
redundante).
DESCRIPCIÓN
Enca lee archivos de texto dados, o entrada estándar cuando no se da ninguno, y usa el conocimiento
acerca de su idioma (debe ser apoyado por usted) y una mezcla de análisis, estadísticas
análisis, adivinanzas y magia negra para determinar sus codificaciones, que luego imprime en
salida estándar (o confiesa que no tiene idea de cuál podría ser la codificación). Por
Por defecto, Enca presenta los resultados como descripciones legibles por humanos de varias líneas, varias otras
los formatos están disponibles; consulte Selectores de tipo de salida a continuación.
Enca también puede convertir archivos a alguna otra codificación ENC cuando lo solicite, ya sea utilizando un
convertidor incorporado, alguna biblioteca de conversión o llamando a un convertidor externo.
El objetivo principal de Enca es ser utilizable sin supervisión, como una herramienta de conversión automática, aunque
tal vez no haya llegado a este punto todavía (consulte la sección SEGURIDAD).
Tenga en cuenta que, excepto en casos raros, Enca realmente tiene que conocer el idioma de los archivos de entrada para
usted una respuesta confiable. Por otro lado, puede hacer frente bastante bien a archivos que son
no es puramente textual o incluso detecta un juego de caracteres de cadenas de texto dentro de algún archivo binario; de
Por supuesto, depende del carácter del componente no textual.
A Enca no le importa la estructura de los archivos de entrada, los ve como una pieza uniforme de
texto / datos. En el caso de archivos de varias partes (por ejemplo, buzones de correo), debe utilizar alguna herramienta para saber
la estructura para extraer las partes individuales primero. Es el costo de la capacidad de detectar
codificaciones de cualquier archivo dañado, incompleto o incorrecto.
OPCIONES
Hay varias categorías de opciones: opciones de modo de operación, selectores de tipo de salida,
adivinar parámetros, parámetros de conversión, opciones generales y listados.
Todas las opciones largas se pueden abreviar siempre que sean parámetros obligatorios e inequívocos
de opciones largas también son obligatorias para opciones cortas.
Operación los modos
estan siguiendo:
-c, - conversión automática
Equivalente a llamar a Enca como enconv.
Si no se especifica ningún selector de tipo de salida, detecte codificaciones de archivos, adivine su
juego de caracteres preferido de las configuraciones regionales y convertir archivos a él (solo disponible con
+ función target-charset-auto).
-g, --adivinar
Equivalente a llamar a Enca como resistencia.
Si no se especifica ningún selector de tipo de salida, detecte las codificaciones de archivos y notifíquelas.
Salida tipo selectores
seleccione qué acción tomará Enca cuando determine la codificación; la mayoría de ellos solo
elegir entre diferentes nombres, formatos y convenciones cómo se pueden imprimir las codificaciones, pero
uno de ellos (-x) es especial: le dice a Enca que recodifique archivos a alguna otra codificación ENC.
Estas opciones son mutuamente excluyentes; si especifica más de un selector de tipo de salida
el último tiene prioridad.
Varios tipos de salida representan el nombre del juego de caracteres utilizado por algún otro programa, pero no todos estos
Los programas conocen todos los juegos de caracteres que reconoce Enca. Tenga cuidado, Enca no hace ninguna diferencia
entre el juego de caracteres no reconocido y el juego de caracteres que no tiene nombre en el espacio de nombres dado en tal
situaciones
-d, --detalles
Solía imprimir algunas páginas de detalles sobre el proceso de adivinación, pero desde Enca
es solo un programa vinculado a la biblioteca Enca, esto no es posible y esta opción
es aproximadamente equivalente a - legible por humanos, excepto que informa el motivo de la falla cuando
Enca no reconoce la codificación.
-e, --enca-nombre
Imprime el bonito nombre de Enca del juego de caracteres, es decir, quizás el más generalmente aceptado
e identificador de juego de caracteres más o menos legible por humanos, con superficies adjuntas.
Este nombre también se usa cuando se llama a un convertidor externo.
-f, - legible por humanos
Imprime una descripción verbal del juego de caracteres detectado y las superficies, algo que un humano
entiende mejor. Este es el comportamiento estándar.
El formato preciso es el siguiente: la primera línea contiene solo el nombre del juego de caracteres, y
va seguido de cero o más líneas sangradas que contienen los nombres de las superficies detectadas.
Sin embargo, este formato no es adecuado ni está diseñado para un procesamiento posterior de la máquina,
y es probable que las descripciones verbales de los juegos de caracteres cambien en el futuro.
-i, --iconv-nombre
Imprime cómo iconv(3) (y / o iconv(1)) llama al juego de caracteres detectado. Más precisamente,
imprime un alias, elegido más o menos arbitrariamente, aceptado por iconv. Un juego de caracteres
desconocido para iconv cuenta como desconocido.
Este tipo de salida tiene sentido solo cuando Enca se compila con el soporte de iconv (característica
+ interfaz-iconv).
-r, --rfc1345-nombre
Imprime el nombre del juego de caracteres RFC 1345. Cuando ese nombre no existe porque RFC 1345
no define una codificación determinada, algún otro nombre definido en algún otro RFC o simplemente
se imprime el nombre que el autor considera "el más canónico".
Dado que RFC 1345 no define superficies, no se agrega información de superficie.
-m, --nombre-mimo
Imprime el nombre MIME preferido del juego de caracteres detectado. Este es el nombre que debes
normalmente se usa al arreglar correos electrónicos o páginas web.
Un juego de caracteres no presente en http://www.iana.org/assignments/character-sets cuenta como
desconocido.
-s, --cstocs-nombre
Imprime cómo cstocs(1) llama al juego de caracteres detectado. Un juego de caracteres desconocido para cstocs
cuenta como desconocido.
-n, --name =WORD
Imprime el nombre del juego de caracteres (codificación) seleccionado por WORD (se puede abreviar siempre que sea
inequívoco). Para los nombres enumerados anteriormente, --name =WORD es equivalente a --WORD.
Usando alias ya que el tipo de salida hace que Enca imprima la lista de todos los alias aceptados
del juego de caracteres detectado.
-x, --convert-to =[..]ENC
Convierte archivo a codificación ENC.
El '..' opcional antes del nombre de codificación no tiene un significado especial, excepto que puede usar
para recordarte a ti mismo que, a diferencia de recodificar(1), debe especificar deseado
codificación, en lugar de actual.
Puedes usar recodificar(1) cadenas de recodificación o cualquier otro tipo de recodificación cerebral
especificación para ENC, siempre que le diga a Enca que use alguna herramienta para comprender
para la conversión (ver sección CONVERSIÓN).
Cuando Enca no puede determinar la codificación, imprime una advertencia y deja el
archivar como está; cuando se ejecuta como filtro, intenta hacer todo lo posible para copiar el estándar
entrada a salida estándar sin cambios. Sin embargo, no debe confiar en él y hacer
apoyo.
Adivinación parámetros
Sólo hay uno: -L configuración del idioma de los archivos de entrada. Esta opción es obligatoria (pero consulte
abajo).
-L, --language =IDIOMA
Establece el idioma de los archivos de entrada en IDIOMA.
Más precisamente, IDIOMA puede ser cualquier nombre de configuración regional válido (o alias con + locale-alias
característica) de algún idioma compatible. También puede especificar "ninguno" como nombre de idioma,
Entonces sólo se reconocen las codificaciones multibyte. Correr
enca: lista de idiomas
para obtener una lista de idiomas admitidos. Cuando no especifica ningún idioma, Enca intenta
para adivinar su idioma a partir de la configuración regional y asume que los archivos de entrada usan esto
idioma. Mira la sección IDIOMAS para obtener más detalles.
Conversión parámetros
le brinda un control más preciso de cómo se realizará la conversión del juego de caracteres. No afectan
cualquier cosa cuando -x no se especifica como tipo de salida. Por favor vea la sección CONVERSIÓN para
detalles de conversión sangrientos.
-C, --try-converters =Anuncia
Añade separados por comas Anuncia a la lista de convertidores que se probarán cuando
pedir conversión. Sus nombres se pueden abreviar siempre que sean
inequívoco. Correr
enca - lista de convertidores
para obtener una lista de todos los nombres de convertidores válidos (y consulte la sección CONVERSIÓN para su
descripción).
La lista predeterminada depende de cómo se haya compilado Enca, ejecute
enca --ayuda
para averiguar la lista de convertidores predeterminada.
Tenga en cuenta que la lista predeterminada se usa solo cuando no especifica -C en absoluto. De lo contrario,
la lista se construye como si estuviera inicialmente vacía y cada -C agrega nuevos convertidores
lo. Además, especificando ninguna ya que el nombre del convertidor hace que se borre el convertidor
lista.
-E, - programa-convertidor-externo =TRAYECTORIA
Establece el nombre del programa convertidor externo en TRAYECTORIA. El convertidor externo predeterminado depende
sobre cómo se ha cumplido enca, y la posibilidad de utilizar convertidores externos puede
no estar disponible en absoluto. Correr
enca --ayuda
para averiguar el programa de conversión predeterminado en su versión enca.
General opciones
no encaja en otras categorías de opciones ...
-p, --con-nombre de archivo
Obliga a Enca a prefijar cada resultado con el nombre de archivo correspondiente. De forma predeterminada, Enca
antepone los resultados con nombres de archivo cuando se ejecuta en varios archivos.
La entrada estándar se imprime como ESTÁNDAR y salida estándar como SALIDA ESTÁNDAR (este último puede ser
probablemente visto solo en mensajes de error).
-P, --no-nombre de archivo
Obliga a Enca a no agregar nombres de archivo a los resultados. De forma predeterminada, Enca no tiene prefijos
resultado con el nombre del archivo cuando se ejecuta en un solo archivo (incluida la entrada estándar).
-V, --verboso
Aumenta el nivel de verbosidad (cada uso lo aumenta en uno).
Actualmente esta opción no es muy útil porque diferentes partes de Enca responden
de manera diferente al mismo nivel de verbosidad, la mayoría de las veces no.
Propiedades
son todos terminales, es decir, cuando Enca encuentra alguno de ellos, imprime el listado requerido
y termina sin procesar ninguna de las siguientes opciones.
-h, --ayuda
Imprime una breve ayuda de uso.
-G, --licencia
Imprime la licencia Enca completa (a través de un buscapersonas, si es posible).
-l, --list =WORD
Imprime la lista especificada por WORD (se puede abreviar siempre que no sea ambiguo).
Las listas disponibles incluyen:
conjuntos de caracteres incorporados. Todas las codificaciones convertibles por convertidor incorporado, por grupo (ambos
La codificación de entrada y salida debe ser de esta lista y pertenecer al mismo grupo para
conversión interna).
codificaciones incorporadas. Equivalente a conjuntos de caracteres incorporados, pero considerado obsoleto; será
ser aceptado con una advertencia, por un tiempo.
convertidores. Todos los nombres de convertidores válidos (para usar con -C).
juegos de caracteres. Todas las codificaciones (juegos de caracteres). Puede seleccionar qué nombres se imprimirán
con --nombre o cualquier selector de tipo de salida de nombre (por supuesto, solo las codificaciones que tienen un
se imprimirá el nombre en el espacio de nombres dado), se debe especificar el selector
antes --lista.
codificaciones. Equivalente a juegos de caracteres, pero considerado obsoleto; será aceptado con
una advertencia, por un tiempo.
idiomas. Todos los idiomas admitidos junto con los juegos de caracteres que les pertenecen. Nota
el tipo de salida selecciona el estilo del nombre del idioma, no el estilo del nombre del juego de caracteres aquí.
nombres. Todos los valores posibles de --nombre .
liza. Todos los valores posibles de esta opción. (¿Loco?)
superficies. Todas las superficies que Enca reconoce.
-v, --versión
Imprime la versión del programa y la lista de funciones (consulte la sección CARACTERÍSTICAS).
CONVERSIÓN
Aunque Enca se diseñó originalmente como una herramienta para adivinar solo la codificación, ahora
presenta varios métodos de conversión de juegos de caracteres. Puedes controlar cuál de ellos será
usado con -C.
Enca prueba secuencialmente los convertidores de la lista especificada por -C hasta que encuentra algo que
puede realizar la conversión requerida o hasta que agote la lista. Debes especificar
convertidores preferidos primero, menos preferidos después. Convertidor externo (externo) debiera ser
siempre se especifica en último lugar, solo como último recurso, ya que generalmente no es posible recuperar
cuando falla. La lista predeterminada de convertidores siempre comienza con incorporado y luego en
continúa con el primero disponible en: código libre, iconv, nada.
Cabe señalar que cuando Enca dice que no puede realizar la conversión, solo significa
ninguno de los convertidores puede realizarlo. Todavía puede ser posible realizar el
requirió conversión en varios pasos, usando varios convertidores, pero para averiguar cómo,
Probablemente se necesite inteligencia humana.
Incorporado convertidor
es el más simple y, con mucho, el más rápido de todos, solo puede realizar unos pocos byte a byte
conversiones y modifica archivos directamente en su lugar (puede considerarse peligroso, pero es
bastante eficiente). Puede obtener una lista de todas las codificaciones que puede convertir con
enca --list incorporado
Además de la velocidad, su principal ventaja (y también desventaja) es que no le importa:
simplemente convierte los caracteres que tienen una representación en la codificación de destino, no se toca
cualquier otra cosa y nunca imprime ningún mensaje de error.
Este convertidor se puede especificar como incorporado con -C.
código libre convertidor
es una interfaz para la biblioteca de recodificación GNU, que hace el trabajo de recodificación real. Puede o puede
no ser compilado en; correr
enca --versión
para averiguar su disponibilidad en su compilación enca (función + interfaz de código libre).
Deberías estar familiarizado con recodificar(1) antes de usarlo, ya que recodificar es bastante
herramienta de conversión de juegos de caracteres sofisticada y poderosa. Puede tener problemas al usarlo
junto con Enca particularmente porque el soporte de Enca para superficies no 100% compatibles,
porque recodificar se esfuerza demasiado en hacer que la transformación sea reversible, porque a veces
ignora silenciosamente los errores de E / S, y porque tiene muchos errores. Consulte la recodificación de GNU
páginas de información para obtener detalles sobre la biblioteca de recodificación.
Este convertidor se puede especificar como código libre con -C.
Iconv convertidor
es una interfaz para UNIX98 iconv(3) funciones de conversión, que hacen la recodificación real
trabajo. Puede estar compilado o no; correr
enca --versión
para averiguar su disponibilidad en su compilación enca (función + interfaz iconv).
Si bien iconv está presente en la mayoría de los sistemas actuales, rara vez ofrece un conjunto útil de
conversiones disponibles, la única excepción notable es iconv de GNU libc. Está
también suele ser bastante exigente con las superficies (mientras que, al mismo tiempo, no implementa
conversión). Sin embargo, probablemente representa la única herramienta estándar (izada) capaz de realizar
conversión de / a Unicode. Consulte la documentación de iconv acerca de para obtener detalles sobre su
capacidades en su sistema particular.
Este convertidor se puede especificar como iconv con -C.
Externo convertidor
es una herramienta de conversión externa arbitraria que se puede especificar con -E opción (como máximo una
pueden definirse simultáneamente). Hay algunos estándares, proporcionados junto con enca:
cstocs, recodificar, mapa, Umapa y piconv. Todos son scripts de envoltura: para cstocs(1) recodificar(1)
mapa(1) Umapa(1), y piconv(1).
Tenga en cuenta que enca tiene poco control sobre lo que realmente hace el convertidor externo. Si pones
a / bin / rm eres totalmente responsable de las consecuencias.
Si desea hacer su propio convertidor para usar con enca, debe saber que siempre es
, que son
CONVERTIDOR ENC_ACTUAL ENC ARCHIVO [-]
dónde CONVERTIDOR es lo que ha sido establecido por -E, ENC_ACTUAL se detecta codificación, ENC qué es
ha sido especificado con -x y ARCHIVO es el archivo a convertir, es decir, se llama para cada
archivar por separado. El cuarto parámetro opcional, -, debe causar (cuando está presente) el envío
resultado de la conversión a salida estándar en lugar de sobrescribir el archivo ARCHIVO.
El convertidor también debe cuidar de no cambiar los permisos de archivo, devolviendo el código de error 1
cuando falla y limpia sus archivos temporales. Consulte el estándar externo
convertidores por ejemplo.
Este convertidor se puede especificar como externo con -C.
"Predeterminado" dirigidos charset
La forma sencilla de especificar el juego de caracteres de destino es el -x opción, que anula cualquier
valores predeterminados. Cuando Enca se llama como enconv, el juego de caracteres de destino predeterminado se selecciona exactamente el
de la misma manera que recodificar(1) lo hace.
Si DEFAULT_CHARSET La variable de entorno está configurada, se usa como el conjunto de caracteres de destino.
De lo contrario, si su sistema proporciona nl_langinfo(3) función, la configuración regional actual
juego de caracteres se utiliza como juego de caracteres de destino.
Cuando ambos métodos fallan, Enca se queja y termina.
Reversibilidad reconoce
Si la reversibilidad es crucial para usted, no debería usar enca como convertidor en absoluto (o tal vez
puede, con un diseño muy específico recodificar(1) envoltorio). De lo contrario, debería en
Por lo menos sepa que hay cuatro medios básicos para manejar entidades de carácter inconvertibles:
falla: esto también es una posibilidad y, dicho sea de paso, es exactamente lo que GNU libc actual
La implementación de iconv lo hace (también se puede decir a recode que lo haga)
no los toque - esto es lo que siempre hace el convertidor interno de enca y recode puede hacer;
aunque no es reversible, un ser humano suele ser capaz de reconstruir el original (en
al menos en principio)
aproximarlos: esto es lo que puede hacer cstocs y recodificar también, aunque de manera diferente; y el
la mejor opción si solo desea que el texto maldito sea legible
eliminarlos: esto es lo que pueden hacer tanto recode como cstocs (cstocs también puede reemplazar estos
caracteres por algún carácter fijo en lugar de simplemente ignorar); útil cuando el
los caracteres que se van a omitir contienen solo ruido.
Consulte el manual de su convertidor favorito para obtener detalles sobre este problema. Generalmente, si
no tiene la suerte de tener todos los caracteres convertibles en su archivo, manual
de todos modos se necesita intervención.
Rendimiento reconoce
El bajo rendimiento de los convertidores disponibles ha sido una de las principales razones para incluir
convertidor incorporado en enca. Intente utilizarlo siempre que sea posible, es decir, cuando los archivos en
consideración son juegos de caracteres lo suficientemente limpios o lo suficientemente desordenados como para que su cero incorporado
la inteligencia no importa. No requiere espacio adicional en disco ni memoria adicional y puede
Superar recodificar(1) más de 10 veces en archivos grandes y versión Perl (es decir, el más rápido
uno de cstocs(1) más de 400 veces en archivos pequeños (de hecho, es casi tan rápido como
cp(1)).
Intente evitar los convertidores externos cuando no sea absolutamente necesario, ya que todas las bifurcaciones
y mover cosas es increíblemente lento.
CODIFICACIONES
Puede obtener una lista de conjuntos de caracteres reconocidos con
enca: lista de conjuntos de caracteres
y utilizando --nombre parámetro puede seleccionar cualquier nombre que desee utilizar en la lista.
También puede enumerar todas las superficies con
enca: lista de superficies
Los nombres de codificación y superficie no distinguen entre mayúsculas y minúsculas y los caracteres no alfanuméricos no
tenido en cuenta. Sin embargo, la mayoría de los caracteres no alfanuméricos no están permitidos.
Los únicos permitidos son: `- ',` _', `. ',`:' Y `/ '(como juego de caracteres / separador de superficie). Entonces
`ibm852 'e` IBM-852' son lo mismo, mientras que no se acepta `IBM 852 '.
Conjuntos de caracteres
La siguiente lista de conjuntos de caracteres reconocidos usa los nombres de Enca (-e) y descripciones verbales como
reportado por Enca (-f):
Caracteres ASCII de 7 bits ASCII
Norma ISO-8859-2 ISO 8859-2; ISO Latin 2
Norma ISO-8859-4 ISO 8859-4; Latín 4
Norma ISO-8859-5 ISO 8859-5; Cirílico ISO
Norma ISO-8859-13 ISO 8859-13; ISO Báltico; Latín 7
Norma ISO-8859-16 ISO 8859-16
CP1125 Página de códigos de MS-Windows 1125
CP1250 Página de códigos de MS-Windows 1250
CP1251 Página de códigos de MS-Windows 1251
CP1257, página de códigos de MS-Windows 1257; WinBaltRim
IBM852 Página de códigos IBM / MS 852; PC (DOS) Latín 2
IBM855 Página de códigos de IBM / MS 855
IBM775 Página de códigos de IBM / MS 775
IBM866 Página de códigos de IBM / MS 866
báltico ISO-IR-179; báltico
Codificación KEYBCS2 Kamenicky; KEYBCS2
macce Macintosh Centroeuropea
maccyr Macintosh cirílico
ECMA-113 Ecma cirílico; ECMA-113
KOI-8_CS_2 Código KOI8-CS2 ('T602')
KOI8-R KOI8-R Cirílico
KOI8-U KOI8-U Cirílico
KOI8-UNI KOI8-Cirílico unificado
Secuencias de control TeX (La) TeX
UCS-2 Juego de caracteres universal 2 bytes; UCS-2; BMP
UCS-4 Juego de caracteres universal 4 bytes; UCS-4; ISO-10646
UTF-7 Formato de transformación universal de 7 bits; UTF-7
UTF-8 Formato de transformación universal de 8 bits; UTF-8
CORCHO Codificación de corcho; T1
Estándar nacional chino simplificado GBK; GB2312
Estándar industrial chino tradicional BIG5; Big5
HZ HZ codificado GB2312
codificación desconocida no reconocida
dónde desconocido no es una codificación real, se informa cuando Enca no puede dar un
respuesta confiable.
Superficies
Enca tiene cierto soporte experimental para las llamadas superficies (ver más abajo). Detecta
siguientes superficies (no todas se pueden aplicar a todos los juegos de caracteres):
/ Terminadores de línea CR CR
/ Terminadores de línea LF LF
/ CRLF Terminadores de línea CRLF
NA Terminadores de línea mixta
NA Rodeado por / mezclado con datos que no son de texto
/ 21 Orden de bytes invertido en pares (1,2 -> 2,1)
/ 4321 Orden de bytes invertido en cuádruples (1,2,3,4 -> 4,3,2,1)
NA Fragmentos de little y big endian, concatenados
/ qp Citado-imprimible codificado
Tenga en cuenta que algunas superficies tienen NA en lugar del identificador; no se pueden especificar en el comando
line, solo pueden ser reportados por Enca. Esto es intencional porque solo te informan
por qué el archivo no puede considerarse consistente en la superficie en lugar de representar una
superficie.
Cada juego de caracteres tiene su superficie natural (llamada "implícita" en recodificar) que no se informa,
por ejemplo, para el juego de caracteres IBM 852 es "terminadores de línea CRLF". Para codificaciones UCS, big endian es
considerado como superficie natural; Las órdenes de bytes inusuales se construyen a partir de 21 y 4321.
permutaciones: 2143 se informa simplemente como 21, mientras que 3412 se informa como una combinación de 4321
y 21.
UTF-8 doblemente codificado no es un juego de caracteres ni una superficie, se acaba de informar.
Acerca de juegos de caracteres, codificaciones y superficies
Charset es un conjunto de entidades de caracteres, mientras que la codificación es su representación en los términos
de bytes y bits. En Enca, la palabra codificación significa lo mismo que "representación de texto",
es decir, la relación entre la secuencia de entidades de carácter que constituyen el texto y
secuencia de bytes (bits) que constituyen el archivo.
Por lo tanto, la codificación es tanto un conjunto de caracteres como la denominada superficie (terminadores de línea, orden de bytes,
combinación, transformación Base64, etc.). Sin embargo, resulta conveniente trabajar con
algunos pares de {juego de caracteres, superficie} como con juegos de caracteres genuinos. Entonces, como en recodificar(1), todos UCS- y
Las codificaciones UTF del juego de caracteres Universal se denominan juegos de caracteres. Por favor vea recodificar
documentación para obtener más detalles sobre este problema.
Lo único bueno de las superficies es que cuando no empiezas a jugar con ellas, tampoco
Enca no se iniciará e intentará comportarse tanto como sea posible como un
programa, incluso cuando se habla para recodificar.
IDIOMAS
Enca necesita conocer el idioma de los archivos de entrada para funcionar de manera confiable, al menos en caso de
codificación regular de 8 bits. Las codificaciones multibyte deben reconocerse para cualquier latín, cirílico
o idioma griego.
Puedes (o tienes que) usar -L opción para decirle a Enca el idioma. Dado que la gente con mayor frecuencia
trabajar con archivos en el mismo idioma para el que han configurado configuraciones regionales, Enca intenta
intenta adivinar el lenguaje examinando el valor de LC_CTYPE y otras categorías de configuración regional
(por favor mira local(7)) y usarlo para el idioma cuando no especifica ninguno. De
Por supuesto, puede ser completamente incorrecto y le dará respuestas sin sentido y dañará su
archivos, así que no olvide utilizar el -L opción. También puedes usar ENCAOPTAR entorno empresarial
variable para establecer un idioma predeterminado (consulte la sección MEDIO AMBIENTE).
Los siguientes idiomas son compatibles con Enca (cada idioma se enumera junto con los
Codificaciones de 8 bits).
Bielorruso CP1251 IBM866 ISO-8859-5 KOI8-UNI maccyr IBM855
Búlgaro CP1251 ISO-8859-5 IBM855 maccyr ECMA-113
Checo ISO-8859-2 CP1250 IBM852 KEYBCS2 macce KOI-8_CS_2 CORK
Estonia ISO-8859-4 CP1257 IBM775 ISO-8859-13 macce báltico
Croacia CP1250 ISO-8859-2 IBM852 macce CORK
Húngaro ISO-8859-2 CP1250 IBM852 macce CORK
Lituano CP1257 ISO-8859-4 IBM775 ISO-8859-13 macce baltic
Letón CP1257 ISO-8859-4 IBM775 ISO-8859-13 macce báltico
Polaco ISO-8859-2 CP1250 IBM852 macce ISO-8859-13 ISO-8859-16 baltic CORK
Ruso KOI8-R CP1251 ISO-8859-5 IBM866 maccyr
Eslovaco CP1250 ISO-8859-2 IBM852 KEYBCS2 macce KOI-8_CS_2 CORK
Esloveno ISO-8859-2 CP1250 IBM852 macce CORK
Ucraniano CP1251 IBM855 ISO-8859-5 CP1125 KOI8-U maccyr
GBK chino BIG5 HZ
ninguna
El lenguaje especial ninguna se puede acortar a __, no contiene codificaciones de 8 bits, por lo que solo
Se detectan codificaciones multibyte.
También puede utilizar nombres de configuración regional en lugar de idiomas:
Ser bielorruso
Bg búlgaro
Checo cs
Estonio et
Hr croata
Húngaro hu
Lt lituano
Letón lv
Polaco pl
Ruso ru
Sk eslovaco
Esloveno sl
Ucraniano reino unido
Chino zh
CARACTERÍSTICAS
Varias características de Enca dependen de lo que esté disponible en su sistema y cómo fue
compilado. Puede obtener su lista con
enca --versión
El signo más antes del nombre de una función significa que está disponible, el signo menos significa que esta compilación carece
la característica particular.
interfaz de código libre. Enca tiene una interfaz para la conversión de juegos de caracteres de la biblioteca de recodificación GNU
funciones.
interfaz iconv. Enca tiene una interfaz para las funciones de conversión de juegos de caracteres iconv de UNIX98.
convertidor externo. Enca puede usar programas de conversión externos (si tiene algunos
instalado).
detección de idioma. Enca intenta adivinar el idioma (-L) de las configuraciones regionales. No necesitas el
--idioma opción, al menos en principio.
alias-local. Enca puede descifrar los alias de configuración regional utilizados para los nombres de los idiomas.
objetivo-charset-auto. Enca intenta detectar su juego de caracteres preferido de las configuraciones regionales. Opción
- conversión automática y llamar a Enca como enconv funciona, al menos en principio.
ENCAOPTAR. Enca puede analizar correctamente esta variable de entorno antes de la línea de comando
parámetros. Cosas simples como ENCAOPT = "- L Reino Unido" funcionará incluso sin esta característica.
MEDIO AMBIENTE
La variable ENCAOPTAR puede contener un conjunto de opciones de Enca predeterminadas. Su contenido se interpreta
antes de los argumentos de la línea de comandos. Desafortunadamente, esto no funciona en todas partes (debe tener
+ Función ENCAOPT).
LC_CTYPE, LC_COLLATE, LC_MENSAJES (posiblemente heredado de LC_TODOS or IDIOMA) se utiliza para
adivinar su idioma (debe tener + función de detección de idioma).
La variable DEFAULT_CHARSET puede ser utilizado por enconv como el juego de caracteres de destino predeterminado.
La diagnostica
Enca devuelve el código de salida 0 cuando todos los archivos de entrada se procesaron correctamente (es decir, todos
Se detectaron codificaciones y todos los archivos se convirtieron a la codificación requerida, si la conversión
fue solicitado). El código de salida 1 se devuelve cuando Enca no pudo adivinar la codificación o
realizar la conversión en cualquier archivo de entrada porque no es lo suficientemente inteligente. El código de salida 2 es
devuelto en caso de problemas graves (por ejemplo, E / S).
SEGURIDAD
Debería ser posible dejar que Enca funcione sin supervisión, es su objetivo. Sin embargo:
No hay garantía de que la detección funcione al 100%. No apuestes, puedes perder fácilmente
datos valiosos.
No use enca (el programa), enlace a libenca en su lugar si desea algo parecido
seguridad. Tienes que realizar la eventual conversión tú mismo entonces.
No utilice convertidores externos. Idealmente, desactívelos en tiempo de compilación.
Ser consciente de ENCAOPTAR y todos los automágicos incorporados adivinando varias cosas de
entorno, a saber, locales.
Use enca en línea usando los servicios de onworks.net