Codificación de caracteres

Codificación de caracteres y estándares internacionales para idiomas asiáticos y para alfabetos no latinos

Cuantas veces no hemos escuchado o visto personas que no usan los acentos al escribir en español o que te afirman que su PC no tiene la letra «ñ», diciendo no la veo en mi teclado. También sucede que no conseguimos visualizar correctamente un documento en formato PDF o Word que nos llega con la última compra On-line proveniente de China o Corea. En seguida trataremos de entender por que sucede o sucedía esto.

Iniziando con la definición de caracter.
Caracter: es una letra, ideograma, número o símbolo. Este representa elementos de un lenguaje natural, es decir de un alfabeto o silabario. El alfabeto por tanto es un conjunto de caracteres, que se lee con un orden determinado, de las grafías utilizadas para representar el lenguaje que sirve de sistema de comunicación.

Esta breve introducción es necesaria ya que trataremos de explicar de un modo simple como funcionan estos caracteres en el mundo de la informática y la relación con los idiomas asiáticos y alfabetos no latinos.

Haciendo un poco de antropología pasando de la escritura manual a la imprenta, podemos afirmar que con la escritura manual no existe el problema, con la imprenta resolvieron el problema en su momento creando los tipos o caracteres de ahí nace la Tipografía, el paso sucesivo fueron las maquinas de escribir tipo Remington, donde se crearon variantes que dependían del idioma que debería escribirse, tipo Frances o español, fue así que se creo la disposición de las letras en el teclado. La distribución de teclado QWERTY se convirtió en el estándar para máquinas de escribir ingleses y españoles (este estándar se aplico a su vez a los teclados de computadoras). Otros idiomas escritos en alfabeto latinó usan a veces variantes de la distribución QWERTY, tales como la francesa AZERTY, la italiana QZERTY y la alemana QWERTZ.

Retomando el argumento de este articulo, con la llegada del PC era tangible la necesidad de establecer un éstandard de codificación para los caracteres, de modo tal que la su interpretación fuese universal, uniforme y única, es decir esta codificación debería permitir que un carácter sea relacionado con un símbolo en un sistema que tiene reglas bien establecidas, puede ser una cadena de números o una secuencia de pulsos eléctricos.

Así nacieron el código ASCII (acrónimo de las palabras inglesas American Standard Code for Information Exchange, lo que en español significaría Código Estadounidense Estándar para el Intercambio de Información) basado en el alfabeto latino, que funciona en un sistema de 8bits (de los cuales 7 son dígitos binarios o digitales y el octavo sirve para detectar errores, por ejemplo de trasmisión), rápidamente se vieron las limitaciones de este sistema: tiene solo 128 caracteres por lo que es limitado, es decir no incluye caracteres acentuados que son necesarios para otros idiomas diferentes del Ingles. No es universal.

Así fueron creados otros sistemas de codificaron de 8 bites tipo ASCII Extendido, pero estos también tenían sus problemas debido a que cada uno permitía ser usado para un grupo de lenguas semejantes, es decir no es una solución unica. Ni tampoco universal ya que 8 bites no son suficientes para codificar todos los alfabetos existentes.

De ahí nace un nuevo éstandard el UNICODE:

… “Básicamente, las computadoras sólo trabajan con números. Almacenan letras y otros caracteres mediante la asignación de un número a cada uno. Antes de que se inventara Unicode, existían cientos de sistemas de codificación distintos para asignar estos números. Ninguna codificación específica podía contener caracteres suficientes: por ejemplo, la Unión Europea, por sí sola, necesita varios sistemas de codificación distintos para cubrir todos sus idiomas. Incluso para un solo idioma como el inglés, no había un único sistema de codificación que se adecuara a todas las letras, signos de puntuación y símbolos técnicos de uso común.

Además, estos sistemas de codificación presentan problemas entre ellos. Es decir, dos sistemas de codificación pueden utilizar el mismo número para dos caracteres distintos o bien utilizar números distintos para el mismo carácter. Toda computadora (especialmente los servidores) necesita ser compatible con muchos sistemas de codificación distintos; sin embargo, cada vez que los datos se traspasan entre distintos sistemas de codificación o plataformas, dichos datos siempre corren el riesgo de sufrir daños.” …

Esta codifica cumple con los objetivos de: universalidad, uniformidad y unicidad.

… “Unicode incluye todos los caracteres de uso común en la actualidad. La versión 5.1 contenía 100 713 caracteres provenientes de alfabetos, sistemas ideográficos y colecciones de símbolos (matemáticos, técnicos, musicales, iconos…). La cifra crece con cada versión” …

Asi finalmente existe una codificación que incluye todo lo posible.

Es muy útil consultar la página Web que tiene este código porque esta actualizada continuamente resolviendo los posibles errores que existe hasta el momento.

Para tener una mejor idea da un clic a este link:
Where is my Character?

Codificación de caracteres