UCS-2 y UTF-16

Anonim

UCS-2 vs UTF-16

UCS-2 y UTF-16 son esquemas de codificación de dos caracteres que utilizan 2 bytes, que consta de 16 bits, para representar cada carácter; Así los 2 y 16 sufijos. La principal diferencia entre UCS-2 y UTF-16 es cuál se está utilizando en la actualidad. UCS-2 es un esquema más antiguo que desde entonces ha sido considerado obsoleto y reemplazado por el UTF-16, mucho más nuevo y poderoso.

UCS-2 es una codificación de ancho fijo que utiliza dos bytes para cada carácter; es decir, puede representar hasta un total de 216 caracteres o un poco más de 65 mil. Por otro lado, UTF-16 es un esquema de codificación de ancho variable que utiliza un mínimo de 2 bytes y un máximo de 4 bytes para cada carácter. Esto permite que UTF-16 represente cualquier carácter en Unicode mientras se usa un espacio mínimo para los caracteres más utilizados. Para la mayoría de los más de 65,000 caracteres, UCS-2 y UTF-16 tienen puntos de código idénticos; por lo que son en gran medida equivalentes. Esto permite que las aplicaciones compatibles con UTF-16 interpreten correctamente los códigos UCS-2. Pero al revés no funcionaría debido a las muchas mejoras en UTF-16.

Una de las mejoras mencionadas es la capacidad de representar secuencias de comandos que van de derecha a izquierda y no de izquierda a derecha. En UTF-16, los scripts pueden identificar la direccionalidad, lo que permite a la aplicación representar correctamente las palabras almacenadas en el código. UCS-2 carece de esta habilidad, por lo tanto, no funcionará con scripts como el árabe y el hebreo, que se mueven de derecha a izquierda. Otra característica que tiene el UTF-16 es la normalización. La normalización trata las palabras que significan lo mismo pero se representan de manera diferente como idénticas. Por ejemplo, las palabras "no se puede" y "no se puede" son idénticas, ya que la última es solo una contracción de la primera. Esto es muy importante, especialmente cuando busca tales palabras, ya que permitiría un resultado de búsqueda más completo. En UCS-2, esto no ocurre automáticamente, por lo que la aplicación necesita implementar dicha función por sí misma.

Realmente no hay razón para elegir UCS-2 sobre UTF-16, aparte de tener una aplicación que no necesita que sea compatible con UTF-16. En todos los aspectos, UTF-16 es superior a UCS-2. También es ampliamente compatible con versiones anteriores, por lo que no tiene que preocuparse por los archivos codificados en UCS-2.

Resumen:

  1. UCS-2 está obsoleto y desde entonces ha sido reemplazado por UTF-16
  2. UCS-2 es un esquema de codificación de ancho fijo, mientras que UTF-16 es un esquema de codificación de ancho variable
  3. Las aplicaciones compatibles con UTF-16 pueden leer archivos UCS-2 pero no al revés
  4. UTF-16 admite el derecho a dejar scripts mientras que UCS-2 no lo hace
  5. UTF-16 soporta la normalización mientras que UCS-2 no lo hace