Sistemas informáticos multiusuario e en rede/Representación de texto


EBCDIC editar

EBCDIC son as siglas de Extended BCD Inerchange Code, código de intercambio estendido de decimal codificado en binario. Este sistema foi deseñado por IBM, que o utilizou nos seus macrocomputadores. Utilízase para representar caracteres alfanuméricos e caracteres de control.

Neste sistema cada carácter ten unha lonxitude dun byte, é dicir, oito bits. o nibble (catro bits) da esquerda confórmano os chamados "bits de zona", mentres que o da dereita confórmano os chamados "bits de valor".

Paridade editar

Na transmisión de información poden producirse erros, por diversas causas, responsables de que nun código binario algún bit se inverta (0 en vez de 1, ou viceversa). Para evitar estes erros existe unha técnica que verifica ditos erros a nivel de byte, é dicir, pode detectar un erro por byte. É a paridade. Esta técnica consiste en, por cada byte, adicar sete bits á transmisión da información e o bit restante ao control de erros (paridade).

Podemos ter, daquela, dous valores para o bit da paridade: par e impar. Este bit dependerá do resultado de sumar os sete bits restantes. Se a suma dos sete bits resulta par, o bit de paridade será par (0), e se dita suma resulta impar, o bit de paridade será impar (1).

ASCII editar

ASCII son as siglas de American Standard Code for Information Interchange, código estándar estadounidense para o intercambio de información. Foi deseñado polo Instituto de estandarización nacional estadounidense (ANSI), e ten unha lonxitude dun byte. É o que utilizan a meirande parte dos sistemas operativos.

Nun principio en cada byte utilizábanse sete bits para codificar e un para a paridade. Os 32 primeiros códigos representaban caracteres de control, e o resto caracteres alfanuméricos. A versión estendida utiliza os oito bits para a representación de información, dobrando a capacidade de representación do sistema. Os novos caracteres desta versión estendida son distintos segundo quen os use, é dicir, fixéronse distintas versións de ASCII estendido para a representación de distintos símbolos utilizados en distintas linguaxes.

Unicode editar

Unicode provén do inglés Universal Code, código universal. A idea tras Unicode consiste en proporcionar un único código para cada carácter, alén da plataforma, o programa ou a lingua utilizada.

UCS editar

UCS son as siglas de Universal Character Set, conxunto universal de caracteres. Tamén se coñece coma ISO-10646. Este sistema de codificación de texto permite a representación de máis de 100.000 caracteres, todos eles codificados mediante o chamado "punto de código". Codifícanse valores no intervalo 0(16 - 10FFFF(16. Resérvase ademais un bloque de códigos entre D8FF(16 e DFFF(16 sen codificar.

UCS2 utiliza dous bytes para representar os primeiros 65536 caracteres. UCS4 utiliza catro bytes para representar todos os valores representables en UCS.

Os primeiros 256 valores coinciden co ISO-8859-1, que non é máis que ASCII coa páxina de extensión CP1252.

UTF editar

UTF son as siglas de Unicode Transformation Format, formato de transformación de Unicode.

UTF-32 ten unha lonxitude fixa. Os caracteres Unicode codifícanse mediante catro bytes. A codificación é idéntica a UCS4.

UTF-16 é un código de lonxitude variable no que se poden representar ata un máximo de 1.107.968 caracteres. Uns caracteres Unicode codifícanse mediante dous bytes, mentres que outros fano mediante catro bytes. Nos casos en que se usan dous bytes, a codificación é idéntica a UCS2, mentres que cando se utilizan catro bytes emprégase un algoritmo para codificar o carácter. Utilízase o rango de valores reservado sen codificar entre D8FF(16 e DFFF(16 para sinalar os caracteres codificados mediante catro bytes, é dicir, que terán dous bytes adicionais, que serán aqueles cuxo código sexa superior a FFFF(16 (e menor que 10FFFF(16).

O algoritmo utilizado para codificar en catro bytes fai o seguinte: 1) ao valor Unicode réstaselle 100000(16. Os restantes 20 bits (5 caracteres hexadecimais) repártense, 10 nos primeiros dous bits e outros dez nos segundos:

110110×× ×××××××× 110111×× ××××××××

UTF-8 é un código de lonxitude variable mediante o cal se codifican os caracteres mediante un, dous, tres ou catro bytes. Os primeiros bits do primeiro byte de cada carácter indican a cantidade de bytes de lonxitude que ocupa dito carácter, sendo 0- un byte, 110- dous bytes, 1110- tres bytes e 1111 0- catro bytes. Para aqueles caracteres que utilicen máis dun byte, ademais, o resto de bytes do carácter (os que no son o primeiro) comezarán por 10-. O resto de bits son os que realmente se usan para codificar os caracteres.

Para entendelo mellor, esta sería a forma dos diferentes caracteres de un ou varios bytes codificados en UTF-8:

Rango en sistema hexadecimal Almacenamento en UTF-8
00000000 - 0000007F 0×××××××
00000080 - 000007FF 110××××× 10××××××
00000800 - 0000FFFF 1110×××× 10×××××× 10××××××
00010000 - 001FFFFF 11110××× 10×××××× 10×××××× 10××××××

Véxase tamén editar

Ligazóns externas editar