Em vários idiomas pt.I – Onde foram parar meus acentos?
Opa, Paulão Darkmind está de volta, depois de um período de vagabundagem trabalho duro fora das internets. Tentarei não sumir novamente, por isso já assegurei a fonte de ideias para as proximas postagens, e agora vamos recomeçar!
![[danbooru] b5b5b7bdb9e408f306d06033bbfd47293 [danbooru] b5b5b7bdb9e408f306d06033bbfd47293](http://canseideserloser.com/wp-content/uploads/2009/07/danbooru-b5b5b7bdb9e408f306d06033bbfd47293.jpg)
Vou falar um pouco de um assunto interessante, que faz bastante gente perder os cabelos: codificação de texto entre diferentes idiomas. Seu texto, todo bonitão e acentuado, quando chega em outro lugar, fica completamente esquisito, sumiram com seus acentos!. Parece complicado, né? Vamos por partes. Primeiro uma explicação geral.
QUE É ISSO?
Cada linguagem tem sua tabela de letras e símbolos que o computador entende, a chamada “página de código”, sendo a mais conhecida delas a tabela ASCII (American Standard Code for Information Interchang), que define o texto exibido no idioma inglês, e é a base de todos os idiomas ocidentais.
Como o ASCII não prevê acentuação, foram criadas outras tabelas para complemento, como a Latin-1, que serve para a maior parte da Europa e da América Latina (nosso portugês está aqui), Latin-3, com caracteres do leste europeu (Polônia e Escandinávia), e as tabelas do idioma cirílico (Rússia e Ioguslávia). Grego e turco também entram na brincadeira. E ainda estamos falando do ocidente, porque do outro lado do mundo O BICHO PEGA!
[ad#lomadee-post-nerd]Começando pelos idiomas do Oriente Médio (hebreu e árabe), indo pelo Caminho das Índias (os indianos usam trocentos idiomas), Tailândia, Nepal, e finalmente o triângulo do idioma doido: China, Coreia e Japão. Lá a peculiaridade é a seguinte: em vez de representar sons, como nossas letras, cada “letra” lá representa uma ideia: pode ser um som, uma palavra ou uma frase toda! Há grupos de símbolos específicos para cada nação, e o Kanji que é unificado. Eu disse quantos kanjis existem? Na verdade nem eles sabem direito, mas a informática aceita em torno de 60 MIL caracteres. Tudo unificado no padrão CJK.
Todos os idiomas unidos formam a tabela UNICODE, que tem por objetivo fornecer uma fonte unificada para todos os softwares, independente do idioma usado, inclusive podendo usar mais de um tipo de escrita. Mas em uso doméstico, cada país usa suas próprias tabelas.
CORVERSÃO PARCIAL: É quando tabelas parecidas se encontram, e falta um ou outro caractere para interpretar o texto. Vamos a um exemplo bastante básico, uma janela do MS-DOS, essa todo mundo já viu uma vez na vida:


Tá vendo a falta de acentuação? Então, como a tabela Latin-1 do DOS não foi carregada, ele recorre ao padrão dele, o ASCII. Cada caractere acentuado é substituido por um caractere nada a ver, mas o texto ainda pode ser entendido com um pouco de esforço. Este tipo de problema costuma ocorrer no Windows também:

Exemplo altamente clássico: a tabela UTF-8 (a tabela unicode completa) não foi carregada, ao invés disso foi a tabela Latin-1 (padrão do windows português), e o sistema se confunde ao trazer os acentos.
CONVERSÃO TOTAL: Aqui acontece quando tabelas totalmente diferentes se encontram: por exemplo, abra uma página em japonês num browser em português. Olha o estrago!


Se o HTML não foi configurado corretamente, em vez do Shift-JIS (ou qualquer outro padrão do CJK) lá vem Latin-1. O texto torna-se completamente ilegível.
RESOLVE ESSE!
No caso do Windows, a primeira providência é saber se as fontes dos idiomas orientais estão instaladas. Caso negativo, em vez de tentar abrir o texto em japonês, vai aparecer um monte de quadradinho. No Windows XP o caminho é:
Painel de Controle > Opções regionais e de idioma > Idiomas > Instalar arquivos para idiomas do leste asiático
Ponha o CD do Windows, espere e reinicie. Pronto, as fontes estão no sistema. No Windows Vista e no Linux, geralmente o suporte já está instalado
No navegador de Internet, é possível alterar em tempo real a codificação dos sites: Vá em Exibir / Codificação (IE e Firefox), escolha a tabela de idioma que mais se aproxima do que você está querendo ver. Páginas web bem configuradas não precisam desse ajuste. Se você desenvolve páginas, fique de olho na hora de salvar e publicar as páginas.
Outros problemas de idiomas requerem soluções mais complexas, e em casos extremos você vai precisar dizer ao sistema operacional que ele trabalhará naquele idioma, e não o português. Há ferramentas específicas para isto, e uma delas apresentarei no próximo artigo. Fique ligado.


[...] post é uma continuação do anterior, que explica sobre páginas de código e exibição de textos e sites em vários idiomas. Aqui vou [...]