osmc:Convenções/Abreviações e sinônimos de município/BR

De Documentação
< osmc:Convenções‎ | Abreviações e sinônimos de município
Revisão de 05h27min de 25 de agosto de 2023 por Peter (discussão | contribs) (rascunho)
(dif) ← Edição anterior | Revisão atual (dif) | Versão posterior → (dif)

Geocódigos hierárquicos baseados na ISO 3166-2:BR e proposta de convenção para siglas de três letras de boa qualidade nos municípios

Siglas de nomes próprios podem ser empregadas como identificadores curtos. No contexto das denominações geográficas, o Brasil contribuiu e aderiu aos padrões ISO 3166-1 e 3166-2, que definem códigos de duas ou três letras para os níveis administrativos nacionais (ex. BR=Brasil, BO=Bolivia) e subnacionais (ex. BR-AM para o Estado do Amazonas e BR-SP para o Estado de São Paulo). As siglas devem ser únicas, de modo que no processo de determinação destas siglas é controlado.

No Brasil, a Lei Complementar nº 1 de 1967 determina que os nomes de municípios sejam submetidos a um processo de controle nas assembleias legislativas dos respectivos estados, o que evita homônimos ou nomes muito parecidos. Contudo, o processo não se estendeu a siglas -- também as normas ISO não incluem os municípios. Couberam a outras entidades, sem regulamentação legislativa, a definição de siglas, destacando-se duas. Os Departamentos de Estradas de Rodagem (DER) de alguns estados, como o de São Paulo, chegaram a implantar convenções para siglas de três letras, presente identificação de rodovias municipais. A Agência Nacional de Telecomunicações (Anatel) também chegou a apresentar uma proposta de abreviações com uso de três letras, porém incompatível com as dos DERs, e com ambição de formar um conjunto de identificadores únicos de 3 letras para todos os 5570 municípios brasileiros. Apesar de certa oficialidade, ambas propostas, DER e Anatel, não foram submetidas à consulta pública e não podem ser tomadas como “padrão oficial” de siglas dos municípios.

Não obstante este cenário de ausência de padrões, consolidou-se no Brasil o uso do  identificador numérico criado pelo IBGE para a gestão do Censo, e que aos poucos foi sendo adotado pelas agências governamentais e empresas em geral, tais como os Correios, as operadoras de telefonia, etc. Diferentemente das siglas definidas pelos DERs ou pela Anatel, esses códigos não apresentam letras, são números de 7 dígitos, de difícil memorização.

A expanção multifinalitária do identificador IBGE esbarrou  principalmente em aplicações com demanda por mnemônicos e/ou por códigos curtos. O código IBGE não poderia ser utilizado por exemplo como prefixo do CEP dos Correios, já que elevaria de 8 para 13 dígitos o código postal, tornando-o muito longo e mais difícil de memorizar. Já um prefixo de CEP baseado em siglas poderia reduzir o número de dígitos não-mnemônicos do CEP.

Outro aspecto importante que devemos considerar na definição das siglas, como em qualquer outro código identificador, é a quantidade de combinações possíveis. Uma sigla de três dígitos, em que consideramos o uso de um alfabeto de 26 letras, temos disponíveis 17576 combinações. Ao usarmos siglas com estruturas hierárquicas, como por exemplo BR-SP-ITU ao invés de simplesmente BR-ITU, reduzimos a chance de siglas repetidas. Equanto que numa proposta não-hierárquica como a da Anatel é necessário um conjunto de 5570 siglas, portanto ~3  (17576÷5570) alternativas por sigla entre o total de combinações; no caso hierárquico típico como o de São Paulo o número de siglas necessárias é reduzido para 644, resultando em 27 alternativas por sigla. O “consumo de alternticas” no processo de eleição de siglas é determinante da qualidade: quanto  menor o número de alternativas para uma boa escolha, menor a qualidade.

Como os nomes são distintos e as siglas precisam permanecer distitas, outra abordagem matemática para se modelar o problema é mapeando nomes em siglas através de funções hash. ...

O que seria uma boa escolha e, objetivamente, uma “sigla de qualidadade”?  Avaliamos que um dos principais critérios é que as letras da sigla estejam contidas no nome do município e na mesma ordem. A imposição de um critério eliminatório automaticamente reduz as combinações portanto o número de siglas alternativas adequadas a cada nome.

Na nossa avaliação, o conjunto completo de critérios de qualidade objetivos foi o seguinte:

Q1) Todas as letras da sigla estão presentes no nome; Q2) A sequência das letras da sigla é restrita à ordem em que as mesmas letras podem ser observadas no nome; Q3) Em nomes compostos pode-se descartar as preposições, por ex. de “Bela Vista de Minas” para “Bela Vista Minas”; Q4) Quando existirem apelidos consagrados e sem  conflito com as regras anteriores, pode-se substituir o nome pelo apelido.

O critério Q1 pode ser complementado por uma adaptação no caso de letras acentuadas, que podem ser reduzidas a sua equivalente sem acento (“A” substituindo “Á” ou “C” substituindo “Ç”). O critério Q3 já vem sendo empregado em diversas normas, como por exemplo as URN-LEX do Projeto LexML (Interlegis). A existência de abreviações consagradas, requerida pelo critério Q4, pode ser verificada por análise de corpus linguísticos e confirmada por levantamento junto à comunidade. Por exemplo São Paulo é abreviado como “Sampa”, Rio de Janeiro como “Rio”, e Porto Alegre como “PoA”. Outra forma de aplicar o critério Q4 é na redução de palavras frequentes. Palavras como como "São" e “Santa” podem ser abreviadas, respectivamente, como "S." e "Sta.”.

Muitas das siglas da Anatel não seguem os critérios mencionados, atestando sua baixa qualidade.   Exemplos: sigla Anatel “AAX” para Arraias/TO, “ABY” para Abaiara/CE  e “CRQ” para Celso Ramos/SC. Num levantamento estatístico, 100% das siglas do DER-SP cumpriram os requistos, atestando a sua qualidade.

A definição de uma sigla de 3 letras é subjetiva e um tanto arbitrária, mas é possível eleger um conjunto de regras sintáticas que gere a maior parte das siglas: regras simples  apoiariam a memorização, ou seja, a eficiência menemônica. A eficiência de Pareto requer por volta de 80% das siglas sejam geradas por 3 a 5 regras sintáticas. Exemplos de regras:   ...

...

Por fim, num estutudo estatístico mais subjetivo, destacando a opinião do cidadão, as diversas siglas dos municípios de São Paulo  foram classificadas como boas e ruins por 5 avaliadores, e depois o resultado desse perfil de opinião foi comparado com uma análise de regras: apenas 3 a 5 regras sintáticas de abreviação são responsáveis por 90% das abreviações tidas como boas. Esse estudo permitiu a criação de uma heurística para a geração de “sugestão de siglas boas”.  A noção de regras permite algo similar ao menemônico, se ensinado nas escolas: poucas e boas regras serão fáceis de memorizar.