Código Natural/Identificação taxonômica

De Documentação

Identificadores únicos, tais como contadores sequenciais em bases de dados, são fundamentais para a indexação e controle de registros. O ideal, todavia, é que esse identificador traga embutida alguma informação relativa à taxonomia da entidade identificada. Isso porque os identificadores de grupos taxonômicos estáveis também precisam ser únicos e padronizados. A governança de dados Data Mesh apoia a estabilização e controle das taxonomias básicas de uma empresa.

Objetivos deste tutorial, para uso do código natural como identificador inteligente, com classificação embutida:

  • apresentar mais didaticamente as aplicações taxonômicas do hInt e hCount;
  • descrever as técnicas inovadoras de indexação de banco de dados, por hInt e hCount;
  • demonstrar que é possível unificar identificadores de diversas tabelas (classes) num banco de dados SQL;
  • demonstrar que é possível resgatar ramos desejados de uma hierarquia com alta performance em Big Data.]
  • demonstrar que a taxonomia embutida no ID acrescenta integridade semântica, similar a dígitos verificadores.

A chave para o sucesso está na integração inteligente de informações relacionadas à taxonomia da entidade identificada, dentro desses identificadores.

Taxonimias puras vs embutidas vs hCount

O código natural, como hInt, pode ser utilizado como identificador e indexador de tabelas em bancos de dados relacionais (SQL). A utilização do código natural como ID de taxons, em taxonomia numérica e hierarquias estáveis, tem aplicações óbvias e apresenta alta eficiencia.

A utilização como "ID inteligente", ou seja, o análogo de um inteiro serial com informação de classificação embutida, requer cuidados e abordagem metodológica mais complexa. No restante do tutorial teremos sempre em vista essa aplicação.

... Uma solução para tornar a gestão dos contadores de classe mais simples, é o tipo de dado hCount...

Taxonomias bit a bit

Códigos binários identificando frutas individuais e sua taxonomia: laranja, maçã vermelha e maçã verde.

A ilustração do conjunto de frutas ajuda a entender os agrupamentos (taxons). A cada prefixo pode-se expressar uma regra. Por exemplo:

  • Primeiro bit do ID: define se é laranja (1) ou maçã (0).
    Os conjuntos L dos identificadores de laranjas e M das maçãs da ilustração ao lado são definidos por: e .
  • Primeiro bit do ID de maçã: especializa como vermelha (0) ou verde (1). Portanto IDs com prefixos "00" (maçã red), "01" (maçã green) e "0" para maçã genérica. Daí rotular uma maçã com ID "0" é uma falha, é um código exclusivo de taxon.
    Os conjuntos R dos identificadores de maçãs red e G das maçãs green da ilustração ao lado são definidos por: e . Ambos subconjuntos de M, estabelecendo portanto uma hierarquia taxonômica entre as maçãs.

Os identificadores de frutas são livres, podem ter qualquer quantidade de bits, podem ter tamanho fixo ou variável, e não precisam percorrer uma sequência especial. A taxonomia só impõe a existência de prefixos e regras de interpretação para esses prefixos.

A sintaxe geral da cadeia de bits é simples: "$prefixo$contador". Com as variáveis prefixo e contador, tendo apenas o prefixo um comprimento definido pelas regras taxonômicas. Por exemplo no ID ilustrado da maçã verde 010, o prefixo é 01 e o contador é 0.

NatCod-Taxons-p1.png

Se o conjunto dos identificadores de fruta for ordenado lexicograficamente (preorder), cada taxon corresponderá a um único intervalo. Lembrando que os taxons são os "ramos da árvore taxonômica", associados aos prefixos. Na ilustração os IDs de maçã estão no intervalo 0 até 011, o subconjunto das maçãs verdes no subintervalo 01 até 011, e os IDs de laranja de 1 até 111.

Como boa prática para identificação pode-se evitar IDs com contador vazio: os IDs da ilustração saltam os códigos 0, 1 e 01.

Reserva de bits para o prefixo do contador

A noção realista de "taxonomia estável" requer um prazo de validade: estimamos que ao final do prazo aumenta o risco de instabilidade, e, tipicamente, a necessidade de se incluir mais itens. Ao final do prazo já é prevista a revisão da taxonomia, mas o ideal é que possa haver uma transição suave da antiga para a nova (e novamente estável).

A solução é a reserva. Se a taxonomia é sujeita a modificações, podemos reservar mais bits para cada um dos grupos taxonômicos (taxons).

No exemplo acima as laranjas fizeram uso de um prefixo de apenas 1 bit e as maçãs uso de um prefixo de 2 bits.

No exemplo poderíamos no futuro distinguir laranjas, entre comuns e avermelhadas. Todas elas com prefixo 1 mas reservando mais bits para futuras diferenciações: duas estratégias são possíveis:

  • Se as existentes são comuns, batizamos elas de 10 e reservamos 11 para as avermelhadas. Não fica nenhuma reserva de segurança.
  • Se as existentes são misturadas, batizamos a mistura de 100 e reservamos 101 para as identificadas como comuns e 110 para as avermelhadas; ficando ainda a reserva 111 para outra eventual variedade de laranja.

Quanto maior o risco de uma futura diferenciação, maior a demanda por reserva.


Prefixos lexicográficos

Na sintaxe "$prefixo$contador", o prefixo é necessariamente um código e a contagem para identificação dos taxons é necessariamente lexicográfica. Ver função hsucc em step01def-lib_NatCod.sql. Exemplos:

  • Dois taxons requerem no mínimo 1 bit. O primeiro é hsucc("")="0", o segundo é seu sucessor, hsucc("0")="1".
  • Dois taxons com reserva de 2 bits, requerindo portanto 3 bits. Com reserva balanceada: taxons "001" e "101".
  • Três taxons e todos com até 5 subtaxons cada. Pode-se adotar um prefixo de 2 bits fixos para os pais, mais dois variáveis para os filhos, ou balancear valores de zero a 3*5=15 entre 4 ou mais bits.

Contadores numéricos

Na sintaxe "$prefixo$contador", o contador pode ser representado como número. Computacionalmente o ID é um código, seu prefixo um código, e por fim o contador, depois de isolado (ainda como código) pode sofrer cast para um número inteiro positivo.

Sendo um número, podemos calcular o sucessor succ($contador) através da aritmética usual, $contador+1.

Contadores lexicográficos

Na sintaxe "$prefixo$contador", o contador pode ser mantido como código.

Sendo um código, podemos calcular succ($contador) através do "sucessor lexicográfico" (também denominado "hierarchical successor"). Ver função hsucc em step01def-lib_NatCod.sql.

Taxonomias Base N

Reserving 2 bits for all taxon-prefixes, and later representation in Base4h.

O caso mais simples é a Base4, com dígitos de 2 bits. É necessário então reservar no mínimo 2 bits para a taxonomia. Aqui adotamos a estratégia de reserva de apenas um bit para a diferenciação das laranjas, e mais um bit para a diferenciação das maçãs.

Green apples, IDs na Base4h.

A conversão para Base4h resulta na segunda coluna da tabela abaixo, com prefixos em negrito, e conjunto "Green apples" ilustrado.

Base2h Base4h Taxon
00 0 Red Apple (illustrated)
000 0G Red Apple (illustrated)
0000 00 Red Apple (illustrated)
0001101 012Q Red Apple
0010101 022Q Red Apple
01 1 Green apple (illustrated)
0101 11 Green apple
010 1G Green apple (illustrated)
011 1Q Green apple (illustrated)
10 2 Organge (illustrated)
10101 22Q Organge
1011 23 Organge
101 2Q Organge (illustrated)

Atribuição dos IDs lexicográficos dentro de uma taxonomia

A técnica descrita a seguir é similar ao tradicional "modelo de conjuntos aninhados", porém otimizada por utilizar apenas o ID, ao invés de duas colunas auxiliares.

Supor que a partir de k bits, digamos k=4, seja possível destacar prefixos válidos para conjuntos e subconjuntos alinhados.

NatCod-taxon-ilustraSetsB4h.png

Imaginemos o caso de uma pequena loja de departamentos, que começou por organizar os produtos mais vendidos: frutas e roupas. Entre as frutas, as mais vendidas são as maçãs, e entre as roupas, os jeans, as camisetas e alguns tipos de roupa feminina.

Olhando para a "régua base 4h" acima decidimos que frutas ficarão todas com o prefixo 0, sendo as maçãs com 00 e as demais frutas com prefixos 01, 02 e 03. Os prefixos 1 e 2 ficam reservados a outros produtos, e o prefixo 3 ficou com as roupas.

Cada uma dessas classes de produtos foi destacado abaixo num diagrama de conjuntos, e os prefixos eleitos indicados no ponto interior mais à esquerda de cada conjunto. No ponto interior mais à direita, o limite superior que uma instância daquela classe de produto pode receber como identificador único.

Códigos Naturais de 11 bits na base 4h: de 0 até 33333Q, identificando produtos.
Futas: prefixo 0. Roupas: prefixo 3. Demais produtos: prefixos 1 e 2 disponíveis.
Maçãs: prefixo 00; maçãs vermelhas, prefixo 000; maçãs verdes, prefixo 001. Demais frutas: prefixos 01, 02 e 03, sem especialização.
Roupas de mulher, prefixo 30: vestidos 300; camisas femininas 302. Demais roupas: camisetas, prefixo 31; e jeans prefixo 32.
O ID de cada produto é expresso pelo prefixo seguido de um ou mais dígitos, respeitando limite dos 11 bits. Por exemplo o ID 001.123 é relativo a maçã verde, todas elas estarão no intervalo 001.0 até 001.33Q.

Neste cenário, no inventário inicial foram suficientes 11 bits para identificar todos os produtos com seus prefixos. Por exemplo os IDs das maçãs vermelhas ficaram no intervalo 000 até 00033Q, e as maçãs verdes de 001 até 00133Q. Para facilitar a visualização do prefixo no valor do ID podemos usar o ponto, por exemplo 001.33Q.

Resumindo a definição da hierarquia apresentada pelo catálogo da loja:

Item da árvore Prefixo Bits/ID Min ID Max ID
Futas 0 - - -
  Maçãs 00 - - -
    Maçãs vermelhas 000 5 000.0 000.33Q
    Maçãs verdes 001 5 001.0 001.33Q
  Demais frutas 01,02,03 6 01.0 03.333Q
Roupas 3 - - -
  Roupas de mulher 30 - - -
    Vestidos 300 5 300.0 300.33Q
    Camisas femininas 302 5 302.0 302.33Q
  Camisetas unisex 31 6 31.0 31.333Q
  Jean unisex 32 6 32.0 32.333Q

Abaixo ilustrando ao invés das classes algumas instâncias de produtos, cada qual com seu ID, e a posição do ID na "régua base 4h". Para destacar classe e contador foi adotada a notação com ponto separador. Por exemplo a maçã verde com ID=00133 pode ser destacada como 001.33. Ela vem depois da maçã 001.0 e bem antes por exemplo do jeans 32.101. Todos ficam dentro do intervalo das respectivas classes.

Reparar que os códigos de instância não precisam ocupar todos os 4 dígitos, isso facilita a leitura humana dos códigos. Como eles vão sendo consumidos na ordem hierárquica, se um dia forem necessárias mais classes, podem ser alocados os ainda não utilizados.

NatCod-taxons-InstanceIntervals1.png

A mesma flexibilidade vale no acréscimo de mais bits. A ampliação do banco de dados, adotando o dobro, 22 bits, acarretou a ampliação do intervalo da mesma classe, seus IDs passaram a ser de 000 até 00033333333. O aumento de bits não afeta os identificadores, apenas amplia a possibilidade de incluir mais produtos dentro da mesma classe. Ao contrário da estratégia similar adotada com números, os prefixos de código são escaláveis.

Atribuição dos IDs hCount

Em sistemas tradicionais, sempre que for possível o uso de IDs de até 32 bits, podemos usar a representação interna hCount e o recurso da base híbrida na representação textual. No exemplo podemos usar a base32 para o contador e manter a base 4 para a classificação.

Identificadores sem contador

A sintaxe "$prefixo$contador" não deve ser confundida com a sintaxe interna do prefixo. Havendo necessidade de se identificar apenas os grupos taxonômicos, com sua hierarquia, podemos fazer uso do prefixo como identificador,

Prefixo e contador ao mesmo tempo

Exemplo. Ao identificar as partições recursivas de um quadrado, estamos identificando as células (como instâncias) e os taxons ao mesmo tempo. Abaixo usando a base4 para rotular. A célula "0" tem as filhas "00", "01", "02" e "03".

GGeohash-ilustra9-basic.png

Modelagem dos níveis hierárquicos

A metodologia de modelagem descrita a seguir não é um consenso, mas é uma sugestão fundamentada em boas práticas.

Classificação na Biologia. De reino até espécie são estáveis.

O "problema das espécies" na taxonomia biológica descreve os diversos dilemas da classificação, assim como sua solução: dentro de uma perspectiva de médio prazo (no caso da Biologia da ordem de uma ou mais décadas) a macro-taxonomia, ou seja, os "ramos raiz" da árvore de classificação, podem ser supostos estáveis. Exemplo: as maçãs são variedades da espécie Malus domestica, portanto dentro da árvore biológica, partindo de reino, corresponde a Plantae/Tracheophytes/Angiosperms/Eudicots/Rosids/Rosales/Rosaceae/Malus/M. domestica.

A classificação dos dados de uma empresa não é muito diferente, exibe estabilidade dentro de certas condições. A disciplina que hoje garante a estabilidade dos chamados "domínios de dados" dentro de uma empresa é a governança orientada a Data Mesh. Aqui também adotaremos as diretivas de Data Mesh.

Num contexto Data Mesh não há restrição sobre a origem da classificação. No caso da classificação das frutas como produtos pode ser razoável a classificação biológica de reino até família, e em seguida uma padronização agronômica para os cultivares das frutas.

Por exemplo, as plantas cujos frutos recebem o nome vulgar de "laranja" são plantas da família Rutaceae. Entre elas a espécie Citrus reticulata, que seria sinônimo de "laranja Mandarin". Todavia, a maior parte dos cultivares de laranja são híbridos (ex. laranja Valência), usualmente das espécies Citrus maxima e Citrus reticulata. Portanto numa classificação de produtos não é possível o uso rigoroso da classificação biológica, sendo mais sensato, abaixo de família, o uso de uma classificação estável de cultivares (agronômica), como neste dossiê técnico sobre o cultivo de laranja.

Outra boa prática, tanto para se verificar a estabilidade como para se automatizar a geração das árvores de classificação, é o uso de vocabulários RDF, a maior parte deles catalogados em lov.linkeddata.es. Recomenda-se o uso de no máximo 3 vocabulários para gerar as classes RDF de cada domínio: SchemaOrg, Wikidata e especializado (caso exista como no caso dos cultivares agronômicos).

Por fim, para organizar os metadados, relacionamento entre diferentes classificações, e a semântica da própria classificação, convêm submeter os conjuntos de dados à modelagem de dados usual:

  • modelagem em diagramas de classe UML: onde podem ser destacadas as semânticas de relacionamento geral-específico, parte-todo e classe-instência; assim como o relacionamento entre diferentes tipos de identificador (ex. como o ID de cliente se relaciona com o ID de produto).
  • modelos de linhagem dos dados: dataflows ou similares indicando os dados no sistema origem e no sistema onde os IDs estão sendo controlados, garantido por exemplo que Golden records estejam usando os IDs da forma planejada.

Tecnicamente os IDs são códigos naturais e as classes das instâncias que os IDs representam estão codificadas como prefixos binários, seguindo o modelo prefixo-contador descrito nas seções acima.

Dentro da visão sociotécnica recomendada pela abordagem Data Mesh, todavia, é importante que os IDs possam ser visualizados por humanos de uma maneira padronizada pela empresa. Nas ilustrações usamos a representação em base4h mas o caso típico, para grandes volumes de dados, é a representação em base16h. Eventualmente uma sintaxe híbrida, com um separador entre prefixo base4h e contador base16h também pode ser adotado para humanos.

Outra recomendação técnico-metodológica é que antigos IDs numéricos sejam transformados em códigos naturais, tomando-se o cuidado de tratar blocos de IDs de até 32 bits, tendo em vista que outros 25 bits seriam reservados (com bastante folga) à representação dos taxons da classificação, totalizando 64 bits num típico ID Bigint de banco de dados SQL.

Por fim, importante notar que algumas classes, com previsão de maior quantidade de IDs, podem usar intervalos de prefixo, como artifício para tratar o maior volume. Tanto o prefixo de classe como seu intervalo seriam concebidos necessariamente com a base convencionada pela empresa, não podendo mais alterar essa decisão inicial de adoção de base.

Questão do uso dos intermediários

Se eu posso classificar a maçã como planta da espécie M. domestica, não faz sentido ter uma outra maçã classificada apenas como Malus, ou simplesmente Plantae. Isso causaria risco de duplicidade das entradas, com uma parte do sistema atribuindo IDs de alta especificidade de outra parte atribuindo IDs com classe mais genérica. A boa prática neste caso seria de nunca utilizar os níveis intermediários.

PS: nesse caso há que se questionar se precisamos de um sistema tão sofisticado de ID, se na prática nunca vamos usar níveis intermediários. Sem esquecer, por outro lado, que os taxons intermediários podem ser (sem certas aplicações) importantes nas buscas e relatórios com agregação taxonômica.

Por outro lado se apenas a M. domestica é popular e com classificação confiável, e existem dezenas de outras maçãs com classificação indefinida, melhor que se adote a convenção de usar Malus para as indefinidas.

O uso das classes intermediárias deve ser reservado a esse segundo caso, onde não queremos onerar o sistema de classificação, e onde a decisão estável.

Estabilidade estatística

Árvores taxonômicas se alongam quando há demanda por especialização, mas o custo de ampliar a árvore requer relevância nessa especialização. No contexto da quitanda por exemplo, a relevância pode ser determinada pelo ponto de vista do volume de vendas ou volume de estoque. Do ponto de vista semântico, todavia, a preocupação é quanto à ambiguidade: é mais estável a taxonomia que garante menor grau de ambiguidade e menor risco de mudança. Essa análise precisa preceder a análise volumétrica.

O julgamento de quem classifica um produto depende de atributos objetivos do produto. Métodos estatísticos (cluster analysis e taxonomia numérica) permitem avaliar a través de atributos de cada candidato a classe a sua relação com os demais e sua posição dentro de uma "hierarquia de semelhança", conhecida como dendrograma.

Dendrograma-cluster.png
Taxonomia-frutas1.png

Na ilustração acima as cores indicam o nível hierárquico eleito como mais estável. No dendrograma o eixo Y foi representa o grau decrescente de semelhança, ou crescente de agrupamento.

Ao lado a classificação de frutas da quitanda, num dendrograma horizontal. Pelo corte eleito, as seguintes frutas estarão em classes diferentes: bananas, tomates, uvas, maçãs. Por ser uma análise pobre (poucos dados descritivos das frutas), deixou as laranjas no mesmo grupo que as maçãs. A taxonomia numérica em geral será utilizada como recurso complementar, não como principal.

Caso de uso ilustrativo

Resumo e amostras de Código Natural/Identificação taxonômica/Casos de uso.

É muito comum em Big Data a adoção de uma visão unificada dos dados de uma grande empresa, que pode conter, por exemplo, mais de um sistema de CRM para a gestão dos seus clientes.

A classificação dos clientes B2B de uma empresa, conforme SchemaOrg.

O primeiro passo nesse caso é estabelecer em UML qual a estratégia semântica de unificação. Pode-se optar por exemplo por não misturar B2C com B2B, e optar por classificar os clientes B2B conforme o o primeiro e segundo níveis do padrão SchemaOrg, ou seja, conforme sch:Organization. Pode-se também reservar para o sistema interno, de RH por exemplo, a classe InternalOrganization, para mapear subsidiárias e departamentos.

Optou-se também por adotar, como medida de apoio à transição do ID convencional (inteiro de 32 bits) para o hInt de 64 bits, a classe Other. Nela os clientes com cadastro indefinido ou onde caberiam outras classificações, ficam de "quarentena". Na representação base16h seria necessário mais de um dígito para o primeiro e segundo níveis, de modo que uma opção mais amigável (1 dígito por nível hierárquico) é a base32nvu:

  • 0 - InternalOrganization (classe para a gestão interna de departamentos e empresas controladas)
  • 1 - (supor classe reservada)
  • 2 - Airline
  • 3 - Consortium
  • 4 - Corporation
    • ...

Devido à ambiguidade nos domínios, a empresa precisa definir qual a subclasse canônica, quando o SchemaOrg oferecer mais de uma alternativa. Por exemplo "Dentist" pode ser subclasse de "LocalBusiness" ou de "MedicalOrganization", no exemplo foi adotada a classe "MedicalOrganization".

Foram consumidos até aqui 15 dos 25 bits reservados à classificação (cada dígito base32 consome 5 bits - caberiam mais 2 dígitos), totalizando 25+32=57 bits informativos no esquema hInt64 de identificação das instâncias. Contador "por classe" de máximo 32 bits, pois, para usar o esquema hCount16_48, com 48 bits no contador, a classificação não poderia passar de 11 bits — acima poderíamos eliminar o terceiro nível para ficar com 10 bits.

Para a expressão final do ID de cada instância pode ser utilizado o código híbrido base32-decimal (ex. B5-123 seria a Pharmacy 123), ou base32 com ponto para destacar dígitos do contador (B5.3R).