Discussão:Código Natural/Identificação taxonômica: mudanças entre as edições

De Documentação
Linha 41: Linha 41:
* GGeohash
* GGeohash
* Ver [[wikipedia:Byte_pair_encoding]] como algoritmo recursivo de geração de uma classificação por DTD.
* Ver [[wikipedia:Byte_pair_encoding]] como algoritmo recursivo de geração de uma classificação por DTD.
* Token int64 para [[wikipedia:Lexical_analysis#Lexical_token_and_lexical_tokenization]]. Dar exemplo com dois contadores, o contador de nome (nome1, nome2, etc) e o contador de sequência (posição1, posição2, etc.). A classificação "Common token names" requer apenas 6 classes sem subclasses, podemos buscar caso mais amplo. Ex. literal com tipo, keyword com tipo, etc. A posição pode ser também hierárquica, não precisa ser sequencial simples.
* Token int64 para [[wikipedia:Lexical_analysis#Lexical_token_and_lexical_tokenization]]. Dar exemplo com dois contadores, o contador de nome (nome1, nome2, etc) e o contador de sequência (posição1, posição2, etc.). A classificação "Common token names" requer apenas 6 classes sem subclasses, podemos buscar caso mais amplo. Ex. literal com tipo, keyword com tipo, etc. A posição pode ser também hierárquica, não precisa ser sequencial simples. Ver tb [[wikipedia:Terminal_and_nonterminal_symbols#/media/File:Terminal_and_non-terminal_symbols_example.png]].


* Produtos de uma estrutura padronizada de composição de fábrica
* Produtos de uma estrutura padronizada de composição de fábrica
* ...
* ...

Edição das 14h29min de 30 de outubro de 2023

A distância entre duas bitstrings não pode ser calculada da maneira usual, pelo módulo da diferença hInt . Deve-se conferir na representação hInt a maior e menor, mx=max(b1,b2) e mn=min(b1,b2)...

A distância taxonômica é o número de bits iniciais comuns.

No exemplo abaixo o valor hInt 2 (00) está a uma mesma distância taxonômica de 3 (000) e de 4099 (001), com ambos partilha o prefixo 00, ou seja, está à distância 2 de ambos.

 
 bitstring | hInt16_dec|  internal_16bits   | value_dec | len_dec 
-----------+-----------+--------------------+-----------+---------
 00        |         2 | 0 00000000000 0010 |         0 |       2
 000       |         3 | 0 00000000000 0011 |         0 |       3
 001       |      4099 | 0 00100000000 0011 |       256 |       3

Lembrete de classes escondidas na base 16h

"Classes escondidas" são aquelas com representação consistente nos prefixos BitString, porém sem consistência de prefixo na base16h.

Na base16h sempre teremos as seguintes possibilidades de identificação de classes escondidas:

BitStr  | Dígito Base4h
--------+--------------------------------
 0      | G: reúne  H, J, 0, 1, ... até 7.
 00     | H: reúne  J, 0, 1, K, 2, 3.
 000    | J: reúne 0 e 1.
 001    | K: reúne 2 e 3.
 01     | M: reúne N, 4, 5, P, 6 e 7.
 010    | N: reúne 4 e 5.
 011    | P: reúne 6 e 7.
 1      | Q: reúne R, S, 8, 9, ... até f.
 10     | R: reúne S, 8, 9, T, a, b.
 100    | S: reúne 8 e 9.
 101    | T: reúne a e b.
 11     | V: reúne Z, c, d, Y, e, f.
 110    | Z: reúne c e d.
 111    | Y: reúne e e f.

Quando a subclasse não é relevante, exceto para busca ou organização secundária (sem contrapartida de visualização humana no prefixo), pode-se adotar a classe escondida.

Aplicações do ID

  • Produtos de uma estrutura padronizada de composição de fábrica
  • ...