2 583
edições
mSem resumo de edição |
mSem resumo de edição |
||
Linha 1: | Linha 1: | ||
{{A4a info}} | {{A4a info}} | ||
Os dados do projeto AddressForAll e seus "projetos irmãos" foram organizados conforme a visão do fluxo de dados mais geral: | |||
Os dados | |||
[[Arquivo:Fig.u2.en.png|centro|580px|semmoldura]] | [[Arquivo:Fig.u2.en.png|centro|580px|semmoldura]] | ||
Linha 7: | Linha 6: | ||
Em termos de processo e valor agregado, podemos descrever os dados da seguinte forma: | Em termos de processo e valor agregado, podemos descrever os dados da seguinte forma: | ||
* '''Preservados''' (''bronze''): os dados e licenças do projeto Digital‑Guard são rigorozamente controlados e preservados tal como os originais recebidos dos doadores. São os “dados brutos”, sem padronização e nos mais diversos formatos (CSV, Shapefile, Geojason etc.). Eles são preservados por 20 anos, e durante esse tempo podem ser baixados, tal como os recebemos. | * '''Preservados''' (''bronze''): os dados e licenças do [[DG|projeto Digital‑Guard]] são rigorozamente controlados e preservados tal como os originais recebidos dos doadores. São os “dados brutos”, sem padronização e nos mais diversos formatos (CSV, Shapefile, Geojason etc.). Eles são preservados por 20 anos, e durante esse tempo podem ser baixados, tal como os recebemos. | ||
* '''Filtrados''' (''prata''): por terem origem diversa, os dados Preservados precisam ser filtrados e padronizados. O | * '''Filtrados''' (''prata''): por terem origem diversa, os dados Preservados precisam ser filtrados e padronizados. O [[A4A|projeto AddressForAll]] faz um recorte com foco nos endereços. A estrutura do recorte é padronizada e publicado em formato GeoJSON, através de PostgreSQL em repositórios git.<br/> Todo o processo de filtragem e publicação é aberto e reprodutível, qualquer um pode auditorá‑lo. Os resultados não sofrem validação, e um mesmo endereço pode ser descrito e repetido por diferentes fontes, tais como a prefeitura, a empresa de água e a empresa de logística. | ||
* '''Consolidados''' (''ouro''): a consolidação consiste em agregar estatisticamente as informações das diversas fontes sobre um mesmo endereço e suas vizinhanças, e aplicar algoritmos de validação. No processo os endereços reconhecidos como duplicados são reduzidos a um só endereço, e os endereços inválidos descartados. <br/> Obtemos tanto o score de confiabilidade dos dados originais como a posição mais provável do ponto de endereço. Nomes de rua recebem padronização terminológica e a numeração predial pode ser otimizada através de médias, reposicionamentos ou interpolação. Esta base é a utilizada para nossas APIs de busca e geocodificação (em construção).. | * '''Consolidados''' (''ouro''): a consolidação consiste em agregar estatisticamente as informações das diversas fontes sobre um mesmo endereço e suas vizinhanças, e aplicar algoritmos de validação. No processo os endereços reconhecidos como duplicados são reduzidos a um só endereço, e os endereços inválidos descartados. <br/> Obtemos tanto o score de confiabilidade dos dados originais como a posição mais provável do ponto de endereço. Nomes de rua recebem padronização terminológica e a numeração predial pode ser otimizada através de médias, reposicionamentos ou interpolação. Esta base é a utilizada para nossas APIs de busca e geocodificação (em construção).. | ||
Linha 27: | Linha 26: | ||
Nem sempre os dados de lote estão disponíveis, e podem ser abstratos, sem geometria, como no caso dos vários endereços de um condomínio ou um mesmo shopping center. | Nem sempre os dados de lote estão disponíveis, e podem ser abstratos, sem geometria, como no caso dos vários endereços de um condomínio ou um mesmo shopping center. | ||
[[Arquivo:A4a-UMLclass-addressEtc.png|centro|semmoldura|580px]] | [[Arquivo:A4a-UMLclass-addressEtc.png|centro|semmoldura|580px]] | ||
=== Vinculos com DG === | |||
Modelo do projeto [[DG]]: ver versão mais atualzada | |||
[[Arquivo:DG-UMLclass-v1.png|centro|semmoldura|580px]] | |||
=== Módulo geoterm === | === Módulo geoterm === | ||
Linha 36: | Linha 40: | ||
A tabela '''Term''' é simples: cada termo, canônico ou não, é uma linha da tabela principal. Uma tabela secundária para ''namespaces'', '''ns''', divide os termos em grupos "base" (tema, ''corpus'' ou projeto) e seus grupos "auxiliares", para traduções (um ''namespace'' para cada idioma) e outros ''namespaces'' dependentes. | A tabela '''Term''' é simples: cada termo, canônico ou não, é uma linha da tabela principal. Uma tabela secundária para ''namespaces'', '''ns''', divide os termos em grupos "base" (tema, ''corpus'' ou projeto) e seus grupos "auxiliares", para traduções (um ''namespace'' para cada idioma) e outros ''namespaces'' dependentes. | ||
edições