Ir para o conteúdo

dg:Organização e conceitos do projeto: mudanças entre as edições

mSem resumo de edição
Linha 12: Linha 12:
Metadados típicos são o número de bytes (''file size''), a data de aceitação ou registro, o tipo de arquivo (ex. <code>.zip</code> ou <code>.gz</code>), o CNPJ da entidade doadora, o ''hash'' SHA256 do arquivo, etc.
Metadados típicos são o número de bytes (''file size''), a data de aceitação ou registro, o tipo de arquivo (ex. <code>.zip</code> ou <code>.gz</code>), o CNPJ da entidade doadora, o ''hash'' SHA256 do arquivo, etc.


Os arquivos de dados, por serem [https://git-lfs.github.com/ grandes], têm as suas cópias armazenadas em diversos locais seguros, para fins de preservação, e em núvem através de serviço de [https://en.wikipedia.org/wiki/File_hosting_service#Storage_charges ''storage'' &quot;frio&quot;], acessível para ''download'' em <code>DL.digital-guard.org/{hash}</code>, conforme a ''hash'' SHA256 do arquivo solicitado. Por exemplo
Os arquivos de dados, por serem [https://git-lfs.github.com/ grandes], têm as suas cópias armazenadas em diversos locais seguros, para fins de preservação, e em nuvem através de serviço de [https://en.wikipedia.org/wiki/File_hosting_service#Storage_charges ''storage'' &quot;frio&quot;], acessível para ''download'' em <code>DL.digital-guard.org/{hash}</code>, conforme a ''hash'' SHA256 do arquivo solicitado. Por exemplo


<!-- ou seja, onde não há o compromisso de recuperação instantânea, mas dentro de um prazo de segundos a horas o *download* do arquivo é disponibilizado.-->
<!-- ou seja, onde não há o compromisso de recuperação instantânea, mas dentro de um prazo de segundos a horas o *download* do arquivo é disponibilizado.-->


Em particular os dados de domínio público são registrados e armazenados também na [https://www.bn.gov.br/sobre-bn/deposito-legal Fundação Biblioteca Nacional], na forma de [https://en.wikipedia.org/wiki/M-DISC DVD durável], anexo a obras descritivas dos metadados, submetidas ao depósito legal.
Em particular os dados de domínio público são registrados e armazenados também na [https://www.bn.gov.br/sobre-bn/deposito-legal Fundação Biblioteca Nacional], na forma de [https://en.wikipedia.org/wiki/M-DISC DVD durável], anexo a obras descritivas dos metadados, submetidas ao depósito legal.
Linha 33: Linha 34:
=== Fontes primárias ===
=== Fontes primárias ===


As [https://en.wikipedia.org/wiki/Primary_source fontes de dados primárias] podem ter diversas origens e diferentes metodologias de coleta. De especial interesse para o Instituto ITGS, num contexto de preservação de longo prazo (décadas), são as fontes de dados relativos a endereços postais de cada município do Brasil. Cada fonte consiste de um conjunto de dados sistematizados e publicados '''por uma instituição''' (nacional ou internacional) com idoniedade reconhecida pela comunidade local.
As [https://en.wikipedia.org/wiki/Primary_source fontes de dados primárias] podem ter diversas origens e diferentes metodologias de coleta. De especial interesse para o Instituto ITGS, num contexto de preservação de longo prazo (décadas), são as fontes de dados relativos a endereços postais de cada município do Brasil. Cada fonte consiste de um conjunto de dados sistematizados e publicados '''por uma instituição''' (nacional ou internacional) com idoneidade reconhecida pela comunidade local.


As fontes primárias estão relacionadas aos [https://en.wikipedia.org/wiki/Raw_data dados brutos], quando tidos como [https://wiki.openstreetmap.org/wiki/Ground_truth_and_Official_truth &quot;verdade de campo&quot; ou &quot;verdade oficial&quot;], e com o trabalho mobilizado pela instituição para sistematizar, consolidar ou transformar os dados brutos em dados geográficos consistentes. Dois exemplos ilustrativos:
As fontes primárias estão relacionadas aos [https://en.wikipedia.org/wiki/Raw_data dados brutos], quando tidos como [https://wiki.openstreetmap.org/wiki/Ground_truth_and_Official_truth &quot;verdade de campo&quot; ou &quot;verdade oficial&quot;], e com o trabalho mobilizado pela instituição para sistematizar, consolidar ou transformar os dados brutos em dados geográficos consistentes. Dois exemplos ilustrativos:


* Um carteiro com seu [https://en.wikipedia.org/wiki/Global_Positioning_System GPS], confirmando que o endereço de entrega existe e está localizado nas coordenadas de latitude e longitude indicadas pelo GPS. Diversos carteiros, entregadores e outros profissionais podem alimentar uma planilha e essa planilha por fim, publicada como [https://en.wikipedia.org/wiki/Comma-separated_values '''arquivo CSV'''], será a nossa fonte primária de dados.
* Um carteiro com seu [https://en.wikipedia.org/wiki/Global_Positioning_System GPS], confirmando que o endereço de entrega existe e está localizado nas coordenadas de latitude e longitude indicadas pelo GPS. Diversos carteiros, entregadores e outros profissionais podem alimentar uma planilha e essa planilha por fim, publicada como [https://en.wikipedia.org/wiki/Comma-separated_values '''arquivo CSV'''], será a nossa fonte primária de dados.
* [https://en.wikipedia.org/wiki/Remote_sensing Imagens de satélite] são dados brutos. Os lotes, rios e vias são desenhados sobre a imagem a partir de softwares confiáveis assistidos por pessoas habilidadas, e que terão seu trabalho publicado (na forma por exemplo de [https://en.wikipedia.org/wiki/GeoJSON '''arquivos GeoJSON''']) por instituições que &quot;assinam embaixo&quot; desse trabalho, tais como o IBGE, a Fundação OpenStreetMap, o departamento de cartografia de uma grande prefeitura, e muitos outros. <br/>Mesmo tendo usado a mesma imagem como origem, os produtos (ex. arquivos GeoJSON resultantes) podem diferir bastante em termos de qualidade, metodologia de interpretação, modelagem dos dados e software de interpretação, de modo que '''cada produto de interpretação da imagem é considerado uma fonte primária distinta'''.
* [https://en.wikipedia.org/wiki/Remote_sensing Imagens de satélite] são dados brutos. Os lotes, rios e vias são desenhados sobre a imagem a partir de softwares confiáveis assistidos por pessoas habilitadas, e que terão seu trabalho publicado (na forma por exemplo de [https://en.wikipedia.org/wiki/GeoJSON '''arquivos GeoJSON''']) por instituições que &quot;assinam embaixo&quot; desse trabalho, tais como o IBGE, a Fundação OpenStreetMap, o departamento de cartografia de uma grande prefeitura, e muitos outros. <br/>Mesmo tendo usado a mesma imagem como origem, os produtos (ex. arquivos GeoJSON resultantes) podem diferir bastante em termos de qualidade, metodologia de interpretação, modelagem dos dados e software de interpretação, de modo que '''cada produto de interpretação da imagem é considerado uma fonte primária distinta'''.


==== Fontes OpenStreetMap Geofabrik ====
==== Fontes OpenStreetMap Geofabrik ====
Linha 70: Linha 71:
O Depósito legal dos metadados e da normalização das fontes é realizado em dois meios complementares, tendo em vista que no Brasil os cartórios e o sistema jurídico ainda não são 100% digitais.
O Depósito legal dos metadados e da normalização das fontes é realizado em dois meios complementares, tendo em vista que no Brasil os cartórios e o sistema jurídico ainda não são 100% digitais.


* '''Depósito em blockchain''' realizado previamente a cada confirmação de entrada, no &quot;cartório digital&quot; [https://uniproof.com.br/ Uniproof.com.br], garangtindo a integridade dos registros da licença e de integridade dos arquivos da fonte.
* '''Depósito em blockchain''' realizado previamente a cada confirmação de entrada, no &quot;cartório digital&quot; [https://uniproof.com.br/ Uniproof.com.br], garantindo a integridade dos registros da licença e de integridade dos arquivos da fonte.
* '''Depósito legal''' realizado anualmente através da consolidação dos metados e códigos-fonte em um documento entitulado '''&quot;Inventário Anual AddressForAll&quot;''', junto à Fundação Biblioteca Nacional. O [https://www.bn.gov.br/sobre-bn/deposito-legal ''depósito legal'' é um dispositivo previsto pelas leis federais nº 10.994 de 2004 e nº 12.192 de 2010].
* '''Depósito legal''' realizado anualmente através da consolidação dos metadados e códigos-fonte em um documento intitulado '''&quot;Inventário Anual AddressForAll&quot;''', junto à Fundação Biblioteca Nacional. O [https://www.bn.gov.br/sobre-bn/deposito-legal ''depósito legal'' é um dispositivo previsto pelas leis federais nº 10.994 de 2004 e nº 12.192 de 2010].


A preservação do arquivo em si (muitos Gigabytes) é feita por contratos de longo prazo (décadas), ainda em estudo. Uma vez no repositório definitivo, alguns parceiros se comprometem também com réplicas. PS: sistemas como Filecoin ou LOCKSS, também em estudo, geram as réplicas de segurança automaticamente.
A preservação do arquivo em si (muitos Gigabytes) é feita por contratos de longo prazo (décadas), ainda em estudo. Uma vez no repositório definitivo, alguns parceiros se comprometem também com réplicas. PS: sistemas como Filecoin ou LOCKSS, também em estudo, geram as réplicas de segurança automaticamente.
Linha 78: Linha 79:


A ''Plataforma de Projetos'' do ''Instituto ITGS'' foi concebida para a gestão de projetos integrados e uso de um ecosistema de padrões e metodologias interoperáveis. O presente projeto de preservação digital é um deles. Abaixo um diagrama que resume o passo-a-passo da preservação e como ele se relaciona com atividades de outros projetos.
A ''Plataforma de Projetos'' do ''Instituto ITGS'' foi concebida para a gestão de projetos integrados e uso de um ecosistema de padrões e metodologias interoperáveis. O presente projeto de preservação digital é um deles. Abaixo um diagrama que resume o passo-a-passo da preservação e como ele se relaciona com atividades de outros projetos.
 
[[Arquivo:Dg-Organizacao-Contexto-diagrama.png|nenhum|miniaturadaimagem]]
[[File:https://github.com/AddressForAll/specifications/raw/master/docs/assets-spec02/image5.png]]


== Datasets descentralizados no git ==
== Datasets descentralizados no git ==
Linha 87: Linha 87:
Com argumentos análogos ao uso de [https://en.wikipedia.org/wiki/Distributed_hash_table ''distributed hash table''] ou [https://spark.apache.org/docs/latest/rdd-programming-guide.html#resilient-distributed-datasets-rdds RDD], o dataset descentralizado garante maior resiliência no sistema como um todo e maior autonomia nas jurisdições, que assumem a responsabilidade por seus respectivos datasets.
Com argumentos análogos ao uso de [https://en.wikipedia.org/wiki/Distributed_hash_table ''distributed hash table''] ou [https://spark.apache.org/docs/latest/rdd-programming-guide.html#resilient-distributed-datasets-rdds RDD], o dataset descentralizado garante maior resiliência no sistema como um todo e maior autonomia nas jurisdições, que assumem a responsabilidade por seus respectivos datasets.


* Planilhas distribuidas: por exemplo as sub-jurisdições de cada país seguem sua hierarquia &amp;emdash; tomando BR como referência, os CSVs de [https://github.com/digital-guard/preserv-BR/blob/main/data/jurisdictionLevel4.csv primeiro nível] são mantidos pelo país e os segundo nivel (ex. [https://github.com/digital-guard/preserv-BR/blob/main/data/AC/jurisdictionLevel8.csv BR-AC] ou [https://github.com/digital-guard/preserv-BR/blob/main/data/SP/jurisdictionLevel8.csv BR-SP]) distribuídos por seus responsáveis.
* Planilhas distribuidas: por exemplo as sub-jurisdições de cada país seguem sua hierarquia tomando BR como referência, os CSVs de [https://github.com/digital-guard/preserv-BR/blob/main/data/jurisdictionLevel4.csv primeiro nível] são mantidos pelo país e os segundo nivel (ex. [https://github.com/digital-guard/preserv-BR/blob/main/data/AC/jurisdictionLevel8.csv BR-AC] ou [https://github.com/digital-guard/preserv-BR/blob/main/data/SP/jurisdictionLevel8.csv BR-SP]) distribuídos por seus responsáveis.
* Geometrias GeoJSON distribuidas: optou-se por manter os dados filtrados em git, distribuidos de forma balanceada por quadrantes Geohash. Ver por exemplo as quadras de [https://github.com/digital-guard/preservCutGeo-BR2021/tree/main/data/SP/SaoPaulo/_pk0033.01/block preservCutGeo-BR2021/tree/main/data/SP/SaoPaulo/_pk0033.01/block].
* Geometrias GeoJSON distribuidas: optou-se por manter os dados filtrados em git, distribuidos de forma balanceada por quadrantes Geohash. Ver por exemplo as quadras de [https://github.com/digital-guard/preservCutGeo-BR2021/tree/main/data/SP/SaoPaulo/_pk0033.01/block preservCutGeo-BR2021/tree/main/data/SP/SaoPaulo/_pk0033.01/block].
[[Categoria:Digital-guard]]
[[Categoria:Digital-guard]]
1 224

edições