dg:Organização e conceitos do projeto: mudanças entre as edições

sem sumário de edição
(Criou página com '= Preservação de dados no Digital-guard = O '''Projeto Digital-guard''', de curadoria e [https://en.wikipedia.org/wiki/Digital_preservation preservação digital], é mantido pelo [http://itgs.org.br ITGS]. A curadoria seleciona dados relevantes (fontes primárias) doados para o domínio público pelos seus autores ou entidades responsáveis. Dados brutos são mantidos em discos de preservação, e seus metadados descritivos são mantidos em repositórios ''git''. No...')
 
Sem resumo de edição
 
(4 revisões intermediárias pelo mesmo usuário não estão sendo mostradas)
Linha 1: Linha 1:
{{Dg info}}
O '''Projeto Digital-guard''', de curadoria e [https://en.wikipedia.org/wiki/Digital_preservation preservação digital], é mantido pelo [http://itgs.org.br ITGS]. A curadoria seleciona dados relevantes (fontes primárias) doados para o domínio público pelos seus autores ou entidades responsáveis. Dados brutos são mantidos em discos de preservação, e seus metadados descritivos são mantidos em repositórios ''git''.
= Preservação de dados no Digital-guard =
= Preservação de dados no Digital-guard =
O '''Projeto Digital-guard''', de curadoria e [https://en.wikipedia.org/wiki/Digital_preservation preservação digital], é mantido pelo [http://itgs.org.br ITGS]. A curadoria seleciona dados relevantes (fontes primárias) doados para o domínio público pelos seus autores ou entidades responsáveis. Dados brutos são mantidos em discos de preservação, e seus metadados descritivos são mantidos em repositórios ''git''.


Nos repositórios ''git'' de cada país são registrados apenas:
Nos repositórios ''git'' de cada país são registrados apenas:
Linha 12: Linha 13:
Metadados típicos são o número de bytes (''file size''), a data de aceitação ou registro, o tipo de arquivo (ex. <code>.zip</code> ou <code>.gz</code>), o CNPJ da entidade doadora, o ''hash'' SHA256 do arquivo, etc.
Metadados típicos são o número de bytes (''file size''), a data de aceitação ou registro, o tipo de arquivo (ex. <code>.zip</code> ou <code>.gz</code>), o CNPJ da entidade doadora, o ''hash'' SHA256 do arquivo, etc.


Os arquivos de dados, por serem [https://git-lfs.github.com/ grandes], têm as suas cópias armazenadas em diversos locais seguros, para fins de preservação, e em núvem através de serviço de [https://en.wikipedia.org/wiki/File_hosting_service#Storage_charges ''storage'' &quot;frio&quot;], acessível para ''download'' em <code>DL.digital-guard.org/{hash}</code>, conforme a ''hash'' SHA256 do arquivo solicitado. Por exemplo
Os arquivos de dados, por serem [https://git-lfs.github.com/ grandes], têm as suas cópias armazenadas em diversos locais seguros, para fins de preservação, e em nuvem através de serviço de [https://en.wikipedia.org/wiki/File_hosting_service#Storage_charges ''storage'' &quot;frio&quot;], acessível para ''download'' em <code>DL.digital-guard.org/{hash}</code>, conforme a ''hash'' SHA256 do arquivo solicitado. Por exemplo


<!-- ou seja, onde não há o compromisso de recuperação instantânea, mas dentro de um prazo de segundos a horas o *download* do arquivo é disponibilizado.-->
<!-- ou seja, onde não há o compromisso de recuperação instantânea, mas dentro de um prazo de segundos a horas o *download* do arquivo é disponibilizado.-->
Linha 20: Linha 21:
<!-- Os metadados relativos a datasets são relativos ao arquivo comprimido contendo um ou mais pacotes de dados preservados (doação), relativos a um doador e uma data específicos. -->
<!-- Os metadados relativos a datasets são relativos ao arquivo comprimido contendo um ou mais pacotes de dados preservados (doação), relativos a um doador e uma data específicos. -->


<!--
<!-- Vide pasta `/data` deste git.
Vide pasta `/data` deste git.
Os relatórios são como um blog de anúncio de atos de registro, em geral com um resumo para apresentar também os metadados. Vide pasta `/reports` deste git. -->
Os relatórios são como um blog de anúncio de atos de registro, em geral com um resumo para apresentar também os metadados. Vide pasta `/reports` deste git. -->


Linha 33: Linha 33:
=== Fontes primárias ===
=== Fontes primárias ===


As [https://en.wikipedia.org/wiki/Primary_source fontes de dados primárias] podem ter diversas origens e diferentes metodologias de coleta. De especial interesse para o Instituto ITGS, num contexto de preservação de longo prazo (décadas), são as fontes de dados relativos a endereços postais de cada município do Brasil. Cada fonte consiste de um conjunto de dados sistematizados e publicados '''por uma instituição''' (nacional ou internacional) com idoniedade reconhecida pela comunidade local.
As [https://en.wikipedia.org/wiki/Primary_source fontes de dados primárias] podem ter diversas origens e diferentes metodologias de coleta. De especial interesse para o Instituto ITGS, num contexto de preservação de longo prazo (décadas), são as fontes de dados relativos a endereços postais de cada município do Brasil. Cada fonte consiste de um conjunto de dados sistematizados e publicados '''por uma instituição''' (nacional ou internacional) com idoneidade reconhecida pela comunidade local.


As fontes primárias estão relacionadas aos [https://en.wikipedia.org/wiki/Raw_data dados brutos], quando tidos como [https://wiki.openstreetmap.org/wiki/Ground_truth_and_Official_truth &quot;verdade de campo&quot; ou &quot;verdade oficial&quot;], e com o trabalho mobilizado pela instituição para sistematizar, consolidar ou transformar os dados brutos em dados geográficos consistentes. Dois exemplos ilustrativos:
As fontes primárias estão relacionadas aos [https://en.wikipedia.org/wiki/Raw_data dados brutos], quando tidos como [https://wiki.openstreetmap.org/wiki/Ground_truth_and_Official_truth &quot;verdade de campo&quot; ou &quot;verdade oficial&quot;], e com o trabalho mobilizado pela instituição para sistematizar, consolidar ou transformar os dados brutos em dados geográficos consistentes. Dois exemplos ilustrativos:


* Um carteiro com seu [https://en.wikipedia.org/wiki/Global_Positioning_System GPS], confirmando que o endereço de entrega existe e está localizado nas coordenadas de latitude e longitude indicadas pelo GPS. Diversos carteiros, entregadores e outros profissionais podem alimentar uma planilha e essa planilha por fim, publicada como [https://en.wikipedia.org/wiki/Comma-separated_values '''arquivo CSV'''], será a nossa fonte primária de dados.
* Um carteiro com seu [https://en.wikipedia.org/wiki/Global_Positioning_System GPS], confirmando que o endereço de entrega existe e está localizado nas coordenadas de latitude e longitude indicadas pelo GPS. Diversos carteiros, entregadores e outros profissionais podem alimentar uma planilha e essa planilha por fim, publicada como [https://en.wikipedia.org/wiki/Comma-separated_values '''arquivo CSV'''], será a nossa fonte primária de dados.
* [https://en.wikipedia.org/wiki/Remote_sensing Imagens de satélite] são dados brutos. Os lotes, rios e vias são desenhados sobre a imagem a partir de softwares confiáveis assistidos por pessoas habilidadas, e que terão seu trabalho publicado (na forma por exemplo de [https://en.wikipedia.org/wiki/GeoJSON '''arquivos GeoJSON''']) por instituições que &quot;assinam embaixo&quot; desse trabalho, tais como o IBGE, a Fundação OpenStreetMap, o departamento de cartografia de uma grande prefeitura, e muitos outros. <br/>Mesmo tendo usado a mesma imagem como origem, os produtos (ex. arquivos GeoJSON resultantes) podem diferir bastante em termos de qualidade, metodologia de interpretação, modelagem dos dados e software de interpretação, de modo que '''cada produto de interpretação da imagem é considerado uma fonte primária distinta'''.
* [https://en.wikipedia.org/wiki/Remote_sensing Imagens de satélite] são dados brutos. Os lotes, rios e vias são desenhados sobre a imagem a partir de softwares confiáveis assistidos por pessoas habilitadas, e que terão seu trabalho publicado (na forma por exemplo de [https://en.wikipedia.org/wiki/GeoJSON '''arquivos GeoJSON''']) por instituições que &quot;assinam embaixo&quot; desse trabalho, tais como o IBGE, a Fundação OpenStreetMap, o departamento de cartografia de uma grande prefeitura, e muitos outros. <br/>Mesmo tendo usado a mesma imagem como origem, os produtos (ex. arquivos GeoJSON resultantes) podem diferir bastante em termos de qualidade, metodologia de interpretação, modelagem dos dados e software de interpretação, de modo que '''cada produto de interpretação da imagem é considerado uma fonte primária distinta'''.


==== Fontes OpenStreetMap Geofabrik ====
==== Fontes OpenStreetMap Geofabrik ====
Linha 70: Linha 70:
O Depósito legal dos metadados e da normalização das fontes é realizado em dois meios complementares, tendo em vista que no Brasil os cartórios e o sistema jurídico ainda não são 100% digitais.
O Depósito legal dos metadados e da normalização das fontes é realizado em dois meios complementares, tendo em vista que no Brasil os cartórios e o sistema jurídico ainda não são 100% digitais.


* '''Depósito em blockchain''' realizado previamente a cada confirmação de entrada, no &quot;cartório digital&quot; [https://uniproof.com.br/ Uniproof.com.br], garangtindo a integridade dos registros da licença e de integridade dos arquivos da fonte.
* '''Depósito em blockchain''' realizado previamente a cada confirmação de entrada, no &quot;cartório digital&quot; [https://uniproof.com.br/ Uniproof.com.br], garantindo a integridade dos registros da licença e de integridade dos arquivos da fonte.
* '''Depósito legal''' realizado anualmente através da consolidação dos metados e códigos-fonte em um documento entitulado '''&quot;Inventário Anual AddressForAll&quot;''', junto à Fundação Biblioteca Nacional. O [https://www.bn.gov.br/sobre-bn/deposito-legal ''depósito legal'' é um dispositivo previsto pelas leis federais nº 10.994 de 2004 e nº 12.192 de 2010].
* '''Depósito legal''' realizado anualmente através da consolidação dos metadados e códigos-fonte em um documento intitulado '''&quot;Inventário Anual AddressForAll&quot;''', junto à Fundação Biblioteca Nacional. O [https://www.bn.gov.br/sobre-bn/deposito-legal ''depósito legal'' é um dispositivo previsto pelas leis federais nº 10.994 de 2004 e nº 12.192 de 2010].


A preservação do arquivo em si (muitos Gigabytes) é feita por contratos de longo prazo (décadas), ainda em estudo. Uma vez no repositório definitivo, alguns parceiros se comprometem também com réplicas. PS: sistemas como Filecoin ou LOCKSS, também em estudo, geram as réplicas de segurança automaticamente.
A preservação do arquivo em si (muitos Gigabytes) é feita por contratos de longo prazo (décadas), ainda em estudo. Uma vez no repositório definitivo, alguns parceiros se comprometem também com réplicas. PS: sistemas como Filecoin ou LOCKSS, também em estudo, geram as réplicas de segurança automaticamente.
Linha 78: Linha 78:


A ''Plataforma de Projetos'' do ''Instituto ITGS'' foi concebida para a gestão de projetos integrados e uso de um ecosistema de padrões e metodologias interoperáveis. O presente projeto de preservação digital é um deles. Abaixo um diagrama que resume o passo-a-passo da preservação e como ele se relaciona com atividades de outros projetos.
A ''Plataforma de Projetos'' do ''Instituto ITGS'' foi concebida para a gestão de projetos integrados e uso de um ecosistema de padrões e metodologias interoperáveis. O presente projeto de preservação digital é um deles. Abaixo um diagrama que resume o passo-a-passo da preservação e como ele se relaciona com atividades de outros projetos.
 
[[Arquivo:Dg-Organizacao-Contexto-diagrama.png|nenhum|miniaturadaimagem]]
[[File:https://github.com/AddressForAll/specifications/raw/master/docs/assets-spec02/image5.png]]


== Datasets descentralizados no git ==
== Datasets descentralizados no git ==
Linha 87: Linha 86:
Com argumentos análogos ao uso de [https://en.wikipedia.org/wiki/Distributed_hash_table ''distributed hash table''] ou [https://spark.apache.org/docs/latest/rdd-programming-guide.html#resilient-distributed-datasets-rdds RDD], o dataset descentralizado garante maior resiliência no sistema como um todo e maior autonomia nas jurisdições, que assumem a responsabilidade por seus respectivos datasets.
Com argumentos análogos ao uso de [https://en.wikipedia.org/wiki/Distributed_hash_table ''distributed hash table''] ou [https://spark.apache.org/docs/latest/rdd-programming-guide.html#resilient-distributed-datasets-rdds RDD], o dataset descentralizado garante maior resiliência no sistema como um todo e maior autonomia nas jurisdições, que assumem a responsabilidade por seus respectivos datasets.


* Planilhas distribuidas: por exemplo as sub-jurisdições de cada país seguem sua hierarquia &amp;emdash; tomando BR como referência, os CSVs de [https://github.com/digital-guard/preserv-BR/blob/main/data/jurisdictionLevel4.csv primeiro nível] são mantidos pelo país e os segundo nivel (ex. [https://github.com/digital-guard/preserv-BR/blob/main/data/AC/jurisdictionLevel8.csv BR-AC] ou [https://github.com/digital-guard/preserv-BR/blob/main/data/SP/jurisdictionLevel8.csv BR-SP]) distribuídos por seus responsáveis.
* Planilhas distribuidas: por exemplo as sub-jurisdições de cada país seguem sua hierarquia tomando BR como referência, os CSVs de [https://github.com/digital-guard/preserv-BR/blob/main/data/jurisdictionLevel4.csv primeiro nível] são mantidos pelo país e os segundo nivel (ex. [https://github.com/digital-guard/preserv-BR/blob/main/data/AC/jurisdictionLevel8.csv BR-AC] ou [https://github.com/digital-guard/preserv-BR/blob/main/data/SP/jurisdictionLevel8.csv BR-SP]) distribuídos por seus responsáveis.
* Geometrias GeoJSON distribuidas: optou-se por manter os dados filtrados em git, distribuidos de forma balanceada por quadrantes Geohash. Ver por exemplo as quadras de [https://github.com/digital-guard/preservCutGeo-BR2021/tree/main/data/SP/SaoPaulo/_pk0033.01/block preservCutGeo-BR2021/tree/main/data/SP/SaoPaulo/_pk0033.01/block].
* Geometrias GeoJSON distribuidas: optou-se por manter os dados filtrados em git, distribuidos de forma balanceada por quadrantes Geohash. Ver por exemplo as quadras de [https://github.com/digital-guard/preservCutGeo-BR2021/tree/main/data/SP/SaoPaulo/_pk0033.01/block preservCutGeo-BR2021/tree/main/data/SP/SaoPaulo/_pk0033.01/block].
[[Categoria:Digital-guard]]
1 224

edições