dg:Organização e conceitos do projeto: mudanças entre as edições

De Documentação
(Criou página com '= Preservação de dados no Digital-guard = O '''Projeto Digital-guard''', de curadoria e [https://en.wikipedia.org/wiki/Digital_preservation preservação digital], é mantido pelo [http://itgs.org.br ITGS]. A curadoria seleciona dados relevantes (fontes primárias) doados para o domínio público pelos seus autores ou entidades responsáveis. Dados brutos são mantidos em discos de preservação, e seus metadados descritivos são mantidos em repositórios ''git''. No...')
 
Sem resumo de edição
 
(4 revisões intermediárias pelo mesmo usuário não estão sendo mostradas)
Linha 1: Linha 1:
{{Dg info}}
O '''Projeto Digital-guard''', de curadoria e [https://en.wikipedia.org/wiki/Digital_preservation preservação digital], é mantido pelo [http://itgs.org.br ITGS]. A curadoria seleciona dados relevantes (fontes primárias) doados para o domínio público pelos seus autores ou entidades responsáveis. Dados brutos são mantidos em discos de preservação, e seus metadados descritivos são mantidos em repositórios ''git''.
= Preservação de dados no Digital-guard =
= Preservação de dados no Digital-guard =
O '''Projeto Digital-guard''', de curadoria e [https://en.wikipedia.org/wiki/Digital_preservation preservação digital], é mantido pelo [http://itgs.org.br ITGS]. A curadoria seleciona dados relevantes (fontes primárias) doados para o domínio público pelos seus autores ou entidades responsáveis. Dados brutos são mantidos em discos de preservação, e seus metadados descritivos são mantidos em repositórios ''git''.


Nos repositórios ''git'' de cada país são registrados apenas:
Nos repositórios ''git'' de cada país são registrados apenas:
Linha 12: Linha 13:
Metadados típicos são o número de bytes (''file size''), a data de aceitação ou registro, o tipo de arquivo (ex. <code>.zip</code> ou <code>.gz</code>), o CNPJ da entidade doadora, o ''hash'' SHA256 do arquivo, etc.
Metadados típicos são o número de bytes (''file size''), a data de aceitação ou registro, o tipo de arquivo (ex. <code>.zip</code> ou <code>.gz</code>), o CNPJ da entidade doadora, o ''hash'' SHA256 do arquivo, etc.


Os arquivos de dados, por serem [https://git-lfs.github.com/ grandes], têm as suas cópias armazenadas em diversos locais seguros, para fins de preservação, e em núvem através de serviço de [https://en.wikipedia.org/wiki/File_hosting_service#Storage_charges ''storage'' &quot;frio&quot;], acessível para ''download'' em <code>DL.digital-guard.org/{hash}</code>, conforme a ''hash'' SHA256 do arquivo solicitado. Por exemplo
Os arquivos de dados, por serem [https://git-lfs.github.com/ grandes], têm as suas cópias armazenadas em diversos locais seguros, para fins de preservação, e em nuvem através de serviço de [https://en.wikipedia.org/wiki/File_hosting_service#Storage_charges ''storage'' &quot;frio&quot;], acessível para ''download'' em <code>DL.digital-guard.org/{hash}</code>, conforme a ''hash'' SHA256 do arquivo solicitado. Por exemplo


<!-- ou seja, onde não há o compromisso de recuperação instantânea, mas dentro de um prazo de segundos a horas o *download* do arquivo é disponibilizado.-->
<!-- ou seja, onde não há o compromisso de recuperação instantânea, mas dentro de um prazo de segundos a horas o *download* do arquivo é disponibilizado.-->
Linha 20: Linha 21:
<!-- Os metadados relativos a datasets são relativos ao arquivo comprimido contendo um ou mais pacotes de dados preservados (doação), relativos a um doador e uma data específicos. -->
<!-- Os metadados relativos a datasets são relativos ao arquivo comprimido contendo um ou mais pacotes de dados preservados (doação), relativos a um doador e uma data específicos. -->


<!--
<!-- Vide pasta `/data` deste git.
Vide pasta `/data` deste git.
Os relatórios são como um blog de anúncio de atos de registro, em geral com um resumo para apresentar também os metadados. Vide pasta `/reports` deste git. -->
Os relatórios são como um blog de anúncio de atos de registro, em geral com um resumo para apresentar também os metadados. Vide pasta `/reports` deste git. -->


Linha 33: Linha 33:
=== Fontes primárias ===
=== Fontes primárias ===


As [https://en.wikipedia.org/wiki/Primary_source fontes de dados primárias] podem ter diversas origens e diferentes metodologias de coleta. De especial interesse para o Instituto ITGS, num contexto de preservação de longo prazo (décadas), são as fontes de dados relativos a endereços postais de cada município do Brasil. Cada fonte consiste de um conjunto de dados sistematizados e publicados '''por uma instituição''' (nacional ou internacional) com idoniedade reconhecida pela comunidade local.
As [https://en.wikipedia.org/wiki/Primary_source fontes de dados primárias] podem ter diversas origens e diferentes metodologias de coleta. De especial interesse para o Instituto ITGS, num contexto de preservação de longo prazo (décadas), são as fontes de dados relativos a endereços postais de cada município do Brasil. Cada fonte consiste de um conjunto de dados sistematizados e publicados '''por uma instituição''' (nacional ou internacional) com idoneidade reconhecida pela comunidade local.


As fontes primárias estão relacionadas aos [https://en.wikipedia.org/wiki/Raw_data dados brutos], quando tidos como [https://wiki.openstreetmap.org/wiki/Ground_truth_and_Official_truth &quot;verdade de campo&quot; ou &quot;verdade oficial&quot;], e com o trabalho mobilizado pela instituição para sistematizar, consolidar ou transformar os dados brutos em dados geográficos consistentes. Dois exemplos ilustrativos:
As fontes primárias estão relacionadas aos [https://en.wikipedia.org/wiki/Raw_data dados brutos], quando tidos como [https://wiki.openstreetmap.org/wiki/Ground_truth_and_Official_truth &quot;verdade de campo&quot; ou &quot;verdade oficial&quot;], e com o trabalho mobilizado pela instituição para sistematizar, consolidar ou transformar os dados brutos em dados geográficos consistentes. Dois exemplos ilustrativos:


* Um carteiro com seu [https://en.wikipedia.org/wiki/Global_Positioning_System GPS], confirmando que o endereço de entrega existe e está localizado nas coordenadas de latitude e longitude indicadas pelo GPS. Diversos carteiros, entregadores e outros profissionais podem alimentar uma planilha e essa planilha por fim, publicada como [https://en.wikipedia.org/wiki/Comma-separated_values '''arquivo CSV'''], será a nossa fonte primária de dados.
* Um carteiro com seu [https://en.wikipedia.org/wiki/Global_Positioning_System GPS], confirmando que o endereço de entrega existe e está localizado nas coordenadas de latitude e longitude indicadas pelo GPS. Diversos carteiros, entregadores e outros profissionais podem alimentar uma planilha e essa planilha por fim, publicada como [https://en.wikipedia.org/wiki/Comma-separated_values '''arquivo CSV'''], será a nossa fonte primária de dados.
* [https://en.wikipedia.org/wiki/Remote_sensing Imagens de satélite] são dados brutos. Os lotes, rios e vias são desenhados sobre a imagem a partir de softwares confiáveis assistidos por pessoas habilidadas, e que terão seu trabalho publicado (na forma por exemplo de [https://en.wikipedia.org/wiki/GeoJSON '''arquivos GeoJSON''']) por instituições que &quot;assinam embaixo&quot; desse trabalho, tais como o IBGE, a Fundação OpenStreetMap, o departamento de cartografia de uma grande prefeitura, e muitos outros. <br/>Mesmo tendo usado a mesma imagem como origem, os produtos (ex. arquivos GeoJSON resultantes) podem diferir bastante em termos de qualidade, metodologia de interpretação, modelagem dos dados e software de interpretação, de modo que '''cada produto de interpretação da imagem é considerado uma fonte primária distinta'''.
* [https://en.wikipedia.org/wiki/Remote_sensing Imagens de satélite] são dados brutos. Os lotes, rios e vias são desenhados sobre a imagem a partir de softwares confiáveis assistidos por pessoas habilitadas, e que terão seu trabalho publicado (na forma por exemplo de [https://en.wikipedia.org/wiki/GeoJSON '''arquivos GeoJSON''']) por instituições que &quot;assinam embaixo&quot; desse trabalho, tais como o IBGE, a Fundação OpenStreetMap, o departamento de cartografia de uma grande prefeitura, e muitos outros. <br/>Mesmo tendo usado a mesma imagem como origem, os produtos (ex. arquivos GeoJSON resultantes) podem diferir bastante em termos de qualidade, metodologia de interpretação, modelagem dos dados e software de interpretação, de modo que '''cada produto de interpretação da imagem é considerado uma fonte primária distinta'''.


==== Fontes OpenStreetMap Geofabrik ====
==== Fontes OpenStreetMap Geofabrik ====
Linha 70: Linha 70:
O Depósito legal dos metadados e da normalização das fontes é realizado em dois meios complementares, tendo em vista que no Brasil os cartórios e o sistema jurídico ainda não são 100% digitais.
O Depósito legal dos metadados e da normalização das fontes é realizado em dois meios complementares, tendo em vista que no Brasil os cartórios e o sistema jurídico ainda não são 100% digitais.


* '''Depósito em blockchain''' realizado previamente a cada confirmação de entrada, no &quot;cartório digital&quot; [https://uniproof.com.br/ Uniproof.com.br], garangtindo a integridade dos registros da licença e de integridade dos arquivos da fonte.
* '''Depósito em blockchain''' realizado previamente a cada confirmação de entrada, no &quot;cartório digital&quot; [https://uniproof.com.br/ Uniproof.com.br], garantindo a integridade dos registros da licença e de integridade dos arquivos da fonte.
* '''Depósito legal''' realizado anualmente através da consolidação dos metados e códigos-fonte em um documento entitulado '''&quot;Inventário Anual AddressForAll&quot;''', junto à Fundação Biblioteca Nacional. O [https://www.bn.gov.br/sobre-bn/deposito-legal ''depósito legal'' é um dispositivo previsto pelas leis federais nº 10.994 de 2004 e nº 12.192 de 2010].
* '''Depósito legal''' realizado anualmente através da consolidação dos metadados e códigos-fonte em um documento intitulado '''&quot;Inventário Anual AddressForAll&quot;''', junto à Fundação Biblioteca Nacional. O [https://www.bn.gov.br/sobre-bn/deposito-legal ''depósito legal'' é um dispositivo previsto pelas leis federais nº 10.994 de 2004 e nº 12.192 de 2010].


A preservação do arquivo em si (muitos Gigabytes) é feita por contratos de longo prazo (décadas), ainda em estudo. Uma vez no repositório definitivo, alguns parceiros se comprometem também com réplicas. PS: sistemas como Filecoin ou LOCKSS, também em estudo, geram as réplicas de segurança automaticamente.
A preservação do arquivo em si (muitos Gigabytes) é feita por contratos de longo prazo (décadas), ainda em estudo. Uma vez no repositório definitivo, alguns parceiros se comprometem também com réplicas. PS: sistemas como Filecoin ou LOCKSS, também em estudo, geram as réplicas de segurança automaticamente.
Linha 78: Linha 78:


A ''Plataforma de Projetos'' do ''Instituto ITGS'' foi concebida para a gestão de projetos integrados e uso de um ecosistema de padrões e metodologias interoperáveis. O presente projeto de preservação digital é um deles. Abaixo um diagrama que resume o passo-a-passo da preservação e como ele se relaciona com atividades de outros projetos.
A ''Plataforma de Projetos'' do ''Instituto ITGS'' foi concebida para a gestão de projetos integrados e uso de um ecosistema de padrões e metodologias interoperáveis. O presente projeto de preservação digital é um deles. Abaixo um diagrama que resume o passo-a-passo da preservação e como ele se relaciona com atividades de outros projetos.
 
[[Arquivo:Dg-Organizacao-Contexto-diagrama.png|nenhum|miniaturadaimagem]]
[[File:https://github.com/AddressForAll/specifications/raw/master/docs/assets-spec02/image5.png]]


== Datasets descentralizados no git ==
== Datasets descentralizados no git ==
Linha 87: Linha 86:
Com argumentos análogos ao uso de [https://en.wikipedia.org/wiki/Distributed_hash_table ''distributed hash table''] ou [https://spark.apache.org/docs/latest/rdd-programming-guide.html#resilient-distributed-datasets-rdds RDD], o dataset descentralizado garante maior resiliência no sistema como um todo e maior autonomia nas jurisdições, que assumem a responsabilidade por seus respectivos datasets.
Com argumentos análogos ao uso de [https://en.wikipedia.org/wiki/Distributed_hash_table ''distributed hash table''] ou [https://spark.apache.org/docs/latest/rdd-programming-guide.html#resilient-distributed-datasets-rdds RDD], o dataset descentralizado garante maior resiliência no sistema como um todo e maior autonomia nas jurisdições, que assumem a responsabilidade por seus respectivos datasets.


* Planilhas distribuidas: por exemplo as sub-jurisdições de cada país seguem sua hierarquia &amp;emdash; tomando BR como referência, os CSVs de [https://github.com/digital-guard/preserv-BR/blob/main/data/jurisdictionLevel4.csv primeiro nível] são mantidos pelo país e os segundo nivel (ex. [https://github.com/digital-guard/preserv-BR/blob/main/data/AC/jurisdictionLevel8.csv BR-AC] ou [https://github.com/digital-guard/preserv-BR/blob/main/data/SP/jurisdictionLevel8.csv BR-SP]) distribuídos por seus responsáveis.
* Planilhas distribuidas: por exemplo as sub-jurisdições de cada país seguem sua hierarquia tomando BR como referência, os CSVs de [https://github.com/digital-guard/preserv-BR/blob/main/data/jurisdictionLevel4.csv primeiro nível] são mantidos pelo país e os segundo nivel (ex. [https://github.com/digital-guard/preserv-BR/blob/main/data/AC/jurisdictionLevel8.csv BR-AC] ou [https://github.com/digital-guard/preserv-BR/blob/main/data/SP/jurisdictionLevel8.csv BR-SP]) distribuídos por seus responsáveis.
* Geometrias GeoJSON distribuidas: optou-se por manter os dados filtrados em git, distribuidos de forma balanceada por quadrantes Geohash. Ver por exemplo as quadras de [https://github.com/digital-guard/preservCutGeo-BR2021/tree/main/data/SP/SaoPaulo/_pk0033.01/block preservCutGeo-BR2021/tree/main/data/SP/SaoPaulo/_pk0033.01/block].
* Geometrias GeoJSON distribuidas: optou-se por manter os dados filtrados em git, distribuidos de forma balanceada por quadrantes Geohash. Ver por exemplo as quadras de [https://github.com/digital-guard/preservCutGeo-BR2021/tree/main/data/SP/SaoPaulo/_pk0033.01/block preservCutGeo-BR2021/tree/main/data/SP/SaoPaulo/_pk0033.01/block].
[[Categoria:Digital-guard]]

Edição atual tal como às 21h23min de 7 de dezembro de 2023

Dg-logo-draft1.png
Documentação integrante do
projeto Digital-guard
Países: AR, BR, CO, CM, CL, PE, SR, VE, UY.

O Projeto Digital-guard, de curadoria e preservação digital, é mantido pelo ITGS. A curadoria seleciona dados relevantes (fontes primárias) doados para o domínio público pelos seus autores ou entidades responsáveis. Dados brutos são mantidos em discos de preservação, e seus metadados descritivos são mantidos em repositórios git.

Preservação de dados no Digital-guard

Nos repositórios git de cada país são registrados apenas:

  • input: dados de gestão e metadados dos arquivos doados (principal ativo);
  • output: relatórios e sumarizações estatísticas dos arquivos recebidos.

Cada git é publicado em um endereço permanente, distinguido pelo código do país, na forma http://git.digital-guard.org/preserv-{isoCode}. Por exemplo o isoCode BR indica Brasil, ou seja, os metadados do Brasil estão em
  http://git.digital-guard.org/preserv-BR
  Output em '/data/_out'; input no restante da pasta '/data'.

Metadados típicos são o número de bytes (file size), a data de aceitação ou registro, o tipo de arquivo (ex. .zip ou .gz), o CNPJ da entidade doadora, o hash SHA256 do arquivo, etc.

Os arquivos de dados, por serem grandes, têm as suas cópias armazenadas em diversos locais seguros, para fins de preservação, e em nuvem através de serviço de storage "frio", acessível para download em DL.digital-guard.org/{hash}, conforme a hash SHA256 do arquivo solicitado. Por exemplo


Em particular os dados de domínio público são registrados e armazenados também na Fundação Biblioteca Nacional, na forma de DVD durável, anexo a obras descritivas dos metadados, submetidas ao depósito legal.




CONCEITOS

Apresentação dos principais conceitos e diretivas adotadas no Projeto Digital-guard de preservação digital.

Fontes primárias

As fontes de dados primárias podem ter diversas origens e diferentes metodologias de coleta. De especial interesse para o Instituto ITGS, num contexto de preservação de longo prazo (décadas), são as fontes de dados relativos a endereços postais de cada município do Brasil. Cada fonte consiste de um conjunto de dados sistematizados e publicados por uma instituição (nacional ou internacional) com idoneidade reconhecida pela comunidade local.

As fontes primárias estão relacionadas aos dados brutos, quando tidos como "verdade de campo" ou "verdade oficial", e com o trabalho mobilizado pela instituição para sistematizar, consolidar ou transformar os dados brutos em dados geográficos consistentes. Dois exemplos ilustrativos:

  • Um carteiro com seu GPS, confirmando que o endereço de entrega existe e está localizado nas coordenadas de latitude e longitude indicadas pelo GPS. Diversos carteiros, entregadores e outros profissionais podem alimentar uma planilha e essa planilha por fim, publicada como arquivo CSV, será a nossa fonte primária de dados.
  • Imagens de satélite são dados brutos. Os lotes, rios e vias são desenhados sobre a imagem a partir de softwares confiáveis assistidos por pessoas habilitadas, e que terão seu trabalho publicado (na forma por exemplo de arquivos GeoJSON) por instituições que "assinam embaixo" desse trabalho, tais como o IBGE, a Fundação OpenStreetMap, o departamento de cartografia de uma grande prefeitura, e muitos outros.
    Mesmo tendo usado a mesma imagem como origem, os produtos (ex. arquivos GeoJSON resultantes) podem diferir bastante em termos de qualidade, metodologia de interpretação, modelagem dos dados e software de interpretação, de modo que cada produto de interpretação da imagem é considerado uma fonte primária distinta.

Fontes OpenStreetMap Geofabrik

O mapa OSM cobre todo o planeta, é mantido pela Openstreetmap Foundation, uma fundação inglesa registrada sob Company Registration Number 05912761.

O planeta inteiro é uma massa de dados tão grande que inviabiliza filtragem de dados específicos. Diversos recortes do mapa OSM são gerados por membros da OSMF, entre eles a empresa alemã, Geofabrik (USt-Id DE222535480). Seus recortes são considerados fiáveis e utilizados por governos e empresas por todo o mundo, portanto amplamente auditados. Por orientação do projeto OSM-Stable Brasil (docs), o Instituto ITGS também faz uso desses recortes.

Os metadados dos arquivos preservados estão descritos no git do projeto, git/OSMBrasil/stable/brazil-latest.osm.md.

Fontes IBGE

Fonte dos dados estatísticos oficiais do Brasil, bem como elementos de cartografia e localização de endereços. O IBGE - Instituto Brasileiro de Geografia e Estatística (CNPJ 33.787.094/0001-40).

Por ser uma fonte muito extensa, requer curadoria e decisões de projeto.

Fontes nas prefeituras

Por ser uma fonte muito extensa e diversificada, requer curadoria e decisões de projeto.

Normalização das fontes

Os conjuntos de dados de cada fonte apresentam formatos e características de modelagem de dados distintas. Para que possam ser comparados entre si ou processados pelas ferramentas internas do AddressForAll, precisam estar todos obedecendo a um mesmo esquema, todos modelados com uma semântica.

A transformação que se aplica a um determinado conjunto de dados da fonte primária para chegar no modelo de dados padrão AddressForAll, é denominada normalização. A descrição da metodologia, dos algoritmos, bem como os códigos-fonte do software de normalização, são todos também preservados, com a mesma perspectiva de longo prazo que os dados da fonte primária.

Todos os elementos da normalização são repositórios git com licença aberta e publicamente distribuidos, atualmente em https://github.com/AddressForAll

Depósito legal e preservação digital

O Depósito legal dos metadados e da normalização das fontes é realizado em dois meios complementares, tendo em vista que no Brasil os cartórios e o sistema jurídico ainda não são 100% digitais.

A preservação do arquivo em si (muitos Gigabytes) é feita por contratos de longo prazo (décadas), ainda em estudo. Uma vez no repositório definitivo, alguns parceiros se comprometem também com réplicas. PS: sistemas como Filecoin ou LOCKSS, também em estudo, geram as réplicas de segurança automaticamente.

Contexto

A Plataforma de Projetos do Instituto ITGS foi concebida para a gestão de projetos integrados e uso de um ecosistema de padrões e metodologias interoperáveis. O presente projeto de preservação digital é um deles. Abaixo um diagrama que resume o passo-a-passo da preservação e como ele se relaciona com atividades de outros projetos.

Dg-Organizacao-Contexto-diagrama.png

Datasets descentralizados no git

Dados e metadados mantidos pelo Digital-guard em repositórios git podem ser centralizados ou distribuídos por diversas jurisdições.

Com argumentos análogos ao uso de distributed hash table ou RDD, o dataset descentralizado garante maior resiliência no sistema como um todo e maior autonomia nas jurisdições, que assumem a responsabilidade por seus respectivos datasets.

  • Planilhas distribuidas: por exemplo as sub-jurisdições de cada país seguem sua hierarquia — tomando BR como referência, os CSVs de primeiro nível são mantidos pelo país e os segundo nivel (ex. BR-AC ou BR-SP) distribuídos por seus responsáveis.
  • Geometrias GeoJSON distribuidas: optou-se por manter os dados filtrados em git, distribuidos de forma balanceada por quadrantes Geohash. Ver por exemplo as quadras de preservCutGeo-BR2021/tree/main/data/SP/SaoPaulo/_pk0033.01/block.