dg:Organização e conceitos do projeto
Documentação integrante do projeto Digital-guard |
Países: AR, BR, CO, CM, CL, PE, SR, VE, UY. |
O Projeto Digital-guard, de curadoria e preservação digital, é mantido pelo ITGS. A curadoria seleciona dados relevantes (fontes primárias) doados para o domínio público pelos seus autores ou entidades responsáveis. Dados brutos são mantidos em discos de preservação, e seus metadados descritivos são mantidos em repositórios git.
Preservação de dados no Digital-guard
Nos repositórios git de cada país são registrados apenas:
- input: dados de gestão e metadados dos arquivos doados (principal ativo);
- output: relatórios e sumarizações estatísticas dos arquivos recebidos.
Cada git é publicado em um endereço permanente, distinguido pelo código do país, na forma http://git.digital-guard.org/preserv-{isoCode}
. Por exemplo o isoCode BR
indica Brasil, ou seja, os metadados do Brasil estão em
http://git.digital-guard.org/preserv-BR
Output em '/data/_out'; input no restante da pasta '/data'.
Metadados típicos são o número de bytes (file size), a data de aceitação ou registro, o tipo de arquivo (ex. .zip
ou .gz
), o CNPJ da entidade doadora, o hash SHA256 do arquivo, etc.
Os arquivos de dados, por serem grandes, têm as suas cópias armazenadas em diversos locais seguros, para fins de preservação, e em nuvem através de serviço de storage "frio", acessível para download em DL.digital-guard.org/{hash}
, conforme a hash SHA256 do arquivo solicitado. Por exemplo
Em particular os dados de domínio público são registrados e armazenados também na Fundação Biblioteca Nacional, na forma de DVD durável, anexo a obras descritivas dos metadados, submetidas ao depósito legal.
CONCEITOS
Apresentação dos principais conceitos e diretivas adotadas no Projeto Digital-guard de preservação digital.
Fontes primárias
As fontes de dados primárias podem ter diversas origens e diferentes metodologias de coleta. De especial interesse para o Instituto ITGS, num contexto de preservação de longo prazo (décadas), são as fontes de dados relativos a endereços postais de cada município do Brasil. Cada fonte consiste de um conjunto de dados sistematizados e publicados por uma instituição (nacional ou internacional) com idoneidade reconhecida pela comunidade local.
As fontes primárias estão relacionadas aos dados brutos, quando tidos como "verdade de campo" ou "verdade oficial", e com o trabalho mobilizado pela instituição para sistematizar, consolidar ou transformar os dados brutos em dados geográficos consistentes. Dois exemplos ilustrativos:
- Um carteiro com seu GPS, confirmando que o endereço de entrega existe e está localizado nas coordenadas de latitude e longitude indicadas pelo GPS. Diversos carteiros, entregadores e outros profissionais podem alimentar uma planilha e essa planilha por fim, publicada como arquivo CSV, será a nossa fonte primária de dados.
- Imagens de satélite são dados brutos. Os lotes, rios e vias são desenhados sobre a imagem a partir de softwares confiáveis assistidos por pessoas habilitadas, e que terão seu trabalho publicado (na forma por exemplo de arquivos GeoJSON) por instituições que "assinam embaixo" desse trabalho, tais como o IBGE, a Fundação OpenStreetMap, o departamento de cartografia de uma grande prefeitura, e muitos outros.
Mesmo tendo usado a mesma imagem como origem, os produtos (ex. arquivos GeoJSON resultantes) podem diferir bastante em termos de qualidade, metodologia de interpretação, modelagem dos dados e software de interpretação, de modo que cada produto de interpretação da imagem é considerado uma fonte primária distinta.
Fontes OpenStreetMap Geofabrik
O mapa OSM cobre todo o planeta, é mantido pela Openstreetmap Foundation, uma fundação inglesa registrada sob Company Registration Number 05912761.
O planeta inteiro é uma massa de dados tão grande que inviabiliza filtragem de dados específicos. Diversos recortes do mapa OSM são gerados por membros da OSMF, entre eles a empresa alemã, Geofabrik (USt-Id DE222535480). Seus recortes são considerados fiáveis e utilizados por governos e empresas por todo o mundo, portanto amplamente auditados. Por orientação do projeto OSM-Stable Brasil (docs), o Instituto ITGS também faz uso desses recortes.
Os metadados dos arquivos preservados estão descritos no git do projeto, git/OSMBrasil/stable/brazil-latest.osm.md.
Fontes IBGE
Fonte dos dados estatísticos oficiais do Brasil, bem como elementos de cartografia e localização de endereços. O IBGE - Instituto Brasileiro de Geografia e Estatística (CNPJ 33.787.094/0001-40).
Por ser uma fonte muito extensa, requer curadoria e decisões de projeto.
Fontes nas prefeituras
Por ser uma fonte muito extensa e diversificada, requer curadoria e decisões de projeto.
Normalização das fontes
Os conjuntos de dados de cada fonte apresentam formatos e características de modelagem de dados distintas. Para que possam ser comparados entre si ou processados pelas ferramentas internas do AddressForAll, precisam estar todos obedecendo a um mesmo esquema, todos modelados com uma semântica.
A transformação que se aplica a um determinado conjunto de dados da fonte primária para chegar no modelo de dados padrão AddressForAll, é denominada normalização. A descrição da metodologia, dos algoritmos, bem como os códigos-fonte do software de normalização, são todos também preservados, com a mesma perspectiva de longo prazo que os dados da fonte primária.
Todos os elementos da normalização são repositórios git com licença aberta e publicamente distribuidos, atualmente em https://github.com/AddressForAll
Depósito legal e preservação digital
O Depósito legal dos metadados e da normalização das fontes é realizado em dois meios complementares, tendo em vista que no Brasil os cartórios e o sistema jurídico ainda não são 100% digitais.
- Depósito em blockchain realizado previamente a cada confirmação de entrada, no "cartório digital" Uniproof.com.br, garantindo a integridade dos registros da licença e de integridade dos arquivos da fonte.
- Depósito legal realizado anualmente através da consolidação dos metadados e códigos-fonte em um documento intitulado "Inventário Anual AddressForAll", junto à Fundação Biblioteca Nacional. O depósito legal é um dispositivo previsto pelas leis federais nº 10.994 de 2004 e nº 12.192 de 2010.
A preservação do arquivo em si (muitos Gigabytes) é feita por contratos de longo prazo (décadas), ainda em estudo. Uma vez no repositório definitivo, alguns parceiros se comprometem também com réplicas. PS: sistemas como Filecoin ou LOCKSS, também em estudo, geram as réplicas de segurança automaticamente.
Contexto
A Plataforma de Projetos do Instituto ITGS foi concebida para a gestão de projetos integrados e uso de um ecosistema de padrões e metodologias interoperáveis. O presente projeto de preservação digital é um deles. Abaixo um diagrama que resume o passo-a-passo da preservação e como ele se relaciona com atividades de outros projetos.
Datasets descentralizados no git
Dados e metadados mantidos pelo Digital-guard em repositórios git podem ser centralizados ou distribuídos por diversas jurisdições.
Com argumentos análogos ao uso de distributed hash table ou RDD, o dataset descentralizado garante maior resiliência no sistema como um todo e maior autonomia nas jurisdições, que assumem a responsabilidade por seus respectivos datasets.
- Planilhas distribuidas: por exemplo as sub-jurisdições de cada país seguem sua hierarquia — tomando BR como referência, os CSVs de primeiro nível são mantidos pelo país e os segundo nivel (ex. BR-AC ou BR-SP) distribuídos por seus responsáveis.
- Geometrias GeoJSON distribuidas: optou-se por manter os dados filtrados em git, distribuidos de forma balanceada por quadrantes Geohash. Ver por exemplo as quadras de preservCutGeo-BR2021/tree/main/data/SP/SaoPaulo/_pk0033.01/block.