dg:Sobre: mudanças entre as edições

m
Sem resumo de edição
 
(14 revisões intermediárias por 2 usuários não estão sendo mostradas)
Linha 1: Linha 1:
* Texto original: https://github.com/digital-guard/preserv/blob/main/README.md
{{Dg info}}
Página que descreve o projeto [[Documentação Digital-guard|Digital-guard]], seus produtos e serviços.
Página que descreve o projeto [[Documentação Digital-guard|Digital-guard]], seus produtos e serviços.


Original: https://github.com/digital-guard/preserv/blob/main/README.md
O presente projeto, batizado de '''Digital-guard/Preserv''', consiste no núcleo de software e metadados do projeto de [https://en.wikipedia.org/wiki/Digital_preservation preservação digital] de fontes primárias de dados, organizados e mantidos pelo [http://addressforall.org/pt/statutes/ '''Instituto ITGS'''].
 
== Preservação dos dados primários ==


----
A responsabilidade sobre os dados é dividida entre o Instituto ITGS e a curadoria local de uma jurisdição, tipicamente um país. A jurisdição <code>BR</code>, por exemplo, é relativa ao Brasil e seu repositório ''git'' é o [http://git.digital-guard.org/preserv-BR preserv-BR].


<!-- olds digGuard-logoSmall.180px.png  icon-DigitalGuard-transp2.262px.png--><img align="right" src="docs/assets/icon-DigitalGuard3.180px.png">
As ''curadorias locais'' selecionam quais dados devem ser preservados e quais os critérios mínimos de qualidade para que um pacote de dados possa ser incorporado ao acervo de preservação.


== Preserv ==
Os dados brutos (fontes originais), por serem arquivos grandes e de baixa demanda, são mantidos em "discos frios" e armazenamento externo seguro. Seus metadados, todavia, são mantidos no ''git'' da respectiva jurisdição.


O presente projeto, batizado de '''Digital-guard/Preserv''', consiste no núcleo de software e metadados do projeto de [https://en.wikipedia.org/wiki/Digital_preservation preservação digital] de fontes primárias de dados, organizados e mantidos pelo [http://addressforall.org/estatuto '''Instituto ITGS'''].
=== Coleta persistente ===
Em situação de coleta periódica há garantia de atualização, através de um ''Service Level Agreement'' (SLA) implícito ou explicito, e através de uma API padronizada. O [https://en.wikipedia.org/wiki/Web_Feature_Service padrão WFS] equivale a um "''download'' fresquinho a todo momento", e garante a coleta padronizada das colunas desejadas (já filtradas), mesmo depois de alterações no servidor de origem.


=== Preservação dos dados primários ===
A maturidade digital de uma fonte primária depende da sua capacidade de se atualizar periodicamente e sem custo, ou seja, através de padrões tais como WFS.  Apesar de não serem alvo original da AddressForAll, o assunto foi retomado na [https://github.com/digital-guard/preserv-BR/issues/186 ''issue'' #186 do Preserv-BR].  Características:


A responsabilidade sobre os dados é dividida entre o Instituto ITGS e a curadoria local de uma jurisdição, tipicamente um país. A jurisdição <code>BR</code>, por exemplo, é relativa ao Brasil e seu repositório ''git'' é o [http://git.digital-guard.org/preserv-BR preserv-BR].
* Tem um [[wikipedia:Persistent uniform resource locator|URL Persistente]] (PURL) confiável, dispensando a preservação digital periódica (apenas amostras de valor jurídico para a licença).
* Tem uma API padronizada, tipicamente WFS.
* Oferece um SLA para a estimativa consistente de "período de recoleta".
 
PS: tecnicamente a coleta periódica, por exemplo [[Openaddressess.io]], pode ser implementada com [[dg:Guia do make conf|make_conf]], o inverso é que não é válido.
 
=== Coleta efêmera ===
São eventos que dependem da iniciativa de alguém "solicitar e buscar os dados", tipicamente por e-mail. No caso de oferta via Web, na situação de "coleta efêmera" não há garantia de durabilidade do ''endpoint'' nem do padrão estrutural adotado.


As ''curadorias locais'' selecionam quais dados devem ser preservados e quais os critérios mínimos de qualidade para que um pacote de dados possa ser incorporado ao acervo de preservação.
A maior parte dos dados brutos obtidos pela AddressForAll foram advindos de coleta efêmera. Ainda assim existe o pontencial de recorrência, do doador repetir doações com dados mais atualizados e dentro do mesmo esquema. Com voto de confiança nos doadores e seu pontencial de recorrência a AddressForAll instituiu o [[dg:Guia do make conf|make_conf]], que garante a simplicidade e baixo custo de repetição dos eventos de coleta efêmera. Características:


Os dados brutos (fontes originais), por serem arquivos grandes e de baixa demanda, são mantidos em &quot;discos frios&quot; e armazenamento externo seguro. Seus metadados, todavia, são mantidos no ''git'' da respectiva jurisdição.
* Não tem ''endpoint'' ou, quando existe, não é um [[wikipedia:Persistent uniform resource locator|URL Persistente]] (PURL) confiável, requerendo preservação digital de cada coleta (para garantia de reprodutibilidade da comprovação jurídica da licença).
* Não tem  API ou  download  padronizado, tipicamente e-mail.
* Não oferece um SLA para coleta periódica, nem sequer para a próxima coleta.


=== Repositórios de produtos ===
== Repositórios de produtos ==


Os dados de diversas fontes são comparados estatisticamente e consolidados pela infraestrutura do Instituto ITGS. Os resultados finais da consolidação são dados confiáveis, oferecidos ao público como &quot;versão teste&quot; (''testing'') e &quot;versão estável&quot; (''stable''). São de responsabilidade apenas do Instituto, mas o controle de versões é mantido com a mesma divisão de jurisdições que as fontes.
Os dados de diversas fontes são comparados estatisticamente e consolidados pela infraestrutura do Instituto ITGS. Os resultados finais da consolidação são dados confiáveis, oferecidos ao público como &quot;versão teste&quot; (''testing'') e &quot;versão estável&quot; (''stable''). São de responsabilidade apenas do Instituto, mas o controle de versões é mantido com a mesma divisão de jurisdições que as fontes.
Linha 31: Linha 47:
Os metadados garantem a rastreabilidade tanto da fonte como da licença fornecida. São metadados de [https://en.wikipedia.org/wiki/Provenance#Data_provenance proveniência], conforme a estrutura ilustrada abaixo:
Os metadados garantem a rastreabilidade tanto da fonte como da licença fornecida. São metadados de [https://en.wikipedia.org/wiki/Provenance#Data_provenance proveniência], conforme a estrutura ilustrada abaixo:


[[File:docs/assets/packModel.png]]
[[Arquivo:Dg-PackModel.png|centro|semmoldura|480x480px]]


A entrega de dados brutos pode ser realizada arquivo por arquivo ou &quot;em lote&quot;, ambas pelo ''técnico responsável'' devidamente autenticado. A entrega em lote é realizada por protocolo SFTP, no ambiente apelidado de Eclusa.
A entrega de dados brutos pode ser realizada arquivo por arquivo ou &quot;em lote&quot;, ambas pelo ''técnico responsável'' devidamente autenticado. A entrega em lote é realizada por protocolo SFTP, no ambiente apelidado de Eclusa.


<img align="right" src="docs/assets/eclusa123-ico.200x.png">
Todo o workflow e garantia de geração de ''hash'' é efetuado pela Eclusa.
[[Arquivo:Eclusa123-ico.png|direita|semmoldura|100x100px]]


Todo o workflow e garantia de geração de ''hash'' é efetuado pela Eclusa.
== Códigos-fonte da Eclusa e demais softwares ==


=== Códigos-fonte da Eclusa e demais softwares ===
Ver [https://github.com/digital-guard/preserv/blob/main/src src].


Ver [[src|/src]].
== Ligações externas ==
* [https://github.com/digital-guard/preserv/blob/main/LICENSE Licença]


[[Categoria:Digital-guard]]
[[Categoria:Digital-guard]]
4

edições