dg:Convenções/Armazenamento de dados: mudanças entre as edições
(→Link eterno: Add tag pre.) |
(Troca github.com por git.digital-guard.org) |
||
Linha 6: | Linha 6: | ||
Por exemplo, os dados [https:// | Por exemplo, os dados [https://git.digital-guard.org/preserv-BR/tree/main/data/SP/SaoPaulo/_pk0033.01#-parcel sobre lotes doados pela prefeitura de São Paulo] possuem o link eterno: | ||
https://dl.digital-guard.org/bae2054448855305db0fc855d2852cd5a7b369481cc03aeb809a0c3c162a2c04.zip | https://dl.digital-guard.org/bae2054448855305db0fc855d2852cd5a7b369481cc03aeb809a0c3c162a2c04.zip | ||
Linha 18: | Linha 18: | ||
O projeto utiliza serviços de armazenamento em nuvem para hospedar arquivos. Foi convencionado que a correspondência entre sha256 e link do arquivo no armazenamento seja feita em | O projeto utiliza serviços de armazenamento em nuvem para hospedar arquivos. Foi convencionado que a correspondência entre sha256 e link do arquivo no armazenamento seja feita em | ||
https:// | https://git.digital-guard.org/preserv/blob/main/data/redirs/fromDL_toFileServer.csv | ||
e que novas entradas no arquivo sejam sempre adicionadas ao final do arquivo. | e que novas entradas no arquivo sejam sempre adicionadas ao final do arquivo. | ||
Linha 28: | Linha 28: | ||
! campo !! descrição !! exemplo | ! campo !! descrição !! exemplo | ||
|- | |- | ||
| donor_id || Id do doador, formado por [https://en.wikipedia.org/wiki/ISO_3166-1_numeric ISO 3166 numérico] * 1000000 + ''local_id'' de donor.csv || 76000026 (local_id em [https:// | | donor_id || Id do doador, formado por [https://en.wikipedia.org/wiki/ISO_3166-1_numeric ISO 3166 numérico] * 1000000 + ''local_id'' de donor.csv || 76000026 (local_id em [https://git.digital-guard.org/preserv-BR/blob/main/data/donor.csv#L27 donor.csv]) | ||
|- | |- | ||
| filename_original || Nome original do arquivo. || address_for_all.zip | | filename_original || Nome original do arquivo. || address_for_all.zip | ||
Linha 39: | Linha 39: | ||
|} | |} | ||
O exemplo citado na tabela se encontra na [https:// | O exemplo citado na tabela se encontra na [https://git.digital-guard.org/preserv/blob/main/data/redirs/fromDL_toFileServer.csv#L601 linha 601] [https://git.digital-guard.org/preserv/blob/main/data/redirs/fromDL_toFileServer.csv fromDL_toFileServer.csv]. | ||
== O que fazer após atualizar fromDL_toFileServer.csv == | == O que fazer após atualizar fromDL_toFileServer.csv == | ||
Atualizar [https:// | Atualizar [https://git.digital-guard.org/preserv/blob/main/data/redirs/fromDL_toFileServer.csv fromDL_toFileServer.csv] '''não atualiza automaticamente''' o ''datalake'' em produção. Para atualiza-lo, executar os comandos: | ||
<pre> | <pre> |
Edição das 14h47min de 25 de maio de 2023
Link eterno
O projeto Digital-guard disponibiliza os dados preservados por meio de links eternos no formato default:
https://dl.digital-guard.org/<sha256>.<extensão>
Por exemplo, os dados sobre lotes doados pela prefeitura de São Paulo possuem o link eterno:
https://dl.digital-guard.org/bae2054448855305db0fc855d2852cd5a7b369481cc03aeb809a0c3c162a2c04.zip
Sem perda de unicidade, o mesmo arquivo pode ser obtido usando pelo menos os 6 primeiros caracteres do sha256:
https://dl.digital-guard.org/bae205
Nuvem e redirecionamento
O projeto utiliza serviços de armazenamento em nuvem para hospedar arquivos. Foi convencionado que a correspondência entre sha256 e link do arquivo no armazenamento seja feita em
https://git.digital-guard.org/preserv/blob/main/data/redirs/fromDL_toFileServer.csv
e que novas entradas no arquivo sejam sempre adicionadas ao final do arquivo.
Tal arquivo possui os seguintes campos:
campo | descrição | exemplo |
---|---|---|
donor_id | Id do doador, formado por ISO 3166 numérico * 1000000 + local_id de donor.csv | 76000026 (local_id em donor.csv) |
filename_original | Nome original do arquivo. | address_for_all.zip |
package_path | Caminho do pacote na estrutura do repositório. | BR/data/SP/Limeira/_pk0026.01 |
de_sha256 | Arquivo renomeado com o sha256 e extensão. | 529f86b71a936bfdbca3d633b80912f496b9c94a2505ef816e406e2362b631c4.zip |
para_url | Url do arquivo no serviço de armazenamento. | https://addressforall-my.sharepoint.com/personal/operacao_addressforall_org/_layouts/15/download.aspx?share=EYWIOsxWFpJFsa0X4zKalS8BbEaKtHVuyezvIbN2CdJljw |
O exemplo citado na tabela se encontra na linha 601 fromDL_toFileServer.csv.
O que fazer após atualizar fromDL_toFileServer.csv
Atualizar fromDL_toFileServer.csv não atualiza automaticamente o datalake em produção. Para atualiza-lo, executar os comandos:
cd /var/gits/_dg/dg/preserv git pull cd /var/gits/_dg/preserv/src make redirects_update pg_datalake=dl05s_main