CNEFE: mudanças entre as edições

m
Linha 129: Linha 129:


select compl1, count(*) n_casos FROM (
select compl1, count(*) n_casos FROM (
   select ghs, array_agg(distinct nom_comp_elem1) compl1 from vw02_ibge_cnefe2022 group by 1 having count(*)>1
   select ghs9, array_agg(distinct nom_comp_elem1) compl1 from vw02_ibge_cnefe2022 group by 1 having count(*)>1
) t group by 1 order by 2 desc, 1;
) t group by 1 order by 2 desc, 1;
                      compl1                        | n_casos  
select compl, count(*) n_casos FROM (
------------------------------------------------------+---------
  select ghs10, array_agg(distinct coalesce(nom_comp_elem1,'')||coalesce(' '||nom_comp_elem2,'')) compl from vw02_ibge_cnefe2022 group by 1 having count(*)>1
  {NULL}                                               18184
) t group by 1 order by 2 desc, 1limit  10;
  {APARTAMENTO}                                       |   14736
        compl        | n_casos  
  {CASA}                                               |    8485
-----------------------+---------
  {FRENTE,FUNDOS}                                     |    5855
  {APARTAMENTO}         15620
{CASA,NULL}                                          |    4651
  {""}                 |   6945
  {BLOCO}                                             |    3873
  {CASA}               |    5642
  {FUNDOS,NULL}                                       |    2508
  {FRENTE,FUNDOS}       |    4616
  {FRENTE,NULL}                                       |    1331
  {"BLOCO APARTAMENTO"} |    3694
  {FUNDOS}                                             |   1111
  {"",FUNDOS}           |    1285
  {SOBRADO,TERREO}                                     |   1025
  {"",CASA}             |    1231
  {APARTAMENTO,NULL}                                   |    951
  {FUNDOS}             |     877
  {CASA,FUNDOS}                                        |     653
  {SOBRADO,TERREO}     |     821
  {"",FRENTE}           |    349
                total |   41080 = 5.4% de 762239; ou 10.6% de 389028.
</pre>
</pre>
{|class="wikitable"|
{|class="wikitable"|
|-
|-
Linha 166: Linha 167:
* Identificadores únicos: era esperada a unicidade em 100% dos registros, ou seja,  que ''n''=''n_cod_uend''. Houve, todavia, uma diferença de 0,6% (100% - 99,4%), devido a casos de repetição. O valor de contagens superiores a 1 resultou em média de 2,01±0,07; portanto maioria dos 9433 identificadores problemáticos tem apenas mais 1 outro domicílio apresentando mesmo identificador.
* Identificadores únicos: era esperada a unicidade em 100% dos registros, ou seja,  que ''n''=''n_cod_uend''. Houve, todavia, uma diferença de 0,6% (100% - 99,4%), devido a casos de repetição. O valor de contagens superiores a 1 resultou em média de 2,01±0,07; portanto maioria dos 9433 identificadores problemáticos tem apenas mais 1 outro domicílio apresentando mesmo identificador.


*  A contagem de ''n_latlon'', com apenas 51% ao invés de 100%, mostra a intensão do IBGE em incluir nos registros os casos de endereço horizontais iguais porém com complemento diferenciando, o que se confirma pelas contagens no perfil de ''compl1''.  A rigor o IBGE registrou "endereços domicíliares", não apenas "endereços de rua". Neste relatório denominaremos o primeiro de domicílio ('''dom''') e o segundo de endereço de fato ('''end''') ou ponto.
*  A contagem de ''n_latlon'', com apenas 51% ao invés de 100%, mostra a intensão do IBGE em incluir nos registros os casos de endereço horizontais iguais porém com complemento diferenciando, o que se confirma pelas contagens no perfil dos complementos (vide amostragem ''compl1'' e ''compl2'' em ~11% dos casos de ''n_latlon'').  A rigor o IBGE registrou "endereços domicíliares", não apenas "endereços de rua". Neste relatório denominaremos o primeiro de domicílio ('''dom''') e o segundo de endereço de fato ('''end''') ou ponto.


*  A contagem de ''n_ghs9'' fez uso de Geohashes de 9 dígitos, garantindo a precisão da ordem de 5 metros, ou seja, superior ao erro de GPS da núvem de pontos. A contagem ''n_ghs9'' resultou em 46%, bem longe dos 51% de ''n_latlon'', gerando talvez duplicidade maior do que esperada. Como a precisão é variável (depende dos satélites GPS e do [https://www.youtube.com/watch?v=AVW40YB3v2s tempo de espera do agente]), sugere-se usar ''ghs10'' ou manter o ponto original e só depois do translado para a face de quadra (que aumenta a precisão) fazer a contagem de Geohashes ''ghs10''.
*  A contagem de ''n_ghs9'' fez uso de Geohashes de 9 dígitos, garantindo a precisão da ordem de 5 metros, ou seja, superior ao erro de GPS da núvem de pontos. A contagem ''n_ghs9'' resultou em 46%, bem longe dos 51% de ''n_latlon'', gerando talvez duplicidade maior do que esperada. Como a precisão é variável (depende dos satélites GPS e do [https://www.youtube.com/watch?v=AVW40YB3v2s tempo de espera do agente]), sugere-se usar ''ghs10'' ou manter o ponto original e só depois do translado para a face de quadra (que aumenta a precisão) fazer a contagem de Geohashes ''ghs10''.
Linha 209: Linha 210:
Conclusão: como queremos filtrar até o nível de pontos únicos, há garantia de 99,9% dos endereços em condição adequada (tipos 1 ou 2).
Conclusão: como queremos filtrar até o nível de pontos únicos, há garantia de 99,9% dos endereços em condição adequada (tipos 1 ou 2).


=== Filtragens ===
As filtragens seguem o seguinte passo a passo:
As filtragens seguem o seguinte passo a passo:


2 402

edições