2 583
edições
(view2 corrigida) |
|||
Linha 11: | Linha 11: | ||
* ntot_geral=111102875; <code>select count(*) ntot_geral from ibge_pontos;</code> | * ntot_geral=111102875; <code>select count(*) ntot_geral from ibge_pontos;</code> | ||
** reduzido para 110744837 depois do filtro1. | |||
Alvo: apenas endereços | |||
<syntaxhighlight lang="sql" style="font-size: 80%;"> | |||
-- drop view ibge_pontos2 cascade; | |||
Create view ibge_pontos2 as | |||
SELECT cod_unico_endereco::bigint as gid, | |||
COD_MUNICIPIO AS jurisdic_id, CEP, DSC_LOCALIDADE AS nsvia, | |||
CASE WHEN NOM_TIPO_SEGLOGR = 'EDF' THEN '' | |||
ELSE COALESCE(NOM_TIPO_SEGLOGR,'') || ' ' || COALESCE(NOM_TITULO_SEGLOGR,'') || ' ' || COALESCE(NOM_SEGLOGR,'') | |||
END AS via, | |||
NUM_ENDERECO as hnum, | |||
ST_SetSRID(ST_MakePoint(LONGITUDE::float,LATITUDE::float),4326) AS geom | |||
FROM ibge_pontos; | |||
</syntaxhighlight> | |||
* a condição <code>NOM_TIPO_SEGLOGR = 'EDF'</code> ocorre para ~1% do total (~1.270.000 casos). É significativo, foi uma decisão falha CNEFE. Estamos descartando até entender melhor como proceder. | |||
* COD_SETOR e NUM_FACE serão substitutos do CEP quando este falhar (tipicamente em cidades com cep unico). Uma alternativa mais segura seria truncando o Geohash, visto que todos eles são meramente para reduzir o risco de rua duplicada. | |||
== Filtros na origem == | == Filtros na origem == | ||
Linha 55: | Linha 72: | ||
'''Filtro 2''': eliminação dos endereços com nome de rua nulo. Por definição sem o nome de rua não temos endereço, portanto, como neste momento não tentaremos interpolar ou fazer inferência por outras fontes, a melhor estratégia é remover a informação expúria. | '''Filtro 2''': eliminação dos endereços com nome de rua nulo. Por definição sem o nome de rua não temos endereço, portanto, como neste momento não tentaremos interpolar ou fazer inferência por outras fontes, a melhor estratégia é remover a informação expúria. | ||
: Nota sobre Uso do Geohash6 na não-duplicação de nome de rua. [https://www.movable-type.co.uk/scripts/geohash.html movable/geohash] estima que Ghs6 tem ~1km2 e Ghs5 da ordem de 25km2. Ghs6 mellhor para pequenos municípios, dentro ou abaixo da mediana Brasil. <code>select PERCENTILE_CONT(0.5) WITHIN GROUP(ORDER BY round(sqrt((info->'area_km2')::float)) ) sqside_km_mdn from optim.jurisdiction where jurisd_base_id=76 and isolevel=3 ; -- 20km </code>. |
edições