Apache Parquet: mudanças entre as edições

Edição das 13h25min de 10 de fevereiro de 2024

Apache Parquet é um formato de tabela SQL orientado a colunas, livre e de código aberto, do ecossistema Hadoop. Foi também o formato adotado pela Overture Maps Foundation para preservação, processamento e intercâmbio de dados.

É semelhante ao RCFile e ORC (também formatos de colunares do Hadoop), e é compatível com a maioria dos frameworks de processamento de dados em torno do Hadoop, como Hive e Spark. Ele oferece eficiente compressão de dados e esquemas de codificação com bom desempenho para lidar com tabelas Big Data complexas.

Uso com PostgreSQL

Os recursos mais citados são:

FDW, https://github.com/adjust/parquet_fdw
Driver JDBC adaptado como FOREGIN TABLE, https://github.com/pgspider/jdbc_fdw

Caso tenha problemas, para tradução em bash existe o pgpq].

Uso com Hive e Spark

External e Managed tables podem operar nativamente com Parquet no Hive.

Spark pode ler e escrever dataframes diretamente no Parquet.

Edição das 13h24min de 10 de fevereiro de 2024 (ver código-fonte) Peter (discussão \| contribs) Sem resumo de edição ← Edição anterior		Edição das 13h25min de 10 de fevereiro de 2024 (ver código-fonte) Peter (discussão \| contribs) m (→‎Uso com Hive e Spark) Edição posterior →
Linha 12:		Linha 12:
	External e Managed tables podem operar [https://cwiki.apache.org/confluence/display/Hive/Parquet#Parquet-NativeParquetSupport nativamente com Parquet no Hive].		External e Managed tables podem operar [https://cwiki.apache.org/confluence/display/Hive/Parquet#Parquet-NativeParquetSupport nativamente com Parquet no Hive].

	Spark pode ler e escrever ~~''dataframes'' diretamente no Parquet,~~ https://spark.apache.org/docs/latest/sql-data-sources-parquet.html		Spark pode ler e escrever [https://spark.apache.org/docs/latest/sql-data-sources-parquet.html ''dataframes'' diretamente no Parquet].