Apache Parquet: mudanças entre as edições

Edição das 14h04min de 10 de fevereiro de 2024

Apache Parquet é um formato de tabela SQL orientado a colunas, livre e de código aberto, do ecossistema Hadoop. Foi também o formato adotado pela Overture Maps Foundation para preservação, processamento e intercâmbio de dados.

É semelhante ao RCFile e ORC (também formatos de colunares do Hadoop), e é compatível com a maioria dos frameworks de processamento de dados em torno do Hadoop, como Hive e Spark. Ele oferece eficiente compressão de dados e esquemas de codificação com bom desempenho para lidar com tabelas Big Data complexas.

Uso com PostgreSQL

Os recursos mais citados são:

FDW, https://github.com/adjust/parquet_fdw
Driver JDBC adaptado como FOREGIN TABLE, https://github.com/pgspider/jdbc_fdw

Caso tenha problemas, para tradução em bash existe o pgpq. No caso da OvertureMaps que disponibiliza para os seus membros o Parquet file on Amazon S3, a melhor opção é o driver JDBC.

Recomenda-se fazer preservação digital com Parquet, ver artigo Parquet and Postgres in the Data Lake.

Uso com Hive e Spark

External e Managed tables podem operar nativamente com Parquet no Hive.

Spark pode ler e escrever dataframes diretamente no Parquet.

@@ Linha 8: / Linha 8: @@
 * Driver '''JDBC''' adaptado como FOREGIN TABLE, https://github.com/pgspider/jdbc_fdw
-Caso tenha problemas, para tradução em ''bash'' existe o [https://github.com/adriangb/pgpq pgpq]]. No caso da [[OvertureMaps]] que disponibiliza para os seus membros o ''Parquet file on Amazon S3'', a melhor opção é o driver JDBC.
+Caso tenha problemas, para tradução em ''bash'' existe o [https://github.com/adriangb/pgpq pgpq]. No caso da [[OvertureMaps]] que disponibiliza para os seus membros o ''Parquet file on Amazon S3'', a melhor opção é o driver JDBC.
+Recomenda-se fazer preservação digital com Parquet, ver artigo [https://www.crunchydata.com/blog/parquet-and-postgres-in-the-data-lake Parquet and Postgres in the Data Lake].
 == Uso com Hive e Spark ==