Apache Parquet: mudanças entre as edições

De Documentação
(Criou página com ''''Apache Parquet''' é um formato de tabela SQL orientado a colunas, livre e de código aberto, do ecossistema Hadoop. Foi também o formato adotado pela Overture Maps Foundation para preservação, processamento e intercâmbio de dados. É semelhante ao RCFile e ORC (também formatos de colunares do Hadoop), e é compatível com a maioria...')
 
Sem resumo de edição
Linha 1: Linha 1:
'''Apache Parquet''' é um formato de [[wikipedia:SQL|tabela SQL]] [[wikipedia:Column-oriented DBMS|orientado a colunas]], livre e de código aberto, do ecossistema [[wikipedia:Apache Hadoop|Hadoop]]. Foi também o formato adotado pela [[Overture Maps Foundation]] para preservação, processamento e intercâmbio de dados.
'''Apache Parquet''' é um formato de [[wikipedia:SQL|tabela SQL]] [[wikipedia:Column-oriented DBMS|orientado a colunas]], livre e de código aberto, do ecossistema [[wikipedia:Apache Hadoop|Hadoop]]. Foi também o formato adotado pela [[Overture Maps Foundation]] para preservação, processamento e intercâmbio de dados.


É semelhante ao [[wikipedia:RCFile|RCFile]] e [[wikipedia:Apache ORC|ORC]] (também  formatos de colunares do Hadoop), e é compatível com a maioria dos ''frameworks'' de processamento de dados em torno do Hadoop, como Hive, HBase e Spark. Ele oferece eficiente compressão de dados e esquemas de codificação com bom desempenho  para lidar com tabelas Big Data complexas.
É semelhante ao [[wikipedia:RCFile|RCFile]] e [[wikipedia:Apache ORC|ORC]] (também  formatos de colunares do Hadoop), e é compatível com a maioria dos ''frameworks'' de processamento de dados em torno do Hadoop, como [[wikipedia:Apache Hive|Hive]] e [[wikipedia:Apache Spark|Spark]]. Ele oferece eficiente compressão de dados e esquemas de codificação com bom desempenho  para lidar com tabelas Big Data complexas.
 
== Uso com PostgreSQL ==
Os recursos mais citados são:
* '''FDW''', https://github.com/adjust/parquet_fdw
* Driver '''JDBC''' adaptado como FOREGIN TABLE, https://github.com/pgspider/jdbc_fdw
Caso tenha problemas, para tradução em ''bash'' existe o [https://github.com/adriangb/pgpq pgpq]].
 
== Uso com Hive e Spark ==
External e Managed tables podem operar [https://cwiki.apache.org/confluence/display/Hive/Parquet#Parquet-NativeParquetSupport nativamente com Parquet no Hive].
 
Spark pode ler e escrever ''dataframes'' diretamente no Parquet, https://spark.apache.org/docs/latest/sql-data-sources-parquet.html

Edição das 13h24min de 10 de fevereiro de 2024

Apache Parquet é um formato de tabela SQL orientado a colunas, livre e de código aberto, do ecossistema Hadoop. Foi também o formato adotado pela Overture Maps Foundation para preservação, processamento e intercâmbio de dados.

É semelhante ao RCFile e ORC (também formatos de colunares do Hadoop), e é compatível com a maioria dos frameworks de processamento de dados em torno do Hadoop, como Hive e Spark. Ele oferece eficiente compressão de dados e esquemas de codificação com bom desempenho para lidar com tabelas Big Data complexas.

Uso com PostgreSQL

Os recursos mais citados são:

Caso tenha problemas, para tradução em bash existe o pgpq].

Uso com Hive e Spark

External e Managed tables podem operar nativamente com Parquet no Hive.

Spark pode ler e escrever dataframes diretamente no Parquet, https://spark.apache.org/docs/latest/sql-data-sources-parquet.html