Apache Parquet
Pour les articles homonymes, voir Parquet.
Développé par | Apache Software Foundation |
---|---|
Première version | [1] |
Dépôt | git-wip-us.apache.org/repos/asf/parquet-mr.git |
Écrit en | Java |
Type | Projet de la fondation Apache (d) Format de fichier (en) |
Licence | Licence Apache 2.0 |
Documentation | parquet.apache.org/docs |
Site web | parquet.apache.org |
modifier - modifier le code - voir Wikidata (aide)
Extension | .parquet |
---|---|
Développé par | Apache Software Foundation |
Version initiale | , |
Site web | (en) parquet.apache.org |
modifier - modifier le code - modifier Wikidata
Apache Parquet est un format de fichiers orienté colonne, initialement développé pour l'écosystème de calcul distribué Apache Hadoop. Il est similaire aux autres formats de fichiers de stockage colonnaires disponibles dans Hadoop, à savoir RCFile et Optimized RCFile. Il est compatible avec la plupart des frameworks de traitement de données de l'environnement Hadoop. Il fournit des schémas efficaces de compression et de codage de données avec des performances améliorées pour gérer des données complexes en masse.
Historique
Le projet open source qui a abouti à Apache Parquet vient des efforts conjoints entre Twitter[2] et Cloudera[3]. La première version de Apache Parquet 1.0 sort en . Depuis le Apache Parquet devient un projet top-level de la Apache Software Foundation [4],[5]
Articles connexes
- Hadoop
- Apache Avro
- Impala (Cloudera)
- Apache Drill
- Apache Spark
- Apache ORC
Notes et références
- ↑ « https://projects.apache.org/json/projects/parquet.json » (consulté le )
- ↑ « Announcing Parquet 1.0 : Columnar Storage for Hadoop », sur twitter.com (consulté le ).
- ↑ (en) « Cloudera Blog - », sur Cloudera Blog (consulté le ).
- ↑ (en) « Apache Parquet paves the way for better Hadoop data storage », sur InfoWorld (consulté le ).
- ↑ (en) « The Apache Software Foundation Announces Apache™ Parquet™ as a Top-Level Project », sur The Apache Software Foundation Blog, (consulté le ).
- (en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Apache Parquet » (voir la liste des auteurs).
v · m Écosystème Hadoop | ||
---|---|---|
Distributions Hadoop | ||
Base de données | ||
Flux de données | ||
Interrogation | ||
Machine Learning | ||
SQL |
| |
Gestionnaire de cluster | ||
Format de fichier |
| |
Vrac |
|
- Portail des logiciels libres
- Portail des données