Apache Parquet ist ein spaltenorientiertes Speicherformat, das für die Verwendung mit Big-Data-Verarbeitungsframeworks optimiert ist. Im Gegensatz zu zeilenorientierten Formaten speichert Parquet Daten spaltenweise, was eine effiziente Datenkomprimierung und -kodierung ermöglicht. Diese spaltenorientierte Speicherung erlaubt es Abfrage-Engines, nur die für eine gegebene Abfrage notwendigen Spalten abzurufen, wodurch E/A (Input/Output) erheblich reduziert und die Abfrageleistung verbessert wird. Parquet ist so konzipiert, dass es selbstdokumentierend ist, was bedeutet, dass das Schema in der Datendatei selbst eingebettet ist. Dies eliminiert die Notwendigkeit externer Metadaten-Speicher und vereinfacht die Datenverwaltung. Es unterstützt eine breite Palette von Datentypen und komplexen verschachtelten Strukturen. Parquet wird häufig in Data Warehousing, Data Lakes und anderen Big-Data-Anwendungen eingesetzt, bei denen eine effiziente Datenspeicherung und -abfrage entscheidend sind. Seine Integration mit beliebten Frameworks wie Apache Spark, Hadoop und Presto macht es zu einer vielseitigen Wahl für Datenverarbeitungspipelines. Das Format ist sowohl für Lese- als auch für Schreibvorgänge konzipiert, wird jedoch häufig in Szenarien verwendet, in denen Daten einmal geschrieben und mehrmals gelesen werden (Write-Once, Read-Many).