ORC (Optimized Row Columnar) 是一种专为 Hadoop 工作负载设计的自描述、具备类型感知能力的列式存储文件格式。它针对大规模数据处理和存储进行了深度优化,与 CSV 或文本文件等传统的行式存储格式相比,在性能和存储效率方面均有显著提升。ORC 文件采用列式存储结构,允许在不读取整行数据的情况下高效检索特定列,这对于仅需处理数据子集的分析型查询尤为有利。该格式支持多种压缩技术(如 Zlib、Snappy、LZO),能够有效减少存储空间占用并降低 I/O 开销。此外,ORC 文件包含丰富的元数据,例如各列数据的统计信息,这使得查询优化器能够跳过无关的数据块,从而进一步提升查询性能。目前,ORC 已被广泛应用于 Apache Hive、Apache Spark 和 Presto 等大数据生态系统中,用于存储和处理海量数据集。