ORC (Optimized Row Columnar) est un format de fichier colonnaire auto-descriptif et sensible au type, conçu pour les charges de travail Hadoop. Il est optimisé pour le traitement et le stockage de données à grande échelle, offrant des améliorations significatives en termes de performance et d'efficacité de stockage par rapport aux formats traditionnels basés sur les lignes comme CSV ou les fichiers texte. Les fichiers ORC stockent les données dans un format colonnaire, ce qui permet une récupération efficace de colonnes spécifiques sans avoir à lire la ligne entière. Ceci est particulièrement bénéfique pour les requêtes analytiques qui ne nécessitent qu'un sous-ensemble des données. Le format prend également en charge diverses techniques de compression (par exemple, Zlib, Snappy, LZO) pour réduire l'espace de stockage et la surcharge d'E/S (Entrée/Sortie). De plus, les fichiers ORC incluent des métadonnées telles que des statistiques sur les données contenues dans chaque colonne, permettant aux optimiseurs de requêtes d'ignorer les blocs de données non pertinents et d'améliorer davantage les performances des requêtes. ORC est largement utilisé dans les écosystèmes de big data tels qu'Apache Hive, Apache Spark et Presto pour le stockage et le traitement de grands ensembles de données.