Apache Parquet

Amazon S3上のデータを分析するアーキテクチャ例~HiveとApache Iceberg比較~

サーバーワークスの村上です。 今回はAmazon S3上にあるデータを外部テーブルとして分析する際、どのような方法があるか、主にHiveとApache Icebergを中心に比べてみました。 想定シーン パターン一覧 結論:Hive形式 とApache Iceberg形式の比較 扱うJSONデ…

Parquet とは何なのか。その真価は不要なデータを読み飛ばせることにあり

Parquet って何者? 何が嬉しいの? Amazon Athena について調べていると、「Parquet のような列指向形式でデータを保存するとクエリ効率を上げることができる」というような文言を目にしました。 Parquet 形式で保存すると列指向で速いんだなぁ。 そんな程…