Apache Parquet

S3+Parquet(Hive 形式)vs S3 Tablesでクエリ速度がどうなるか4.32億レコードで検証!

はじめに こんにちは! Amazon S3 Tables を利用して、データレイクを構築する機会がありました。 最初は、「S3 + Parquet(Hive 形式)」を検討していましたが、特定のレコードを上書きしたいと思った時に、うまく実装することができませんでした。 S3 Tabl…

Amazon S3上のデータを分析するアーキテクチャ例~HiveとApache Iceberg比較~

サーバーワークスの村上です。 今回はAmazon S3上にあるデータを外部テーブルとして分析する際、どのような方法があるか、主にHiveとApache Icebergを中心に比べてみました。 想定シーン パターン一覧 結論:Hive形式 とApache Iceberg形式の比較 扱うJSONデ…

Parquet とは何なのか。その真価は不要なデータを読み飛ばせることにあり

Parquet って何者? 何が嬉しいの? Amazon Athena について調べていると、「Parquet のような列指向形式でデータを保存するとクエリ効率を上げることができる」というような文言を目にしました。 Parquet 形式で保存すると列指向で速いんだなぁ。 そんな程…