S3+Parquet（Hive 形式）vs S3 Tablesでクエリ速度がどうなるか4.32億レコードで検証！

はじめにこんにちは！ Amazon S3 Tables を利用して、データレイクを構築する機会がありました。最初は、「S3 + Parquet（Hive 形式）」を検討していましたが、特定のレコードを上書きしたいと思った時に、うまく実装することができませんでした。 S3 Tabl…

Amazon S3上のデータを分析するアーキテクチャ例~HiveとApache Iceberg比較~

AWS Glue Amazon S3 Amazon S3 Tables Apache Iceberg Apache Parquet Hive

サーバーワークスの村上です。今回はAmazon S3上にあるデータを外部テーブルとして分析する際、どのような方法があるか、主にHiveとApache Icebergを中心に比べてみました。想定シーンパターン一覧結論：Hive形式とApache Iceberg形式の比較扱うJSONデ…

データ分析データ分析基盤データ活用 Apache Apache Parquet

Parquet って何者？何が嬉しいの？ Amazon Athena について調べていると、「Parquet のような列指向形式でデータを保存するとクエリ効率を上げることができる」というような文言を目にしました。 Parquet 形式で保存すると列指向で速いんだなぁ。そんな程…