データ活用

【資料公開】身近なCSVを活用する!AWSのデータ分析基盤アーキテクチャ

データ分析基盤構築に興味がある方必見!AWSサービスを活用した実践的なウェビナー資料とデモ環境を公開。

データ分析における列指向形式(Parquet)を理解する

はじめに こんにちは、山本です。 今回はAWS資格の一つであるDEA(Data Engineering Associate)の学習中に気になった「列指向形式」データの概要やメリット・デメリットについてお話しします。 私と同じようにAWSの資格を勉強している方にとっての手助けにな…

ETL と ELT の違い - サービス選定時の考慮事項

データドリブンな人間を目指している香取です。 データ分析の世界でよく耳にする「ETL」と「ELT」。ELT の方がモダンでイケてるんでしょ?くらいに思っていたのですが、それぞれ違いやサービス選定時の考慮事項を改めて整理してみました。 ETL と ELT とは?…

【初心者向け】Snowflake のステージについて整理して実際に試してみる

はじめに データドリブンな人間を目指している香取です。 Snowflake を使っていると、データのアップロード時に「内部ステージ」「外部ステージ」という概念に出会うことがあります。 どちらがどう違って、どのように使い分けるのか、理解できていなかったの…

SnowSQL をインストールして Snowflake アカウントに接続する (MFA 対応)

はじめに データドリブンな人間を目指している香取です。 今回はタイトルの通り、Snowflake のコマンドラインツールである SnowSQL をインストールして Snowflake アカウントに接続するまでの方法を紹介します。 個人的に MFA 設定の部分でつまずいたので記…

【もう迷わない】ファイル圧縮形式の特徴と選び方 : zip、gzip から Zstd、Brotli まで9種類を徹底比較【コマンドチートシート付】

はじめに zip、gzip、Bzip2、Snappy、Zstd、Brotli などなどなど... この世には数多のファイル圧縮形式が存在しますが、どれを使うべきか迷うことはありませんか? それぞれどんな特徴があり、どんな場面で使うのが適しているのか。 そんな疑問に答えるため…

Parquet とは何なのか。その真価は不要なデータを読み飛ばせることにあり

Parquet って何者? 何が嬉しいの? Amazon Athena について調べていると、「Parquet のような列指向形式でデータを保存するとクエリ効率を上げることができる」というような文言を目にしました。 Parquet 形式で保存すると列指向で速いんだなぁ。 そんな程…