データ分析基盤

Databricks CLI のインストール手順

データドリブンな人間を目指している香取です。 今回はタイトルの通り、Databricks のコマンドラインツールである Databricks CLI をインストールして Databricks ワークスペースに接続するまでの方法を紹介します。 Databricks CLI を使用すると、ターミナ…

Databricks から BigQuery に接続する

データドリブンな人間を目指している香取です。 今回は Databricks on AWS から BigQuery のデータに接続する方法について解説します。 はじめに Databricks では レイクハウスフェデレーション 機能を使って、BigQuery のデータに直接クエリを実行できます…

ETL と ELT の違い - サービス選定時の考慮事項

データドリブンな人間を目指している香取です。 データ分析の世界でよく耳にする「ETL」と「ELT」。ELT の方がモダンでイケてるんでしょ?くらいに思っていたのですが、それぞれ違いやサービス選定時の考慮事項を改めて整理してみました。 ETL と ELT とは?…

【初心者向け】Snowflake のステージについて整理して実際に試してみる

はじめに データドリブンな人間を目指している香取です。 Snowflake を使っていると、データのアップロード時に「内部ステージ」「外部ステージ」という概念に出会うことがあります。 どちらがどう違って、どのように使い分けるのか、理解できていなかったの…

SnowSQL をインストールして Snowflake アカウントに接続する (MFA 対応)

はじめに データドリブンな人間を目指している香取です。 今回はタイトルの通り、Snowflake のコマンドラインツールである SnowSQL をインストールして Snowflake アカウントに接続するまでの方法を紹介します。 個人的に MFA 設定の部分でつまずいたので記…

【もう迷わない】ファイル圧縮形式の特徴と選び方 : zip、gzip から Zstd、Brotli まで9種類を徹底比較【コマンドチートシート付】

はじめに zip、gzip、Bzip2、Snappy、Zstd、Brotli などなどなど... この世には数多のファイル圧縮形式が存在しますが、どれを使うべきか迷うことはありませんか? それぞれどんな特徴があり、どんな場面で使うのが適しているのか。 そんな疑問に答えるため…

Parquet とは何なのか。その真価は不要なデータを読み飛ばせることにあり

Parquet って何者? 何が嬉しいの? Amazon Athena について調べていると、「Parquet のような列指向形式でデータを保存するとクエリ効率を上げることができる」というような文言を目にしました。 Parquet 形式で保存すると列指向で速いんだなぁ。 そんな程…