データ分析基盤
データドリブンな人間を目指している香取です。 今回はタイトルの通り、Databricks のコマンドラインツールである Databricks CLI をインストールして Databricks ワークスペースに接続するまでの方法を紹介します。 Databricks CLI を使用すると、ターミナ…
データドリブンな人間を目指している香取です。 今回は Databricks on AWS から BigQuery のデータに接続する方法について解説します。 はじめに Databricks では レイクハウスフェデレーション 機能を使って、BigQuery のデータに直接クエリを実行できます…
データドリブンな人間を目指している香取です。 データ分析の世界でよく耳にする「ETL」と「ELT」。ELT の方がモダンでイケてるんでしょ?くらいに思っていたのですが、それぞれ違いやサービス選定時の考慮事項を改めて整理してみました。 ETL と ELT とは?…
はじめに データドリブンな人間を目指している香取です。 Snowflake を使っていると、データのアップロード時に「内部ステージ」「外部ステージ」という概念に出会うことがあります。 どちらがどう違って、どのように使い分けるのか、理解できていなかったの…
はじめに データドリブンな人間を目指している香取です。 今回はタイトルの通り、Snowflake のコマンドラインツールである SnowSQL をインストールして Snowflake アカウントに接続するまでの方法を紹介します。 個人的に MFA 設定の部分でつまずいたので記…
はじめに zip、gzip、Bzip2、Snappy、Zstd、Brotli などなどなど... この世には数多のファイル圧縮形式が存在しますが、どれを使うべきか迷うことはありませんか? それぞれどんな特徴があり、どんな場面で使うのが適しているのか。 そんな疑問に答えるため…
Parquet って何者? 何が嬉しいの? Amazon Athena について調べていると、「Parquet のような列指向形式でデータを保存するとクエリ効率を上げることができる」というような文言を目にしました。 Parquet 形式で保存すると列指向で速いんだなぁ。 そんな程…