データ分析

Salesforceの商談データをAmazon Quickでダッシュボード化&自然言語Q&Aまでやってみた

今回の構成 Amazon Quick と Salesforce の接続手順 注意:接続用の専用アカウントを用意する Salesforce 商談データを分析できる形に整える(計算フィールド設計) 分析に必要な値は計算フィールドで作成する データの同期はリアルタイムではない データセ…

AWSでデータ基盤にOLTPデータベースを統合するための設計ガイド

さとうです。 最近データ基盤のOLAPとOLTPについて考えることが増えてきたので記事にしました。 趣旨はタイトル通り、「OLTPデータベースをデータ基盤に取り込むためにはどうしたらいいか?」という課題に対する設計パターンのまとめです。 OLTPとOLAPについ…

データ分析における列指向形式(Parquet)を理解する

はじめに こんにちは、山本です。 今回はAWS資格の一つであるDEA(Data Engineering Associate)の学習中に気になった「列指向形式」データの概要やメリット・デメリットについてお話しします。 私と同じようにAWSの資格を勉強している方にとっての手助けにな…

【初心者向け】Snowflake のステージについて整理して実際に試してみる

はじめに データドリブンな人間を目指している香取です。 Snowflake を使っていると、データのアップロード時に「内部ステージ」「外部ステージ」という概念に出会うことがあります。 どちらがどう違って、どのように使い分けるのか、理解できていなかったの…

SnowSQL をインストールして Snowflake アカウントに接続する (MFA 対応)

はじめに データドリブンな人間を目指している香取です。 今回はタイトルの通り、Snowflake のコマンドラインツールである SnowSQL をインストールして Snowflake アカウントに接続するまでの方法を紹介します。 個人的に MFA 設定の部分でつまずいたので記…

【もう迷わない】ファイル圧縮形式の特徴と選び方 : zip、gzip から Zstd、Brotli まで9種類を徹底比較【コマンドチートシート付】

はじめに zip、gzip、Bzip2、Snappy、Zstd、Brotli などなどなど... この世には数多のファイル圧縮形式が存在しますが、どれを使うべきか迷うことはありませんか? それぞれどんな特徴があり、どんな場面で使うのが適しているのか。 そんな疑問に答えるため…

Parquet とは何なのか。その真価は不要なデータを読み飛ばせることにあり

Parquet って何者? 何が嬉しいの? Amazon Athena について調べていると、「Parquet のような列指向形式でデータを保存するとクエリ効率を上げることができる」というような文言を目にしました。 Parquet 形式で保存すると列指向で速いんだなぁ。 そんな程…

AuroraからS3へのDBクラスターデータのエクスポート

はじめに 前提 AuroraMySQL情報 検証で使用するテーブル 本エントリーで触れないこと S3エクスポート実行手順 S3エクスポートタスク作成に必要なリソースの作成 DBクラスターデータ保存先S3バケットの作成 S3エクスポートが使用するIAMロールの作成 IAMロー…