データ基盤
データドリブンな人間を目指している香取です。 最近 Databricks では生成 AI 関連のアップデートがどんどん追加されており、AI エージェントを簡単に構築できるようになってきています。 そんな中 AI エージェント構築の一連の流れを体験できる公式チュート…
Databricks とは データガバナンスとは Unity Catalog によるデータガバナンス アクセス制御 監査 データ発見可能性 データリネージ ER 図 AI によるコメント生成 データ共有 データ品質 おわりに 参考 アプリケーションサービス本部の鎌田(義)です。 本稿で…
従来、データ基盤は「データレイク」と「データウェアハウス」を組み合わせるのが一般的でした。 しかしこの構成は、システムの複雑さや運用コストの増大といった課題を抱えていました。 データレイクハウス(以下、レイクハウス)は、これらの課題を解決す…
こんにちは。エンタープライズクラウド部 松田です。 今回は、Databricks公式チュートリアルを通して行った結果、得られた知識や、 やや理解しにくかった概念も含めて、できる限りわかりやすくお伝えできればと思います。 前提 チュートリアルの構成 チュー…
Databricks では DBU (Databricks Unit) という独自の単位で課金されます。この記事では、Databricks on AWS の料金体系について整理し、実際に利用する際の考慮事項をまとめてみました。 前提 まずは Databricks のアーキテクチャを理解する DBU (Databrick…
タイムトラベル機能とは タイムトラベルの利点 Delta Lake の構成 Databricks でタイムトラベル機能を検証 テーブル作成 データ追加/更新/削除 過去のバージョンを表示する (タイムトラベル) データ削除について 予測的最適化 おわりに 参考 アプリケーショ…
はじめに AWS 上で Databricks を利用するには、2つの主な方法があります。 AWS Marketplace 経由でのサインアップ AWS Marketplace から Databricks のサービスを選択し、サブスクリプションを開始します これにより、Databricks の請求と AWS の請求を統合…
はじめに 前提 データ収集パターン Redshift ZeroETL 構成イメージ 特徴 課金対象となる主な要素 前提・考慮事項 構成検討時のポイント 参考リンク Redshift FederatedQuery 構成イメージ 特徴 課金対象となる主な要素 前提・考慮事項 構成検討時のポイント …
はじめに 概要 実装 1. FRESHNESSの定期実行を対象テーブルに定義 2. CREATE ALERT で監視設定 お片付け おわりに 参考 はじめに アプリケーションサービス部の鎌田(義)です。 今回は、SnowflakeのFRESHNESSを触ってみます。 概要 データ活用基盤では日々デ…
はじめに 概要 実装 Snowpipe作成 StreamとTaskを使用したCDCの実装 Stream作成 Task作成 動作確認 おわりに はじめに アプリケーションサービス部の鎌田(義)です。 今回はSnowflakeでStreamとTaskを使用してCDCを実装してみました。 概要 以下のような構成…
はじめに 構成図 事前準備 AuroraMySQL側アカウント ネットワーク作成 サブネットグループ作成 AuroraMySQL作成 テスト用データ作成 Redshift Serverless側アカウント ネットワーク作成 Redshift Serverless ワークグループ/名前空間の作成 VPCピアリング作…
はじめに 前提 AuroraMySQL情報 検証で使用するテーブル DMSセットアップ手順 ソースエンドポイント作成 ソースエンドポイント作成 ターゲットエンドポイント作成 レプリケーションデータ保存先S3バケット作成 IAMロール作成 IAMロールに権限をアタッチ ター…