データ基盤

Databricks Apps で AI エージェント (RAG) を構築する

データドリブンな人間を目指している香取です。 最近 Databricks では生成 AI 関連のアップデートがどんどん追加されており、AI エージェントを簡単に構築できるようになってきています。 そんな中 AI エージェント構築の一連の流れを体験できる公式チュート…

DatabricksのUnity Catalogで実現するデータガバナンス

Databricks とは データガバナンスとは Unity Catalog によるデータガバナンス アクセス制御 監査 データ発見可能性 データリネージ ER 図 AI によるコメント生成 データ共有 データ品質 おわりに 参考 アプリケーションサービス本部の鎌田(義)です。 本稿で…

データレイクハウスとは

従来、データ基盤は「データレイク」と「データウェアハウス」を組み合わせるのが一般的でした。 しかしこの構成は、システムの複雑さや運用コストの増大といった課題を抱えていました。 データレイクハウス(以下、レイクハウス)は、これらの課題を解決す…

Databricks の公式チュートリアルで Databricksの基本を学ぼう

こんにちは。エンタープライズクラウド部 松田です。 今回は、Databricks公式チュートリアルを通して行った結果、得られた知識や、 やや理解しにくかった概念も含めて、できる限りわかりやすくお伝えできればと思います。 前提 チュートリアルの構成 チュー…

Databricks の料金体系についてまとめてみた

Databricks では DBU (Databricks Unit) という独自の単位で課金されます。この記事では、Databricks on AWS の料金体系について整理し、実際に利用する際の考慮事項をまとめてみました。 前提 まずは Databricks のアーキテクチャを理解する DBU (Databrick…

Databricks 環境で学ぶ Delta Lake タイムトラベル

タイムトラベル機能とは タイムトラベルの利点 Delta Lake の構成 Databricks でタイムトラベル機能を検証 テーブル作成 データ追加/更新/削除 過去のバージョンを表示する (タイムトラベル) データ削除について 予測的最適化 おわりに 参考 アプリケーショ…

AWS Marketplace 経由で Databricks セットアップとリソース構築をする

はじめに AWS 上で Databricks を利用するには、2つの主な方法があります。 AWS Marketplace 経由でのサインアップ AWS Marketplace から Databricks のサービスを選択し、サブスクリプションを開始します これにより、Databricks の請求と AWS の請求を統合…

AuroraからRedshiftへのデータ収集パターン5選

はじめに 前提 データ収集パターン Redshift ZeroETL 構成イメージ 特徴 課金対象となる主な要素 前提・考慮事項 構成検討時のポイント 参考リンク Redshift FederatedQuery 構成イメージ 特徴 課金対象となる主な要素 前提・考慮事項 構成検討時のポイント …

Snowflake FRESHNESSを使った定期的な鮮度テストを実装する

はじめに 概要 実装 1. FRESHNESSの定期実行を対象テーブルに定義 2. CREATE ALERT で監視設定 お片付け おわりに 参考 はじめに アプリケーションサービス部の鎌田(義)です。 今回は、SnowflakeのFRESHNESSを触ってみます。 概要 データ活用基盤では日々デ…

SnowflakeのStreamとTaskを使用してCDCを実装してみる

はじめに 概要 実装 Snowpipe作成 StreamとTaskを使用したCDCの実装 Stream作成 Task作成 動作確認 おわりに はじめに アプリケーションサービス部の鎌田(義)です。 今回はSnowflakeでStreamとTaskを使用してCDCを実装してみました。 概要 以下のような構成…

Redshift Serverlessから別アカウントのAuroraMySQLにFederated Queryする

はじめに 構成図 事前準備 AuroraMySQL側アカウント ネットワーク作成 サブネットグループ作成 AuroraMySQL作成 テスト用データ作成 Redshift Serverless側アカウント ネットワーク作成 Redshift Serverless ワークグループ/名前空間の作成 VPCピアリング作…

AuroraからS3へのDMSを利用した継続的レプリケーション

はじめに 前提 AuroraMySQL情報 検証で使用するテーブル DMSセットアップ手順 ソースエンドポイント作成 ソースエンドポイント作成 ターゲットエンドポイント作成 レプリケーションデータ保存先S3バケット作成 IAMロール作成 IAMロールに権限をアタッチ ター…