はじめに
ちょっと遅いですが、AWS re:Invent 2020の日本語セッションのレポートを書きました。
セッションを聞く前は、データレイクのことを「データの湖、とにかくデータがたくさん格納されているもの」ぐらいしか知りませんでした。 そのため、データレイクの基本的な知識を得るために書いています。
本記事はre:Invent 2020で行われた「AWSではじめるデータレイク 〜AWSのデータレイク関連サービス概要〜」 セッションのレポートです。
セッション概要
多様化するデータ
データレイクの説明の前に我々を取り巻く環境から説明しています。
現在、データの種類、量、増加する速度は増え続けています。 一方で、データ基盤の寿命は長くなっています。
→データ基盤を検討する場合、将来のニーズを考慮することが重要になっています。
多様化するデータに対応できるようにしておかなくてはいけないということですね。
従来のDBシステムの課題
それでは、目まぐるしく変化を遂げる現在において、従来のエンタープライズDBシステムだとどうか見ていきましょう。
データウェアハウスに目的に合わせて加工したデータを格納していき、それらのデータをBIツールなどの別システムで分析するのが一般的です。 しかし、ビジネスニーズに迅速に応えられないといった問題が生じてしまいます。
→目的に合わせて加工したデータをデータウェアハウスに格納するため、データの使い道が制限されてしまうということです。
理解しやすくするために、データウェアハウスの課題を料理に例えて説明してくださっています。
鮭の西京焼きを最速で作るために、あらかじめ捌いた鮭の切り身を味噌につけこんだ状態で保存しておきます。(ETLツールで加工したデータをデータウェアハウスに格納するという部分です。) しかし、これだと刺身やほかの料理を作りたい場合、対応することができません。
データレイク
そんな課題を解決するのが、データレイクです。
データレイクだとデータを生のままでも保存ができるので、将来のニーズに備えることができます。
西京焼きの例ですと、生魚、味噌といった材料と調理済みの鮭を両方保存することができるということです。 そうすることで、要件が定まっている分析(西京焼き)にも最速で対応ができ、新しいニーズ(刺身など)にも対応することができます。
もちろん、お魚だけでなく、お肉のような全く別のデータも格納することができます。
データレイクの条件
多様なデータを一元的に保存できる場所であること
データが失われないこと
サイズに上限がないこと
別の分析技術と連携するため、API呼び出しが可能であること
これらを実現できるAWSサービスがS3になります。
まとめ
多様化するニーズに応えられるように様々なデータを一元的に格納しておくことが重要です。 また、データの蓄積と分析処理をわけて考えることができるので、分析処理の自由度を高くすることにもつながります。
データレイクの説明でよくある「構造化データと非構造化データを保存できる」の意味が、このセッションを聞いて、よりイメージしやすくなりました。
他にもデータレイクの構築であったり、関連するAWSサービスについても説明されているので、ぜひ聞いてみてください。