データ利活用基盤アーキテクチャのバリエーション
近年、データマネジメントの重要性が盛んに語られるようになった背景として、企業データの活用が事業成長の重要な要素となってきたことがあげられます。
データ活用の一端としてデータの可視化・分析を行う際、その下支えとして、組織全体で一貫性を持たせ、質の高い情報を生み出すためのデータの収集・保存・加工といったプロセスを担うためのシステム基盤が必要になります。
伝統的な3層構造
このような基盤として従来、「データレイク」「データウェアハウス」「データマート」の3層構造のアーキテクチャが典型的に語られてきました。
それぞれの層は主に以下のような役割を担うものとされています。
- データレイク:異なるソースから得られるデータを、『そのままの形』で一元的に保持します。既にデータベースの形で保存されている数値や文字列などの「構造化データ」の他、SNSデータや画像・動画ファイルのような「非構造化データ」も対象となります。
- データウェアハウス:データをビジネス上の意思決定に利用できるよう、定量化や比較可能な形式に変換し保持します。同種のデータのデータ形式やコードを変換・標準化したり、非構造化データをデータベースで扱えるよう構造化したりするなどの加工を行います。
- データマート:特定要件の可視化に向けて、扱いやすい形でデータを保持します。期間・カテゴリ等による集計データや、権限や利用内容に応じた絞り込みデータ、複数種類のデータを組合せて新たに作成したデータなどが対象です。
しかし実際にデータ利活用基盤を構築しようとすると、このような単純化された構成では収まりません。それぞれの企業ごとのシステムや業務、データ活用の目的・理想像の違いから、様々なアーキテクチャの形を取ることとなります。
以下では、筆者の経験の中から全くコンセプトの異なるデータ利活用基盤のアーキテクチャを2例ご紹介します(公開用のため、一部内容は実例とは異なります)。
データガバナンス徹底のための多階層化
1つ目は、データウェアハウスやデータマートの中に更に階層を設定した例です。
この企業では、セルフサービスBIによってデータの可視化を各社員に任せる方針としました。
そのためデータ利活用基盤の役割としては、各社員が必要とするデータを適切な範囲で開示する、セキュリティとガバナンスの観点が重要視されました。
結果として、データレイク・データウェアハウス・データマートの3層構造をベースとしつつ、
- データウェアハウスは、データ全体を保持する「ベースエリア」と、そこからデータの範囲や項目を限定し、職務権限上のデータ開示可能範囲を設定した「制限エリア」の2層
- データマートはデータウェアハウスと同様の2層に、社員/組織の申請に基き実際に開示・提供済みのデータセットを管理する「割当エリア」を加えた3層
という、多階層のアーキテクチャを採用し、この基盤上で、データカタログやデータ取得の申請・承認機能を充実させることとなりました。
構成の簡素化による構築・運用の効率化
2つ目は、データレイクとデータウェアハウスの役割を統合し、階層を削減した例です。
この企業では、基本的にデータ可視化は開発部門が行い、作成されたBIダッシュボードをユーザへ提供することを前提としています。
まず、ソースシステムの項目を以下の3種に分類します。
- 標準項目:全てのシステムから同一の意味定義を持つデータが連携され、横串を通した分析が可能なもの。顧客名称、都道府県、年月日、金額等
- 準標準項目:類似した内容を持つものの、システム間で厳密な定義が異なるもの。データマート上、同一項目に格納することで可視化表示(表やグラフ等)を流用することができるが、横串での分析はできない。
数量(個 / 重量 / 容積 等の単位の相違)、商品区分(メーカー別 / サイズ(SML)等の相違)等 - 個別項目:各ソースシステム独自の項目。将来的な使用を見越してデータレイクに準じてデータ利活用基盤に保持するが、現状では可視化には使用しない。
その上で、
- データレイクとデータウェアハウスを統合した層を設ける。ソースシステムからは上記3種の項目全てを連携する(=データレイクとして保持)。またデータマートへは、標準項目・準標準項目のみ連携する(=データウェアハウスとして提供)。
- データマートから可視化を行う際、標準項目については全社共通の可視化を行う。準標準項目については、極力部品を共有、流用しつつ、ソースシステム単位で可視化を行う。
というアーキテクチャとすることで、開発や保守運用の工数を削減し、またシステムのオーバーヘッドも削減しました。
データ活用において何を重視するか
以上2例のように、背景や目的が異なることでデータ利活用基盤アーキテクチャのベクトルも全く異なった方向となります。
データ利活用基盤は、どの企業にも最適な標準構成・アーキテクチャは存在せず、個々の企業で必要な実現内容を見極めることが重要です。
次回は・・・
「MDMアーキテクチャのバリエーション」についてです。
※最初から読みたい場合はこちら
「データマネジメント知的体系ガイド(DMBOK)の読み解き方」
■お知らせ
データマネジメント成熟度アセスメントサービス 12月分受付中
サービスのお申し込みはこちら