DWH(データウェアハウス)は、膨大なデータを効率的に収集・整理し、ビジネス分析に活用できるシステムです。昨今は、ITツールを活用しながら収集したデータを適切に分析することで、経営の意思決定や顧客管理、業務効率化、販売戦略の最適化など、多岐にわたる分野で活用するケースが増えてきています。この記事では、DWHの概要や混同されやすい言葉との違い、DWHの機能、DWHの選定ポイントについて、DWHの活用例と合わせて紹介します。
目次
DWH(データウェアハウス)とは
DWH(Data Warehouse:データの倉庫)とは、企業が日々収集する大量のデータを効果的に整理し、保管するために設計されたシステムです。顧客管理、会計管理、在庫管理、Webサイトのアクセスログ、IoT機器のセンサーログなど、異なるシステムから業務に関連するデータを収集して一元化し、分析しやすい形式で保管しています。
DWHは、1990年にアメリカのコンサルタントである(William H. Inmon)氏が自著「Building the Data Warehouse」で提唱したものです。「意志決定のため、目的別に編成され、統合された時系列で、削除や更新しないデータの集合体」と定義されています。
DWHでは、データの可視化や業務横断的なデータ分析が可能です。
そのため、論理的にビジネスの意思決定を行いたい場合の判断材料としても活用可能です。
混同されやすい言葉との違い
DWHとデータベースは別の意味の言葉です。このようにDWHには似た意味の言葉が複数あるため、用語を整理しておきましょう。
データレイクとの違い
データレイク(Data Lake:データの湖)とは、さまざまなソースから集めたビッグデータを、一切加工せずに元のフォーマットのまま格納する領域です。つまりDWHとの違いは、データの形式や処理の有無です。
DWHは、データを分析しやすく整理して、フォーマットも統一しています。一方、データレイクは、構造化できない情報も格納可能です。データレイクには、アンケートの回答生データ、アクセスログ、センサーログ、電子メール、CADデータなどがそのままのデータ形式で保存可能です。分析には不向きですが、将来的に情報を活用したいなど、ストレージとしての利用に向いています。
データマートとの違い
データマート(Data Mart:データの市場)とは、DWHから「売上データ」「顧客データ」のように特定の目的に合わせてデータを抽出したものです。特定の部門や用途に応じて素早くデータ分析が可能になります。
データウェアハウスは企業全体のデータを統合的に管理していますが、データマートは特定のニーズに応じてデータを整理・可視化する点が特徴です。目的に合わせて情報を抽出するため、必要なデータ項目がDWHよりも少なくシステム構築が容易です。
また、分析する場合もDWHよりもデータが少ないためにレスポンスが早く、現場レベルで素早く分析したり活用したりする場合に向いています。
DB(データベース)との違い
DB(データベース)とは、さまざまなシステム上で蓄積されたデータを記録し、読み取りや書き込みに最適化された状態で保管するシステムです。主にデータの記録・参照に利用されるため、業務システムでの使用に適しています。
データベースは、収集したデータをリアルタイムで記録・参照できます。
しかし、データベースは分析に特化していないため、大量のデータを整理して統合的に分析したい場合には不向きです。
一方、DWHは、データを統一された形式で整理し、時系列に沿って格納しています。そのため、データの分析や統合、詳細な分析、大容量のデータを扱う場合にも向いています。
BI(ビジネスインテリジェンス)との違い
BI(Business Intelligence:ビジネスの知能)とは、DWHに蓄積された各部門や部署などに蓄積されたデータを収集・分析・加工するためのツールや手法のことです。
DWHがデータの収集と整理に特化しているのに対し、BIはそのデータを活用してレポートやグラフなどに可視化すると、視覚的に洞察を深める際に活かせます。例えば、DWH内の顧客データや販売データをBIツールで分析を行い、売上のトレンドや顧客の購買傾向を導き出せれば、企業の経営戦略の意思決定に役立ちます。
DWHの機能
DWHは、データを効率よく収集して情報を統合するためにいくつかの機能を有しています。
サブジェクトごとに分類
サブジェクトとは、データの内容を分類するためのテーマとなる言葉です。DWHは、データのサブジェクトを定めてサブジェクトごとに分類・整理を行います。
異なるシステムから収集されたデータは形式や内容が異なるため、そのままでは分析が困難です。
そのため、サブジェクトを決めて各システムからサブジェクトに関わるデータをすべて収集することで、データが整理しやすくなります。
例えば、サブジェクトと以下のようなサブジェクトを定めると、各々の情報が収集しやすくなります。
顧客:顧客管理システムのデータ、販売管理システムから集めた顧客データ
売上:販売管理システムのデータ、POSシステムから収集した売上データ
製品:在庫管理システムのデータ、製品管理システムから集めた製品データ
顧客に関するすべての情報が収集できれば、顧客の行動や購買傾向などの分析に役立ちます。
データの統合
会計システムや人事関連の情報、顧客情報など、異なるシステムから収集されたデータは形式や内容が異なることがあります。
取引先:株式会社AAA
会社名:(株)AAA
この例では、「取引先」と「会社名」、「株式会社AAA」と「(株)AAA」はそれぞれ同じものを指しています。
しかし異なる単語でデータ化されているために、別の情報として認識されてしまう可能性があるのです。これでは正確な顧客データとは言えず、情報の分析が困難です。
そのため、DWHは、データの重複を削除して表記の揺れを統一するなど、データの整合性を保つ処理を行います。DWHのデータ統合機能により、複数のシステムから収集されたデータが統合、統一された形式で管理できるため、より信頼性の高いデータ分析に役立ちます。
時系列データの整理
DWHの時系列データ整理機能では、過去から現在までのデータを一元的に管理できるため、データの変化やトレンドが把握しやすくなります。
通常のデータベースの場合、最新のデータが優先されて過去のデータは更新や削除されることがあります。しかし、データ分析では時系列で変化を見る場合があるため、過去のデータも重要です。そこでDWHは過去データを時系列で整理したうえで長期間保存できます。
例えば、売上データを時系列で整理すると、過去の売上の時系列推移がわかります。この情報を分析すると、将来の売上予測に役立ちます。また、顧客の購買履歴を時系列で整理することで、顧客の行動パターンを分析し、マーケティング戦略の策定に活かせます。
永続的なデータ保管
DWHは、最新の情報のみだけではなく時系列の履歴や情報を永続的に保管していて、基本的に更新や削除は行いません。DWHで過去からの変化をデータに基づいて分析すると、よりデータに基づいた信頼性の高い意思決定を行うのに役立つのです。
例えば、過去の顧客データを保持することで、顧客のライフサイクルや購買パターンが分析できます。「よくサービスを利用していた顧客が最近は利用していない」「この製品は最近売上が伸びている」など、過去からの変化の情報がわかれば、顧客の維持や再購買を促す戦略を立てることが可能です。
ただし、データの保存にはサーバーやストレージの維持など一定の費用がかかるため、DWHといっても無尽蔵にデータが保存できるわけではありません。一定の基準に基づき削除やアーカイブなどのメンテナンスが必要です。
DWHの選定ポイント
DWHの選定を行う前に、自社内で以下のような条件を準備することで、自社のニーズに合う最適なDWHが選びやすくなります。
- CRM、ERP、POSなど自社で扱うシステム、データ量、データ形式の把握
- データの収集方法、活用内容
- DWHの導入目的(データ分析の高速化、意思決定の支援、マーケティング戦略の強化など)
- 必要な機能や性能要件
- DWHの運用を担当者のスキルレベル、データ分析の専門知識を持つ社員の有無
- 初期導入予算、運用コスト見積もり
- データ管理のルール、セキュリティポリシーの策定
- DWHベンダーの選定の基準
ここでは、DWHベンダーやDWHの選定ポイントをさらに掘り下げて紹介します。
サービスの提携形態
DWHのサービス提供形態には、自社でサーバーを設置するオンプレミス型と、ベンダーが提供するサービスをインターネット経由で利用するクラウド型があります。
オンプレミス型の特徴
- 自社だけで使用する単独システムのため、セキュリティが強化しやすい
- システムのカスタマイズ性が高く、自社の特定の業務要件に合わせた設定が可能
クラウド型の特徴
- 初期コストを抑えて導入でき、データ容量の増加に柔軟に対応できるため、コストパフォーマンスに優れている
- インターネット経由でアクセスするため、国内外の複数の拠点からも利用可能
なお、クラウド型のDWHには、Amazon RedshiftやGoogle BigQueryなどがあります。
データの処理速度
膨大なデータを素早く処理できればリアルタイムでの意思決定に貢献し、ビジネスの機会創出につながります。
小売業、製造業、物流業などでは、リアルタイムでの在庫管理や販売データの分析が重要です。例えば、POSシステムのデータをリアルタイムで分析し、売れ筋商品の仕入れや在庫管理を迅速にできれば、店舗運営の効率化や顧客満足度の向上が図れます。
また、金融業や保険業などにも高速なデータ処理が可能なDWHが向いています。金融機関は不正取引の検知やクレジットスコアリングを素早く行う必要があります。
なお、保険会社では、迅速なクレーム処理や保険料の計算を行うために、トランザクションデータを活用することがあるのです。
データ容量の拡張性
DWHのデータは日々増加していくため、将来的にはデータの保存容量が不足するかもしれません。そのため将来的なデータ量の増加にどの程度対応できるかがDWHの選定ポイントのひとつです。
削除やアーカイブで対応できない場合には、データの保存領域を拡張する必要があります。
しかし、拡張性が低ければデータ量の増加に対応できなくなります。
また、データ容量の拡張した結果、システムの処理速度が遅くならないような環境を維持することも重要です。
例えば、クラウド型のDWHであるGoogle BigQueryは、90日以上更新されていないデータのストレージコストが低くなる料金形態を採用しています。サービスによっては、コストを抑えつつデータ容量の拡張が可能です。
UI(ユーザインタフェース)の柔軟性
UIの柔軟性とは、誰もが使いやすいUIになっているかという観点です。DWHは経営の意思決定に使われるケースが多いものの、活用の幅を広げる余地があります。
例えば、DWHの情報は、以下のような現場での利用も考えられます。
マーケティング:販売データや顧客データをもとにキャンペーンの効果を分析
営業:顧客の購買履歴を元にした提案営業、クロスセルの機会を抽出
製造:生産データや在庫データから、効率的な生産計画や在庫管理を検討
グラフィックがわかりやすい、データがドラッグアンドドロップで移動できるなど、データ分析のスキルがない担当者でも簡単に操作できるUIがあれば、社内の多くのメンバーが簡単に情報を活用できるようになります。
外部アプリケーションとの連携性
DWHは、BIツールやERP、会計システム、人事管理システムなどの基幹システム、CRMなどと連携すると、効率的にデータの収集・分析・可視化ができます。そのため、DWHの運用効率とデータ活用の幅を広げたい場合には検討しておくと便利です。
例えば、BIツールは、DWHやクラウドサービス、スプレッドシートなどその他のデータソースからデータを取り出してデータマイニングや予測分析など高度な分析ができます。グラフやチャートを素早く作成したりレポート作成したりする場合に便利です。
DWHはデータを統合・整理して保存する役割を果たしますが、BIツールはそのデータの分析や可視化に強く、DWHとBIツールが連携することで、データの価値がより高められます。
DWHの活用例
小売店で取り扱う商品数は非常に多く、販売実績データも膨大です。
また、CRMシステムでは、顧客の個人情報や購買履歴などが大量に蓄積されます。
DWHを活用すると、POSシステムのデータを時系列に整理でき、売れ筋商品の仕入れや顧客動向の把握が迅速に行えます。これにより、バイヤーは効率的に商品を仕入れ、接客担当者は顧客の購買傾向に基づいた対応が可能です。
さらに、CRMとDWHが連携することで、受発注の迅速化やコールセンターの対応改善、効果的なマーケティング施策の構築が行えます。
特定の業界でもDWHは活用されています。例えば、航空会社では運行管理や顧客管理、機材整備のデータを統合し、予約コントロールや座席管理の最適化を実現します。
また、運行スケジュールや機材整備の効率化にも寄与します。
製造業では、マーケティング情報や顧客からのフィードバックをDWHに集約することで、在庫管理の効率化や市場動向の把握が容易になります。
これにより、顧客ニーズに応じた新製品開発や販売戦略の最適化が可能です。
まとめ
DWHはデータの統合・分析を行うため、今後のビジネスに有益な情報が取得できます。しかし自社の活用方向性にあわせて検討すべきことも多くあります。
もし、社内のリソースだけでは対応しきれない場合は外部の専門家の活用をするのも一案です。
エッジワークでは、DWHの企画や開発、運用に豊富な経験をもつDWHエンジニアが多数在籍しています。稼働条件はご要望にあわせて調整できるため、ECサイト開発、データ活用、データ分析などの自社リソースの負担が減らせます。
DWHやデータマートの開発、運用、改善、ETL 運用、ダッシュボードの構築、データの可視化などにお困りの方は、ぜひお気軽にお問い合わせください。
副業社員・フリーランスなどのスポットワーカーにプロジェクト単位でタスクを依頼・発注できるプロ人材活用サービス