シリコンバレー通信 – 2021年9月版- ポストBI – 機械学習の新しい潮流と因果推論

因果推論といえば、A/Bテストの自動化を思い浮かべるであろう。機械学習の発展とともにこの因果推論を機械学習によって行うことで、経営における問題点を明らかにして戦略のための意志決定を支援する本来のBI(ビジネス・ インテリジェンス)を実現できるようになってきた。

ここでは、最近、シリコンバレーの機械学習の新しい潮流として話題になっている因果推論について概説し、その因果推論を利用したポストBIについて述べる。

因果推論:相関と因果

因果推論とはある要因の間に因果関係があることを推論することである。因果関係とは二つの要因が原因と結果という関係性で結びついていることである。これは原因となる要因が変化することで結果もまた変化する関係性にあることを示している。

たとえば、「オンラインショップで買った商品のレビューを頻繁に書き込む人は、レビューを書き込まない人に比べてオンラインショップでの購入が多い」というデータがあった場合に、購入意欲とレビューの書き込みに相関関係があることの説明にはなるが、ユーザにレビューを書き込むように促したからといって売り上げが伸びるという因果関係は不明である。むしろ、顧客ロイヤリティを高めるマーケティング戦略の方が顧客エンゲージメントを高めるほうが重要であろう。

問題が分かっている場合は課題解決型の仮説検証が有効であるが、そもそも問題が分からない場合は課題発見型の仮説構築が有効である。このアプローチの一つが因果推論である。

機械学習と因果推論

従来の因果推論の手法(RCT、層化など)では、一定の群同士を比較した手法であるため、特異性のある「個人」には対応できなかった。このため、個人の因果効果を推定するべく、機械学習を用いた手法が以下のように発展してきた。

  • 結果(変数)と傾向スコアを機械学習によって推定してから、その推定値を使用してさらに機械学習によって処置効果を推定するもの(Meta-Learnerなど)
  • ランダムフォレストを使用し、傾向スコアを推定せずに処置効果を推定するもの(Generalized Random Forest、Orthogonal Random Forestなど)

詳述しないが、Meta-Learnerは、CATE(Conditional Average Treatment Effect)を推定するモデルで、CATEはATE(平均処置効果:Average Treatment Effect)をある条件に限定して算出したものである。

ポストBI

さて、BIとは、Business Intelligence(ビジネス・ インテリジェンス)の略で、本来、企業の各部署がそれぞれに蓄積している膨大なデータを、収集・蓄積・分析・加工し、経営戦略のための意志決定を支援することであった。その実態は、データの収集・蓄積・分析・加工に留まり、経営戦略のための意志決定、つまり、インテリジェンスにおざなりになっていた。

このインテリジェンスを補うものとして、ガートナーは次世代アナリティクスとして、以下の四つに分類している。

  • 1.拡張アナリティクス(オーグメンテッドアナリティクス)
    高度な分析スキルや知識がなくても適切な分析ができるように支援するタイプのツール
  • 2.アナリティクスハブ
    アナリティクスの対象となるデータや分析物を管理
  • 3.グラフ分析
  • 4.拡張データサイエンス/ML
    多数ある統計やマシンラーニングの手法/アルゴリズムから適切なもの自動的に選んで分析するツール

次世代アナリティクスの主要なベンダをこの分類ごとに表1にまとめた。

分類 ベンダ
拡張アナリティクス Microsoft Power BI
Tableau(Salesforceが買収)
Qlik
ThoughtSpot
Information Builders(TIBCO Softwareが買収)
Oracle Analytics Cloud
Sisense
SAS
SAP
Yellowfin
Looker(Googleが買収)
MicroStrategy
Domo
AWS
IBM Cognos Analytics
Alibaba Quick BI
Pyramid Analytics
Board
グラフ・アナリティクス Quantexa
Ripjar
Siren
Cambridge Semantics
Palantir
FORMCEPT
Neo4j
Amazon Neptune
アナリティクス・ハブ ZENOPTICS
Motio(Theia)
Metric Insights
SAP Analytics Hub

拡張データサイエンス/ML Aible
Data Stories
DataRobot
H20.ai
RapidMiner
Endor
Big Squid

表1:主要なベンダ(順不同)

拡張アナリティクス

さて、ガートナーの提唱する次世代アナリティクスのうち、ガートナーが「2019年の戦略的テクノロジ・トレンドのトップ10(https://www.gartner.co.jp/ja/newsroom/press-releases/pr-20181031)」にあげていた「拡張アナリティクス」は2021年には「アナリティクスおよびビジネスインテリジェンスプラットフォーム」としてマジック・クアドラントが作成されるまで成長してきた。

図1: 2021年 ガートナー「アナリティクスおよびビジネスインテリジェンスプラットフォーム」のマジック・クアドラント

図1: 2021年 ガートナー「アナリティクスおよびビジネスインテリジェンスプラットフォーム」のマジック・クアドラント(https://yellowfin.co.jp/campaign/gartner-magic-quadrant-for-analytics-and-bi-platforms-2021)

モデルが公開されているわけでも、明文化されているわけでもないので、外部仕様から推定した私見にすぎないので因果推論を機械学習によっておこなっていかどうかは定かではないが、ポストBIがめざす、経営戦略のための意志決定にインサイトを与える機能を実装している注目のプラットフォームについて、いくつか抜粋して因果推論を適用した事例をあげる。

・Looker

COVID-19パンデミックに際して、CCA(Commonwealth Care Alliance: ボストンの生命保険会社)は、COVID-19のパンデミックとその影響の変化に迅速に対応するために、 Lookerの因果推論を採用した。(https://cloud.google.com/blog/products/data-analytics/healthcare-org-uses-advanced-analytics-for-covid-care)

・Qlik

Insight Botにおいて、チャットボッドに因果推論を適用し、質問の背景から深い洞察を得て回答する機能を実現している。( https://community.qlik.com/t5/Qlik-Product-Innovation-Blog/Qlik-Insight-Bot-an-AI-powered-bot-for-conversational-analytics/ba-p/1555552)

・ThoughtSpot

米国のすべての州および準州からの検査、確認された症例、入院、および患者の転帰に関する毎日のCOVID統計が含まれたSnowflakeDataのデータセットから、 ThoughtSpotを用いて因果関係および相関関係を発見し、ビジネスの再開の安全性の指標としている(https://www.snowflake.com/blog/agile-insights-during-covid-19-with-thoughtspot-snowflake-and-starschema/?lang=ja)。

・Yellowfin

問い合わせが急激に増えた場合に、その先行指標としてWebサイトの閲覧数の急増を読み取って、紐づけて分析結果を得ることができ、急激にサイトの閲覧数が伸びた要因が、ニュースで特定のキーワードが取り上げられ、そのキーワードで上位化している記事の閲覧数が急増したから、ということまで Yellowfinを用いて分析できる。(https://yellowfin.co.jp/blog/2020/10/29-jpblog1-yellowfin_mainfunction)

また、 ガートナーのマジック・クアドラントに登場していないが、GINIE(https://askginie.ai/index)というベンダもある。

さらに、ここで詳述しないが、今後は図2のガートナー「データサイエンス機械学習プラットフォームのマジック・クアドラント」に示されているDatabricks lakehouseなどのDSML(データサイエンス機械学習)のベンダもこの分野にかかわってくると思われるので注視していきたい。

図2: 2021年 ガートナー「データサイエンス機械学習プラットフォーム」のマジック・クアドラント

図2: 2021年 ガートナー「データサイエンス機械学習プラットフォーム」のマジック・クアドラント(https://www.gartner.com/doc/reprints?id=1-25D1UI0O&ct=210302&st=sb)

まとめ

機械学習の新しい潮流としての因果推論について概説し、その因果推論を利用したポストBIについて述べた。機械学習の発展により、 BIは第二世代となり、データの収集・蓄積・分析・加工から、本来の姿である経営戦略のための意志決定ツールとして期待できるようになったことが確認できたであろう。引き続き、因果推論について注目していきたい。