因果推論といえば、A/Bテストの自動化を思い浮かべるであろう。機械学習の発展とともにこの因果推論を機械学習によって行うことで、経営における問題点を明らかにして戦略のための意志決定を支援する本来のBI(ビジネス・ インテリジェンス)を実現できるようになってきた。
ここでは、最近、シリコンバレーの機械学習の新しい潮流として話題になっている因果推論について概説し、その因果推論を利用したポストBIについて述べる。
因果推論とはある要因の間に因果関係があることを推論することである。因果関係とは二つの要因が原因と結果という関係性で結びついていることである。これは原因となる要因が変化することで結果もまた変化する関係性にあることを示している。
たとえば、「オンラインショップで買った商品のレビューを頻繁に書き込む人は、レビューを書き込まない人に比べてオンラインショップでの購入が多い」というデータがあった場合に、購入意欲とレビューの書き込みに相関関係があることの説明にはなるが、ユーザにレビューを書き込むように促したからといって売り上げが伸びるという因果関係は不明である。むしろ、顧客ロイヤリティを高めるマーケティング戦略の方が顧客エンゲージメントを高めるほうが重要であろう。
問題が分かっている場合は課題解決型の仮説検証が有効であるが、そもそも問題が分からない場合は課題発見型の仮説構築が有効である。このアプローチの一つが因果推論である。
従来の因果推論の手法(RCT、層化など)では、一定の群同士を比較した手法であるため、特異性のある「個人」には対応できなかった。このため、個人の因果効果を推定するべく、機械学習を用いた手法が以下のように発展してきた。
詳述しないが、Meta-Learnerは、CATE(Conditional Average Treatment Effect)を推定するモデルで、CATEはATE(平均処置効果:Average Treatment Effect)をある条件に限定して算出したものである。
さて、BIとは、Business Intelligence(ビジネス・ インテリジェンス)の略で、本来、企業の各部署がそれぞれに蓄積している膨大なデータを、収集・蓄積・分析・加工し、経営戦略のための意志決定を支援することであった。その実態は、データの収集・蓄積・分析・加工に留まり、経営戦略のための意志決定、つまり、インテリジェンスにおざなりになっていた。
このインテリジェンスを補うものとして、ガートナーは次世代アナリティクスとして、以下の四つに分類している。
次世代アナリティクスの主要なベンダをこの分類ごとに表1にまとめた。
分類 | ベンダ |
---|---|
拡張アナリティクス | Microsoft Power BI Tableau(Salesforceが買収) Qlik ThoughtSpot Information Builders(TIBCO Softwareが買収) Oracle Analytics Cloud Sisense SAS SAP Yellowfin Looker(Googleが買収) MicroStrategy Domo AWS IBM Cognos Analytics Alibaba Quick BI Pyramid Analytics Board |
グラフ・アナリティクス |
Quantexa Ripjar Siren Cambridge Semantics Palantir FORMCEPT Neo4j Amazon Neptune |
アナリティクス・ハブ |
ZENOPTICS Motio(Theia) Metric Insights SAP Analytics Hub |
拡張データサイエンス/ML |
Aible Data Stories DataRobot H20.ai RapidMiner Endor Big Squid |
表1:主要なベンダ(順不同)
さて、ガートナーの提唱する次世代アナリティクスのうち、ガートナーが「2019年の戦略的テクノロジ・トレンドのトップ10(https://www.gartner.co.jp/ja/newsroom/press-releases/pr-20181031)」にあげていた「拡張アナリティクス」は2021年には「アナリティクスおよびビジネスインテリジェンスプラットフォーム」としてマジック・クアドラントが作成されるまで成長してきた。
図1: 2021年 ガートナー「アナリティクスおよびビジネスインテリジェンスプラットフォーム」のマジック・クアドラント(https://yellowfin.co.jp/campaign/gartner-magic-quadrant-for-analytics-and-bi-platforms-2021)
モデルが公開されているわけでも、明文化されているわけでもないので、外部仕様から推定した私見にすぎないので因果推論を機械学習によっておこなっていかどうかは定かではないが、ポストBIがめざす、経営戦略のための意志決定にインサイトを与える機能を実装している注目のプラットフォームについて、いくつか抜粋して因果推論を適用した事例をあげる。
COVID-19パンデミックに際して、CCA(Commonwealth Care Alliance: ボストンの生命保険会社)は、COVID-19のパンデミックとその影響の変化に迅速に対応するために、 Lookerの因果推論を採用した。(https://cloud.google.com/blog/products/data-analytics/healthcare-org-uses-advanced-analytics-for-covid-care)
Insight Botにおいて、チャットボッドに因果推論を適用し、質問の背景から深い洞察を得て回答する機能を実現している。( https://community.qlik.com/t5/Qlik-Product-Innovation-Blog/Qlik-Insight-Bot-an-AI-powered-bot-for-conversational-analytics/ba-p/1555552)
米国のすべての州および準州からの検査、確認された症例、入院、および患者の転帰に関する毎日のCOVID統計が含まれたSnowflakeDataのデータセットから、 ThoughtSpotを用いて因果関係および相関関係を発見し、ビジネスの再開の安全性の指標としている(https://www.snowflake.com/blog/agile-insights-during-covid-19-with-thoughtspot-snowflake-and-starschema/?lang=ja)。
問い合わせが急激に増えた場合に、その先行指標としてWebサイトの閲覧数の急増を読み取って、紐づけて分析結果を得ることができ、急激にサイトの閲覧数が伸びた要因が、ニュースで特定のキーワードが取り上げられ、そのキーワードで上位化している記事の閲覧数が急増したから、ということまで Yellowfinを用いて分析できる。(https://yellowfin.co.jp/blog/2020/10/29-jpblog1-yellowfin_mainfunction)
また、 ガートナーのマジック・クアドラントに登場していないが、GINIE(https://askginie.ai/index)というベンダもある。
さらに、ここで詳述しないが、今後は図2のガートナー「データサイエンス機械学習プラットフォームのマジック・クアドラント」に示されているDatabricks lakehouseなどのDSML(データサイエンス機械学習)のベンダもこの分野にかかわってくると思われるので注視していきたい。
図2: 2021年 ガートナー「データサイエンス機械学習プラットフォーム」のマジック・クアドラント(https://www.gartner.com/doc/reprints?id=1-25D1UI0O&ct=210302&st=sb)
機械学習の新しい潮流としての因果推論について概説し、その因果推論を利用したポストBIについて述べた。機械学習の発展により、 BIは第二世代となり、データの収集・蓄積・分析・加工から、本来の姿である経営戦略のための意志決定ツールとして期待できるようになったことが確認できたであろう。引き続き、因果推論について注目していきたい。