DeNAのヘルスケア事業を支えるデータサイエンス ──AI時代に活きる数理統計とは?
DeNAが展開するヘルスケア事業とは
DeNAのヘルスケア事業では「シックケアからヘルスケアへの転換を実現し、健康寿命を延伸する」をミッションに掲げ、健康寿命の延伸や医療の社会課題解決に取り組んできた。さらにそれらを加速すべく、2022年5月、医療データの一元化を目指すメディカル・データ・ビジョン(MDV)との業務提携を発表した。
MDVは病院や製薬企業などBtoBに対するデータ利活用、DeNAは生活者、BtoCに対するさまざまなサービスが強み。両社合わせて計1500万人超の保険者データベースを有することになる。加えてお互いの得意領域を活かした、社会や顧客にとって一層有益なサービス提供がこの業務提携の目的だ。
このように健康増進・行動変容を促すサービスや、蓄積されたデータによるエビデンス創出に取り組んでいるDeNAのヘルスケア事業だが、業界外にいる人にとっては、どんなことを行っているのかが見えにくい。
またデータを活用するといっても、ヘルスケアに関する情報はセンシティブであるため、どのような分析を行っているのかも業界外の人からは見えにくい。そこで、業界外のエンジニアやデータサイエンティストが普通では見えない部分を、わかりやすく紹介することを目的に開催されたのが今回のイベントだ。
ヘルスケア領域にデータの力で挑む
伊藤 康太郎氏
DeNA グループエグゼクティブ
DeSCヘルスケア株式会社 取締役兼製品開発部長
まず登壇したのは、DeNA グループエグゼクティブであり、DeSCヘルスケア 取締役兼製品開発部長の伊藤康太郎氏。伊藤氏はDeNAライフサイエンス、日本テクトシステムズの取締役も兼務しており、DeNAヘルスケア事業本部全体の技術の責任者(VPoE)的な役割を務めている。
DeNAのヘルスケア事業は、DeNAライフサイエンス、DeSCヘルスケア、日本テクトシステムズという3つの子会社で運営されている。「DeNAがヘルスケアでどんなことに挑戦しているのか、その社会的な意義や技術の面白さについて、話していきたい」と伊藤氏は前置きし、セッションを開始した。
ちなみに、DeSCヘルスケアは15年に住友商事とのジョイントベンチャーとして設立。健康保険組合や自治体等に提供するヘルスケアエンターテインメントアプリ「kencom」を提供しており、健保・自治体など合計約100団体・480万人に利用されている。
DeSCヘルスケアがチャレンジしているのは、「臨床・薬剤処方のリアルをデータで解明し、疾病予防・重症化予防など健康寿命延伸の糸口となるエビデンスを創出すること」だと伊藤氏は語る。
リアルワールドデータとは、日本全国の医療現場で得られるレセプトや健康診断データなどの総称である。当然ながらローデータで扱う場合は、個人情報保護法の対象であり、病歴などの情報が含まれているため、要配慮個人情報としてセンシティブな対応が求められる。
具体的に保有しているデータは、kencomの歩数や体重、血圧、血糖値、睡眠、アンケートデータ、健診データの肝機能や腎機能、脂質、尿酸など、レセプトデータからは疾病情報や医薬品情報、診療行為情報、国民保険や後期高齢者保険、健康組合保険に関する情報などだ。
リアルワールドデータ活用でどんな社会貢献ができるのか
では、リアルワールドデータを活用することで、どんな社会貢献をもたらすのか。
- 患者にとってよりよい医療アクセスを提供する
- 新薬の開発コストを削減、また世に出すまでの時間が短縮できる
- 薬の需要を予測することによる適切な管理
- 健康寿命延伸による医療費のコスト適正化など
具体的な活用事例としては、市場全体の把握。全体母集団から見た各薬剤服用患者の割合などを、日本全体に拡大して推計することができる。また、薬剤Aの治療継続率を見るなど、治療実態を把握することにも使えるだろう。
だが、このようにリアルワールドデータは有用なので活用したいと思っても、実際にデータ分析のプラットフォームを作成・運用し続けていくのは、大学や製薬企業にとって困難であると、伊藤氏は振り返る。
「なぜなら、日本全国に分散されているリアルワールドデータを、属性に偏りなく収集することやバラバラのフォーマットを統一させるためのクレンジング、二次利用できるようにするための匿名加工処理、更新され続ける医薬品や疾病マスタへの追従、データ品質管理のためのプロセスなど、様々な壁が立ちはだかっているからです」(伊藤氏)
つまり、ヘルスケアのリアルワールドデータを活用するには、データレイクやデータウェアハウス、分析環境など、大がかりな仕組みの構築運用が欠かせない。そして、この大がかりな仕組みを品質高く運用し続けるには、多様なロールで構成されたチームが必要となる。
「そこで、データエンジニアやデータサイエンティスト、分析エンジニア、データスチュワード、プロダクトマネージャー、データオペレーターなどでチームを構成し、総力戦で日々、取り組んでいます」(伊藤氏)
医療データの利活用を支えるデータプラットフォーム
佐々木 桃太氏
DeSCヘルスケア株式会社
製品開発部 データプラットフォームグループ ソフトウェアエンジニア
続いて登壇したのは、データプラットフォームグループソフトウェアエンジニアの佐々木氏だ。佐々木氏は大学卒業後、スタートアップやベンチャー企業を経て、2021年10月にDeNAへ入社。バックエンドのソフトウェア開発をメインに、データ分析、インフラ、セキュリティなどを経験し、今はデータエンジニアとしてデータプラットフォーム開発やその推進に取り組んでいる。
ヘルスケア事業では、保険者から受領した個人情報をクレンジングし、二次利用の許諾後に、それらすべての保険者のデータを統合する。そこにkencomのデータも加えた統合DB(一般的にはDWH)を作成している。
統合DBは個人情報と匿名加工情報の世界で区切られている。この統合DBを起点に、用途別にデータマートを用意し、サイエンティストが分析業務や抽出業務を行った結果や自動化された集計処理の結果が格納される。そして、共同研究やデータ販売、アドホック分析やBIツールとの連携という形で、利活用される流れになっている。
統合DBは月次で運用している。毎月、保険者からデータ連携してもらい、DWHを作成。過去に作成したDWHは基本的に保管しているという。
データフローの運用での課題は、ステークホルダーが多くなってしまうこと。そこで匿名加工担当と二次利用担当は、セキュリティの都合上分離している。保険者への納品と許諾をもらう運用が必要で、その連絡窓口も用意している。
BtoCのプロダクト開発では、データのリアルタイム更新や日次のバッチ処理は当たり前だが、「ヘルスケアのリアルワールドデータは月次の運用なので、日次更新の世界観とはまったく異なる世界」だと佐々木氏は語る。
データフローのポイントは、匿名加工環境がAWS、二次利用環境はGoogle Cloud Platform(GCP)というように、二段構成にしていること。保険者からのデータはAmazon S3に要配慮個人情報として管理した上で、匿名加工をするチームが匿名加工を行い、品質のチェックをする。
それが終わると保険者に許諾をもらい、GCPに転送。BigQueryでデータセットを用意したり、用途別のデータマートを作成するという流れになる。BigQueryを活用しているのは、分析するのに容易なサービスであるためだ。
またレセプトデータや健診データのクレジングは、協業先企業による技術に成り立っていることもポイントだ。
「現在、データフローのいくつかのプロセスについては自動化をしていますが、まだ途中です。これからの課題としては、自動化をより一層作り込んでいくこと。そしてデータ品質についてもより一層強化することです」(佐々木氏)
アーキテクチャについては、匿名加工環境(AWS)では一部プロセスにおいて、Apache Airflow(以下、Airflow)で自動化しているが、大半は匿名加工チームによる手運用のプロセスが走っている。今後は自動化とともに、匿名加工後のデータ品質チェックの強化に取り組んでいく。
二次利用環境(GCP)のワークフローは、Managed AirflowであるComposerによるワークフロー(DAG)で構築されている。統合DBの構造はデータレイク、データウェアハウス、データマートの3層モデルを採用し、サイエンティストはDWH(統合DB)を分析業務に利用している。
ヘルスケア領域では、データを正規化や匿名加工して使えるデータにするだけで価値になる世界。だが、使えるデータにするのは非常に大変な作業であり、それをやりきるところにやりがいを感じていると佐々木氏は語る。
「データプラットフォームのシステム構成自体はそれほど複雑ではありませんが、データ量が膨大かつステークホルダーが多岐にわたるので、スピードよりも安定を重視せざるを得ない状況です。私たちの役割は、データサイエンティストが分析に注力し、事業に貢献できるようにするための環境の構築や運用を推進することだと考えています」(佐々木氏)
分析の目的はビジネス課題を解決すること
青木 智広氏
DeSCヘルスケア株式会社
ウェルネスサービス部 データサイエンスグループ グループリーダー
最後に登壇したのは、データサイエンスグループリーダーの青木智広氏。青木氏は2007年に東京工業大学大学院修了後、証券会社や生命保険会社、再保険会社で数理業務に携わる。2013年より、SQL/Pythonを使ったヘルスケアデータの分析を開始。外資系コンサルティング会社を経て、2020年9月にDeSCヘルスケアに入社、データサイエンティストとして活躍している。
青木氏は、このセッションで話すことは会社の意見ではなく、個人的な意見と前置きし、分析について語った。
「分析のよくある説明は、データ→分析環境→コーディング→分析手法の適用→分析アウトプットが出て、ビジネス課題を解決するという流れで説明されます。これは探索的分析(EDA)。このような流れだと、どうしてもコーディングや分析手法にフォーカスが当たってしまいます」(青木氏)
だが、分析の目的はビジネス課題の解決である。分析はビジネス課題からスタートすることであり、データ分析が価値を持つ前提条件がある。青木氏はそれを以下の図に表して説明を行った。
「世界においてさまざまな事象が発生し、それをデータとして記録すると、サイエンティストと呼ばれる人たちが予測能力を使って、将来の予測をします。なぜ分析するかはビジネス課題を解決するためなので、意思決定者がその結果を利用するという前提があるわけです」(青木氏)
つまり、データサイエンティストは「1.世界というシステムは確率的因果律によって支配され(事象の生成背景)」、「2.その世界の過去情報を十分知ることができ(データの生成背景)」、かつ「3.分析者の予測能力が十分高ければ将来の確立予測が可能であり(予測精度)」、「4.その予測結果を受容できる(解釈性)」という期待の元に分析を行っていると、青木氏は言う。
これを分析者の能力に当てはめると、事象の生成背景とデータの生成背景は業界知識、予測精度と解釈性は分析スキルに該当する。
「分析のバリューチェーンに当てはめると、次のような図になります。ヘルスケア分析は広い業界知識が必要になってきます。事象であれば疾病に関する知識、例えば危険因子や自覚症状、他覚症状、重症化するとどうなるか、そして治療方法など。データであれば社会保障制度に関する知識、例えば健康診断の結果やレセプト、データ構造などです」(青木氏)
そのほかにも、医療関係者のデータ入力の癖などを知っておくことが重要だという。「ヘルスケア分析のサイエンティストは、これらの知識を持っていることが、業界の典型的な課題を解決するために必要」と、青木氏は強調している。
ML/AIと古典統計数理、役割の違い
続いては、サイエンティストにとって必要な分析スキルについて語られた。ここからはML/AIと古典統計数理の話となる。
ML/AIは新しい技術で、古典統計数理は成熟した技術。ML/AIは非線形フィットが得意だが、古典統計数理は線形フィットが基本である。それゆえML/AIは高い予測精度を出せるのに対し、古典統計数理は比較的予測精度が低くなる。
解釈性においては、古典数理統計は数理モデルに内包されているが、ML/AIはパラメータや関数の構造を最適化した結果、内部の構造がよく分からず予測結果そのものに解釈を求めることが必要になる。
信頼区間については、一般的にML/AIは計算不可能だが、古典統計数理は計算可能。
利用目的も異なる。適用課題はML/AIが古典統計数理では解けない課題を解いたり、あるいはハズレでも責任を取る必要がない課題、失敗の影響を小さくできる課題に適用されている。
一方の古典統計数理は、ハズレの責任を誰かが取る必要がある課題、失敗の影響を小さくできない課題に適用されがちである。
古典統計数理の場合における「解釈」についても説明された。
例えばAさんは死んだ、Bさんは死んだ、Cさんは死んだという事象があったとする。すると人間は死ぬという事象が一般化されるので、Dさんも死ぬという将来予測ができる。それを哲学者たちは解釈するために記号論を考えた。
「記号論の世界では、事象はデータとして表現されます。サイエンティストが因果律fを発見し、古典統計数理ではこのfを当てはめて、将来を予測します。もちろん、fの当てはめが正しいかどうかを検証する必要はありますが、この当てはめるモデル自体がわかりやすいので、古典統計数理は解釈性がモデルに内包されていると言えるのです」(青木氏)
例えば血圧が上がれば上がるほど、死亡しやすいという事象があるとする。それは当たり前のことなので、モデルにその特性を入れる。そうすることで医師が自分の言葉で説明しやすくなる。つまり、責任を持ちやすくなるというわけだ。
そのため、ヘルスケアの世界では古典統計数理が使われることが多い。この記号論の世界に数学的に公式展開していったときに得られる結果が解釈であり、解釈は意味論と記号論をつなぐものと言うことができる。
この解釈をML/AIで行うとどうなるか。データの構造は同じだが、ML/AIの場合、因果律fの発見は、機械が自動でやってくれることが期待される。その結果、複雑な関数fが適用されることになり、このfが一体どんな特性をもっているのかがわからない状況になる。ゆえにモデルが解釈性を内包しているとは言いづらい。
つまり解釈しにくいため、そこから得られた結果をたくさん積み上げ、説明変数の分布において、その結果になることをSHAPなどで分析し、それを元に説明することになる。しかしその決定に対して、外れる確率がどのくらいあるのかはわからないため、受け入れにくくなる。
なお、アメリカの国策プロジェクト「DARPA XAI」では、AIがなぜその予測をしたのか解釈できるようにすることを提言している。
ML/AIと古典統計数理の役割についても説明が行われた。古典統計数理はデータ分布を仮定して曲線の当てはめを行うため、仮定を誤ると当てはまりが悪くなる。
しかし95%信頼空間を計算できるため、予測が外れるリスクテイクの判断材料となることができる。したがって、ハズレの確率を減らす目的で使われたり、ハズレのリスクが高いときに使われる。
一方のML/AIは手法によってはデータ分布の仮定を行うことなく、任意の非線形に曲線を当てはめることができる。しかし当てはまりは非常に良くなるが、リスクテイクの判断材料とはなりえない。そこで当たりの確率を上げる目的で使われたり、ハズレのリスクが少ないときに使われている。
「ハズレのリスクが高いものの一つが医療判断です。ML/AIの予測で当たりの確率を上げられても、外れるリスクがどれだけあるか解らなければ、医者は責任を取りづらい。そのためヘルスケア分野では、ML/AIを使うことがなかなか難しいのが実情です」(青木氏)
ヘルスケアサイエンティストはブルーオーシャン
ここからは、ヘルスケアサイエンティストのキャリア形成について語られた。ML/AIと古典統計数理とは活用用途が異なるため、一般的なサイエンティストとは、高めていくケイパビリティは異なるという。
「古典統計数理のサイエンティストの場合は、データ・課題・数理モデルに深い理解を持つことが必要です。具体的に挙げると、データの生成背景、分析対象疾病に関する疫学的知識、業界の典型課題に対する適切な解決手段です。また意思決定のために分析結果をレポートにまとめる能力も身につける必要があります」
一方のML/AIのサイエンティストの場合は、多くのモデルや最適化手法に関する幅広い知識を持つことが必要となる。また、数理能力に応じて「AIモデルを当てはめる」「AIモデルを数理的に説明する」「AIモデル(アルゴリズム)を開発する」という3段階のキャリア形成が可能である。
また青木氏は、分析によって得られる予測モデルを、APIなどで実装するエンジニアリング周辺技術を身につけることも必要だという。ML/AIのサイエンティストの活躍の場は広く技術の獲得によって、クイックに価値創造が可能だが、AIモデルを当てはめるだけのサイエンティストはレッドオーシャンなので、キャリアアップを図ることが欠かせない。
特にヘルスケア業界においては、ML/AIのサイエンティストがすぐに価値創造することはなかなか難しいと言い切る。
「なぜならヘルスケア業界の関連知識、例えば病気のなり方、治療法、社会保障制度などを知らないと分析結果の妥当性を検証できないからです。一方でこれらは何十年も大きく変わることはないため、知識や技術が陳腐化されにくい世界です。それゆえに努力が将来にわたって蓄積されていく世界。他業界からの参入障壁が高く、ブルーオーシャンだと私は捉えています」(青木氏)
ヘルスケアサイエンティストは、データ生成背景や患者のジャーニーを考えながら分析デザインをすることが楽しいと青木氏は語り、セッションをまとめた。
40以上の質問が寄せられ、盛り上がったQ&Aタイム
セッション終了後のQ&Aタイムでは、40件以上の質問が寄せられ大盛況となった。その一部を紹介する。
Q.匿名加工と二次利用環境で環境を分けていることについて
伊藤:当社には分析ワークロードにいくつかのベンチマークがあります。RedshiftとBigQueryを比較したところ、BigQueryの方がコストに対するパフォーマンスやスケーリングなどの面で、使い勝手がよかったからです。
運用オペレーションの楽さ、アドホックなクエリをスケールさせられるという2点を考慮し、二次利用に関してはBigQueryを選択しました。
一方、匿名加工では個人情報を扱うため、セキュリティ要件を考えるとAWSの方が良いと判断しました。これはあくまでも当時の判断。今なら異なる判断になったかもしれません。
Q.古典統計数理の能力を高めていくには、どのようなことをすべきか
青木:古典統計数理の能力を高めるのは、知識を積むこと。統計検定2級の勉強をすることをお勧めします。知識を習得できれば、あとは技術的にアプライするだけなので、コーディングの技術が必要になります。さらにそのモデルを典型課題に当てはめるためには、業界課題や業界知識が必要です。まずは、統計の知識を身につけることですね。
Q.SQLのスキルは必要か
青木:SQLは必要です。そんなに難しい技術ではないので、チャレンジすればすぐ身に付くと思います。
佐々木:SQLは覚えておいて損はないと思います。
Q.Pythonはどの程度の能力が必要か
伊藤:Pythonは匿名加工のあと、データワークフローを組んでいるチームで使っています。アプリケーションプログラミングや、AirflowでDAGを書いたりしています。
佐々木:量的には500行を超えるプログラムを書くことはないと思います。最低限の知識としては、Airflowの上で書くための作法が解っていること。とはいえ、書き方の知識の引き出しが多ければ多いほど、きれいなプログラムになるので、書ける方が望ましいですね。
Q.医療知識がないとデータを扱うことが難しいとのこと。具体的にどのぐらい細かく知っておくべきなのか
青木:私たちは製薬企業や生保企業から分析の受託を受けています。いただいた課題を解く際に、分析結果について説明できるか、そもそも課題について理解できる程度の知識は必要だと思います。グループメンバーには、看護学生向けの教科書を一通り読んで勉強してほしいと伝えています。これを読むことで、疾病に関する理解ができるようになるからです。
Q.古典数理統計のモデルを操作する際はRがデファクトスタンダードなのか
青木:公用語はRとPython、プラスでSQLです。私はPythonの方が好きですが、Pythonは疫学統計のライブラリが充実していません。Rの方がライブラリは揃っているので、Rの方に軍配が上がっています。