NECソリューションイノベータのデータアナリストが語る、データ分析プロジェクトを成功に導く指針とは
アーカイブ動画
データ分析の作業工程における留意すべきポイントとは
NECソリューションイノベータ株式会社 大坪 恒樹氏
大坪氏はNECソフトウェア九州に入社後、流通業、金融業のシステム開発に従事。2013年より、自治体、民間企業における様々なデータ分析案件を手がけている、現役のデータアナリストである。
まずデータ分析の手順を説明するため、大坪氏は経済産業省の外郭団体であるIPA(独立行政法人情報処理推進機構)が策定したITSS+のデータサイエンス領域のタスク構造(中分類)を提示した。ここではフェーズ1~4とされているが、フェーズ2と3はそれぞれもう一段階加わるので、作業内容的には6つの作業内容がある。
フェーズ1で行うのは、データ分析の要件・目的・背景などの確認作業。フェーズ2では分析計画の作成、必要データの選定/調達を行い、分析用データを整備する。フェーズ3ではデータ実分析作業、そして分析結果まとめ、報告書の作成作業を行う。最後のフェーズ4では評価に基づくシステム化、業務改善作業がある。
大坪氏はデータサイエンティストが求められるスキルとして、「ビジネス力」「データサイエンス力」「データエンジニアリング力」という3つの力を挙げている。とはいえ、この3つの力を持っていなければデータサイエンティストになれないというわけではない。
「このうちどれか1つでも持っている人材であれば、不足しているスキルは後から補強していけるのでデータサイエンティストになることは可能です」(大坪氏)
大坪氏がそう言い切る理由は、作業工程によってそれぞれ求められるスキルが変化するからだ。例えばフェーズ1のデータ分析企画では、ビジネス力が最も重要になる。課題背景を理解した上で、ビジネス課題を整理して解決する力である。
データサイエンス力が求められるのは、フェーズ2に近づいてからだ。データサイエンス力とは情報処理、人工知能、統計学などの情報科学系の知恵を理解し、活用する力を指す。どんなデータを使ってどんな分析をするのか理解すること、これも最初のフェーズで必要になるスキルである。
データエンジニア力は、データを意味のある形に加工する力である。
「Excel、Access、SQL、Python等を用いて、データを分析に最適な形式に加工するスキル、また、Excel、Tableau等のツールを用いて分析を行うスキルです。私自身、データサイエンス力はほとんど無く、データエンジニアリング力偏重でこの仕事をスタートしましたが、今はデータサイエンティストとして業務を行っています」(大坪氏)
データ分析要件の確認工程における留意すべきポイント
続いては、各フェーズで分析を成功に導くポイントが語られた。まず分析要件確認工程においては、顧客が望む真の要件や解決したい課題、その背景などの把握・確認が極めて重要になると大坪氏は強調する。これらを踏まえなければ顧客が望む分析結果を導くことは難しく、評価される分析とはならない。また、分析要件は分析作業を進める指針であり、正しく確認出来ていないと、その後のデータ分析各工程を正しく進められない。
だが、顧客から出てくる要件は極めて曖昧なものが多い。顧客の多くは、データアナリストが背景や要件の詳細を勝手に察して、対応してくれるものと過剰に期待している。
「時間をかけてでも顧客にヒアリングを行い、真の要件や背景を正確に把握することが重要です」(大坪氏)
ビジネス上の問題とは、理想(目標)と現実(現状)の乖離とも言い換えることができる。顧客がデータ分析に期待しているのは、その乖離が生じている要因、および影響度合いを把握・確認でき、その対策・改善策を導くことである。
分析要件を明確にするには、分析の対象となっている事項・事象の構造について確認し、その理想形と現状の差異、およびその際は何が要因で生じていると考えられるか、仮説を立てるのである。
「この仮説を立てることが重要で、さらにその対策・改善策まで想定できることが望ましい」と大坪氏は語る。
また、顧客からこれらのことを精度、質高く引き出すには、質問の量が大事になるという。それには質問ネタの事前準備が重要になる。
「顧客のホームページや顧客に関連するニュース、顧客が属する業界、同業他社に関するニュースなどを参考に質問ネタを準備します」(大坪氏)
その質問ネタにハズレがあっても構わないと、大坪氏は続ける。ハズレが多くなるにつれ、結果的に顧客の課題や目的、成果として得たいものが見えてくることがあるからだ。とにかくここでの工程に時間をかけて行うことが非常に重要である。
分析計画作成、必要データの選定・調達でのポイント
分析計画作成、必要データの選定・調達工程で重要なのは、「顧客の目的に沿って分析をするためには、どのようなデータが必要か確認して調達すること」だと、大坪氏は語る。
例えば業界の動きや天気のデータ、為替の動きなどの情報が必要な場合は、データを購入する必要があるが、その精度や粒度の有効性はもちろん、納期や予算に合っているかも確認しなければならない。大坪氏は顧客が求めるデータと、自身が収集したデータが一致しなかったという過去の失敗を紹介しながら注意を促した。
また、SNSをはじめネット上の多くのデータは利用規約で二次利用を制限、またはまったく認めていないものもあるので、勝手に収集・活用できない。利用規約がない場合も、基本的に投稿された記事は記述者に帰属するため、二次利用は利用規約がある場合よりも困難になることも多い。
ネット上のデータの無断の引用・活用は、コンプライアンス上の問題が生じるので、SNS運営事業者、データ取扱業者などの正規のルートを通じ入手しなければならないことを覚えておきたい。
総務省や経済産業省、厚生労働省など各省庁のホームページではさまざまな調査データを公開している。そのほかにも、地域経済分析システム(RESAS:リーサス)、携帯電話キャリアが提供しているGPS統計情報、日本銀行の調査データなどが紹介された。
データ分析整備工程での留意すべきポイント
データ分析の整備における工程で留意したいポイントは、非常に時間がかかること。中でも時間がかかるのが地名や名字などのデータクレンジングだという。
大坪氏は形態素解析についても説明。形態素解析とは、「テキストデータを、単語の品詞情報などの辞書と突き合わせ、文法などから言語で意味を持つ最小単位(形態素)に分解する技術である。
例えば、「私は橋本環奈が好き。」というテキストデータの場合、辞書に環奈が登録されていないと、「ワタシ」「ハ」「ハシモト」「タマキ」「ナ」「ガ」「スキ」「。」と分解される。つまり正確な結果を得るには、形態素解析の辞書設定が重要になるというわけだ。
もう一つデータクレンジング工程で必要になる作業として、大坪氏が挙げたのがデータの合成である。その例として紹介したのがある自治体の人口動態分析だ。
「顧客の目的に沿う分析結果を導くためには、転入出データに世帯モデルの情報の付加が必要と考えました。しかし提供された転入出データには相当する情報項目がありませんでした」と、大坪氏は振り返る。
顧客に世帯主との続柄が判別できるデータの提供を求めたが、個人特定のリスクを理由に断られる。そこで世帯主と一番近い異性の年齢差、その他の世帯構成者の年齢等から世帯モデルを類推することを考えた。
転出入データ15万件に対し、ETLツールとExcelを活用し、世帯分類項目と類推世帯モデル情報を合成、それを転出入データに付加した。この合成したデータの活用可否を顧客に確認したところ、類推情報であれば問題がないと回答を得た。
「類推世帯モデル情報を用いることで地区、住宅環境などによる転出入の差異、傾向などが確認されました。このデータ分析は、顧客にも高い評価をいただきました」(大坪氏)
データ実分析工程でのポイント
データ実分析工程のポイントとしては、大坪氏がまず挙げたのは、「分析要件確認工程で確認した、データ分析の目的、背景、課題に沿う分析を行うこと」。分析を進めていくと、さまざまな発見に出会う。そういう発見をすることが分析作業の面白さだが、その発見にとらわれすぎてはいけないと大坪氏は戒める。
その発見が本当に発見なのかの裏付けを得るのにも工数を要する上に、分析者にとっての発見が、顧客には周知の事実である場合があるからだ。逆に何でもないと思っていた分析結果が、顧客にとっては新たな発見である場合もあるという。
「顧客に中間報告などの方法で適宜確認することも、適切な分析を行うためには重要」と大坪氏は指摘する。納期までに報告書をまとめるには、後戻り作業を極力排除することが重要だからだ。
またもう一つ実分析工程で大事なポイントは、報告書をまとめる際に報告書全体のストーリーを意識することだと言う。報告書は顧客だけではなく、顧客の組織全体に理解してもらえる内容にする必要があるからだ。
もちろん、ストーリーを組み上げる間を埋めるグラフなどにも注意を払う必要がある。例えば業績が順調に推移していることを示す場合も、過去や目的、一般的指標、各種平均、ベンチマークなどの比較グラフにすると、より善し悪しが論じやすくなる。
その他、知っておくと良い手法として最初に大坪氏が挙げたのが相関係数である。相関係数はExcelのCORREL関数で簡単に求めることができる。
次に指数化も知っておくと良い手法の一つだ。指数化とはある時点の値を基準値100とし、その増減を指数で表す手法である。「こういう手法を使ってグラフを作成し、わかりやすい資料を作ることが大事です」(大坪氏)
評価におけるポイントとは
良い分析かどうかは報告書を通して評価されるので、報告書をまとめる力は重要だと大坪氏は言う。良い報告書は、分析要件にて確認されたデータ分析の目的・課題に沿う分析が行われており、分析にて確認された傾向・要因などに対し、対策案などもまとめられている。
評価の第一のポイントは「報告書は見栄えを大事にすること」と大坪氏。バランスの良いレイアウトや上品な色使い、品格ある文章で全体を通じたストーリーとしてまとめられていることが、センスの良い報告書の条件である。
「このようなセンスを身に付けるには、レビューの回数を重ねること。他の人の意見に耳を傾けることも大事です。思い込みから重要なことを見落としている場合があるからです」(大坪氏)
もう一つの評価のポイントは、対策案に必要な配慮が成されていること。具体的な対策・行動に繋げられるような案になっているかはその一つだ。
また、当たり前のことだが、費用対効果を意識することも大事である。対策に必要な費用が改善効果を下回る場合は、その分析結果も対策案も評価されない。 そして、費用対効果が見込める分析結果の活用・適用を考えることも大事になる。これもデータサイエンティストやデータ分析者が考えて提案すべきことだ。
さらに、データ分析結果の実業務への反映も、データ分析者の担当領域だと大坪氏は話す。例えばデータ分析の目的がAIの導入検討のPoCであれば、評価したAIモデルのシステムへの組み込みをスムーズな移行に導くこともデータ分析者に求められる。
分析結果を業務に反映する際に、現場担当者が負担増になる場合も当然ある。そうなると現場の抵抗に遭う可能性が高い。「そういう状況になることも留意して、業務に当たる必要がある」と大坪氏は言うのである。
最後に大坪氏は次のようにまとめ、セッションを締めた。
「データ分析ではデータをビジネスに活かす感覚・センスが必要です。顧客が求める真のデータ分析の目的を追求し、明確にする。この目的はデータ分析作業を進めていくための指標になります。そして報告書には、分析結果に基づく対策案を必ず示すことが重要です。
その際には費用対効果が見込まれ、かつ顧客が実施可能なものであること。最後にデータ分析成果の実業務への反映も、データ分析者の担当領域です。データ分析者はそのゴール感を見据えて、分析要件確認から業務に当たることが期待されます」(大坪氏)
多数の質問が寄せられ、盛り上がったQ&Aタイム
続いてQ&Aタイムが設けられ、参加者からは多くの質問が寄せられた。ここでは抜粋して紹介する。
Q.データ購入前に欲しい情報が十分に含まれているか確認する方法は?
大坪:サンプルをもらうことです。サンプルをもらえない場合も、データの詳細を尋ねることはできると思います。
Q.仮説へのルートは経験知以外にないのか
大坪:経験知は確かに仮説を類推しやすくなるなど、重要な要素です。経験知が少ない場合は、顧客の属する業界や業務の仕組みなどを掘り下げることが大切です。
Q.形態素解析に使用しているツールは何か
大坪:ツールはMeCabを使っています。
Q.形態素解析後に品詞に着目した分析などは実施しているか
大坪:例えば最近携わった自治体のコールセンターに寄せられる単語を分析するという案件では、形容詞や名詞に着目して感情との相関を分析しました。
Q.フェーズ1から4の全体を100としたときに、各フェーズの時間の割合は?
大坪:フェーズ2に50。フェーズ1のデータ分析の要件・目的・背景工程に15、フェーズ3のデータ実分析作業に15、分析結果まとめ、報告書の作成に20という割合です。 フェーズ4の評価に基づくシステム化、業務改善はCASE by CASEで別途となります。
Q.分析でよく使うツールを教えてほしい
大坪:これもケースバイケースですが、多変量解析の場合はPythonとそのライブラリ、グラフ化する場合はTableauを使っています。
Q.データサイエンティストとして活躍するための必須スキル基準はあるか
大坪:データから価値を導き出すためには、ツールを使えることが求められます。Excelが使えるなどのデータエンジニアリング力は必要でしょう。データサイエンスに関する知識は後からでも補うことができます。データ分析力は総合力。ビジネス力に長けた人でもデータ分析のセンスがあれば、十分活躍できます。また当社ではデータ分析講座なども充実しており、日々学ぶことができます。