DX時代に求められる非構造化（音声・時系列）データとは ──クラウドエース・PERSOL・セコムの最新活用事例

【事例①クラウドエース】GCPではじめる非構造化データ分析

イベントは2部構成で行われ、前半のセッションではクラウドエースでCTOとして活躍する高野遼氏が登壇した。

▲クラウドエース株式会社取締役CTOの高野遼氏

まずは本テーマの基礎的な部分、「構造化データとは」からスタート。動物の画像がたくさん並ぶスライドを映し出し「これらの動物における共通点は何でしょう？」との問いを会場に投げかけた。

「答えは干支の動物です。ただ、我々は分かりますが、コンピュータは画像をどうやって検索しているのか。実は、非常に難しい問題です」（高野氏）

高野氏はこう言い、構造化データ、非構造化データの違いを示したスライドで、両者の違いを改めて解説。先の画像検索においては、事前に画像にラベル（答え）付けしておくことで、非構造化データは構造化データとなり、検索することが可能になる、とまとめた。

■構造化データ
・関係モデルなどに代表されるテーブルデータに構造化されたデータ
・検索や集計などが容易であり、データ活用のための行動がとりやすい

■非構造化データ
・文書、音声、画像データに代表されるデータ
・そのままでは検索や集計が難しい

では実際に、非構造化データを構造化データとして扱うには、どのような技術が必要なのか。GCPのAPIを例に、紹介していった。なお高野氏いわく、これらのAPIはGCPに限らず、Amazon AWSやMicrosoft Azureでも同様のサービスがあると補足した。

APIは主に以下スライドの5つが挙げられる。ちなみに音声をテキストに変換する「Speech to Text API」は、最近、文書を書くことを仕事にしているライターや記者のあいだでも話題に上がっているサービスである。

【非構造化データためのGCP API】
・音声：Speech to Text API
・画像：Vision API／AutoML Vision
・動画：Video Intelligence API／AutoML Video Intelligence
・文書：Natural Language API／AutoML Natural Language
・自然会話：Dialogflow

GCP APIの仕組みは、機械学習により非構造化データにラベルをつけるもので、主に大きく2つに分かれるとのこと。そのまますぐ使えるAPIなのか、ユーザーがカスタムするかだ。

例えばさまざまな動物の中から猫を抽出する場合は、事前トレーニング済みモデルを。一方、猫の種類を判別する場合にはカスタムモデルを選び、ユーザーがラベルづけする必要がある。

ここからは、実際にこれらのAPIのデモを行いながら、その便利さを紹介していった。

まずは、画像認識の「Vision API」。高野氏は自身の顔写真をWebにアップ。すると、画面には何が写っているのか、表情はどうなのか（笑い、怒り、悲しみなど）、この画像はWeb上でどこにあるのかなど、さまざまな情報が数秒で上がった。

興味深かったのは、メガネの認識率の方が人よりも高かったことだ。実際、筆者も試してみたが、「アウターウェア」「ベルト」「パーソン」と検索され、やはり人（パーソン）の確率は他のオブジェクトよりも低かった。

音声APIのデモも行った。高野氏は早口とのことであったが、名前、年齢、出身地、好きな食べ物など。数秒の自己紹介を発声。名前の漢字が違っていたが、それ以外はほぼ100％の正解率でテキスト化されていた。なおこの音声APIは複数人が同時に話す会話も、それぞれテキストに変換する。

続いて、画像APIのカスタムモデル「AutoML Vision」を紹介。

特定のヨークシャテリアを探し出すモデルを作るデモで、数枚の写真をアップする際に、特定のヨークシャテリアが写っているか、写っていないかをラベルづけ。あとはトレーニングボタンを押せば、オリジナルモデルができる。

高野氏も講演で紹介したこれらのサービスは誰でも使える。やってみるとおもしろいので、以下にリンクを貼っておく。

●画像API ：Vision AI （https://cloud.google.com/vision/）
●画像APIカスタムモデル ：AutoML Vision ドキュメント
（https://cloud.google.com/vision/automl/docs/）
●音声API ：Cloud Speech-to-Text（https://cloud.google.com/speech-to-text/）

「いま紹介したように、画像や音声などの非構造化データであっても、構造化に変換できます。ただ、その変換が簡単にできるかどうか。ここからはまさにAPIのインテグレーションの話になりますが、特に既存業務に組み込みたい場合には、手軽さが重要だと私は考えています」（高野氏）

高野氏は「透過性」との言葉が書かれたスライドを紹介。現場での活用を推進するには、利用者の負荷を考えることが重要だと指摘した。

【事例②PERSOL】Cloud Speech APIを活用した対面音声のビジネス適用

後半のセッションでは、非構造化データを活用したビジネス事例について、PERSOL、SECOMの事例を紹介。まずは、パーソルキャリアの橋本久氏が登壇。表題のテーマについて紹介した。

▲パーソルキャリア株式会社テクノロジー本部デジタルテクノロジー統括部データ＆テクノロジービジネス部シニアストラテジストの橋本久氏

パーソルキャリアが行っている転職サポートサービスのひとつに、キャリアアドバイザーによる対面カウンセリングがある。そのカウンセリングにおける、キャリアアドバイザーと転職希望者の「音声」を、ビジネスに活かす事例だ。

「対面カウンセリングにおいて、転職希望者とキャリアアドバイザーのコミュニケーションがうまくいくと、転職希望者が転職に対して前向きになったり、実際に希望どおりの転職先に就職することができたりします。優れたコミュニケーションを可視化することで、さまざまな利活用ならびにビジネス展開を考えています」（橋本氏）

以前は技術的な問題があり、音声の可視化が難しかったが、GCPを活用することで実現。システム構成は以下のとおりだ。

まずは、カウンセリングルームに置かれる集音マイクについて。ピンマイクなどさまざまなデバイスを試したが、最終的には数名が同時に話しても聞き分けて集音できる、高性能AIスピーカーを採用。これにより、転職希望者とキャリアアドバイザーの声が、しっかりと判別できる。

続いて核の部分、非構造化データから構造化データへの変換について。クラウドを採用した理由は、オンプレミスな音声認識エンジンと比べると、導入後のチューニングがほぼ不要だから。実際、認識率は70％以上を誇り、滑舌な人の場合は100％近くにもなる。そして変換はリアルタイムで行える。

橋本氏はパーソルキャリアに入社する前、大手コールセンターでのデータ利活用プロジェクトに携わり、その後移ったSIでも、ビッグデータをビジネスで活用するプロジェクトに携わってきた経験がある。

その経験から、まっさらな音声認識エンジンだと正解率は60％ほど。そこから正解率をあげるために、正しいテキストにしてAIエンジンに学習させる必要があるが、このチューニングに多大な時間がとかかるという。実際、ある生命保険会社のプロジェクトでは、約400時間、半年ほどかかった。そして70％から80％に上げるのは、さらに大変だと続けた。

ただ、クラウドも万全なわけではない。

「GoogleのCloud Speech APIを使えば、チューニングにかかっていた時間は一切かかりません。にもかかわらず、導入時から70％ほどの正解率を誇ります。ただオンプレミスと違い、あくまでGoogleのテクノロジーに頼っていますから、そこから先、80％に上げることは自分たちではできません。そこが、ネックではあります」（橋本氏）

先に書いたさまざまなビジネス展開を、フェーズごとに紹介する。

フェーズ1では、若手キャリアアドバイザーの育成、事前準備、メンバー間の業務引継ぎ、データ入力コストの削減、転職希望者情報の社内共有で活用する。特に、育成領域で高い効果を得ている。

「これまで、いわゆる経験として捉えられていた、優秀なキャリアアドバイザーの会話スキルが可視化できた。それを手本にして共有することで、他のキャリアアドバイザー、特に若手の育成に活用できています」（橋本氏）

フェーズ2は「マッチングへの活用」だ。このシステムには、人の言葉をコンピュータが処理する自然言語処理技術のAPIが組み込まれており、同APIが転職希望者の会話をただの文字の羅列ではなく、ワードとして判別。「年収」「職種」「勤務地」といった、転職における希望条件だ。

そしてこれらのワードをデータベース化することで、希望に沿った条件の転職先を配信できるという。また集められたデータはBigQueryで集計・分析することで、利活用している。

現在のフェーズは、この2から少し先にいるとのこと。今まさしくPOCをやりながら、今後の展開に進みたいと橋本氏。その先のフェーズも紹介した。

フェーズ3では、コミュニケーションをさらに深掘っていった。具体的には、会話のイントネーションやリズム、音質などのいわゆる「パラ語」「感情表現」が加味されている音データの分析だ。さらに動画も組み合わせることで「顧客体験の可視化」を実現していく。

そして最終的には、これまで優秀なキャリアアドバイザーが行ってきたコミュニケーションをAIが実現。「AIカウンセラーを誕生させたい」との展望を述べた。

参加者から「カウンセリングの会話を録音して活用するのは嫌がられないか。法律的な障壁はないのか」との質問が挙がったが、「本人に同意を確認していますが、ほぼ断られません。20～30人で1人、2人ほどです」と橋本氏は答えた。

【事例③SECOM】プライバシーへの配慮が生み出す良質なユーザー体験

続いては、セコムの研究所に務める松永昌浩氏が登壇し、まずはセコムの歩みについて紹介した。

▲セコム株式会社 IS研究所コミュニケーションプラットフォームディビジョンスマートコンピューティンググループ　グループリーダの松永昌浩氏

1962年に創業したセコムは、家やビルが正常かどうかを、創業来一貫して監視・判断して必要な対処を行ってきた。ただ、監視の方法は時代と共に変わってきており、端的に言えば、人から機械・システムに置き換わっていった。

具体的には、創業から4年後の1966年に、センサーを使ったオンライン・セキュリティサービスをスタート。「いまからするとIoT的なシステムだったのではないかと思います」と松永氏。それ以降、今で言う、ヒューマンインザループの概念に近い、人と機械が連携するマンマシンシステムを発展させながら、世の中の暮らしを守っていく。

非構造化データを利用する主なサービスを開始したのは2000年前後で、「画像」や「位置情報」を利用した侵入検知や盗難検知などのセキュリティサービスを実用化した。近年では、生活に関わる時系列データである「電力」「音声」といった非構造化データを利用した見守りにも取り組んでいる。

2018年からは、実際に同技術を使ったサービス「IoTを活用した生活見守り・お困りごと解決」の実証実験をスタート。久我山にある事業所「セコム暮らしのパートナー久我山」を拠点とし、同地域に住む高齢者の暮らしのサポートを行っている。

「このサービスでは、利用者のお宅の分電盤に、電力の利用状況が分かる電力センサーを設置します。家電や利用状況によって電力は異なりますから、得られたデータを見れば、利用者がどの家電を、いつ、どれくらい使っているのかがある程度分かります。

さらに私が所属するIS研究所で開発した、変化検知、異常検知のロジックに通せば、異常を見つけることもできます。たとえば、猛暑日にエアコンが稼働していない。3日間も洗濯していない。前はよく掃除機を使っていたが、最近は使っていない、など。このような情報をもとに、異常を検知したお宅に、スタッフが訪問し確認します」（松永氏）

実証実験を進めていくと、いくつか課題が上がった。まずは、前とは異なる状況、つまり異常な状況であるかもしれないことはデータにより分かったが、その理由までは、データからは見えないことだ。

ポイントは、2つ目の課題だ。スタッフが訪問しデータの異常を説明、その理由を尋ねたときの利用者の反応である。松永氏は次のように説明する。

「電力センサーを設置するときに、家電の利用状況を測らせてもらいますときちんと説明はしていますが、実際に家電の利用状況を説明すると、お客様が思っていたよりも詳細に推定できていることに驚かれます。」（松永氏）

つまり、利用者が提供しているつもりの情報と実際に提供している情報にギャップが生まれる場合があること、そして、スタッフが訪問した時に初めてそのギャップに利用者が気づき、利用者によっては自分の生活が丸見えになっているような、率直に書けばいい気持ちをしていない状況になりうることが、実証実験を通じて見えてきたのである。

この課題の解決になりうるのが「コミュニケーションロボット」だ。セコムは高齢者のQOL維持・向上を目的とする「コミュニケーションサービス」の実証実験を行っている。この実証実験でセコムは、利用者宅にコミュニケーションロボットを設置。セコムが家族やケアマネ等の関係者に代わって声かけを行うことで高齢者の生活を支援する。先のようにスタッフが訪問して尋ねていた内容を、コミュニケーションロボットを通して行うこともできる。

実証実験を進めていくと、ロボットは利用者の宅にずっといて違和感がなく家族のように感じられることもあってか、利用者によっては積極的に自分の近況を伝えてくれた。もちろんロボットの先には事業所のスタッフがいて、利用者に話す会話をパソコンに入力するシステムとなっている。

このように、ロボットと利用者が同じ生活の場を共有していることが、先のような利用者が提供しているつもりの情報と実際に提供している情報とのギャップを埋める効果があるのではないかと、松永氏は言う。

すなわち、一緒に暮らしているロボットは自分の生活リズムや行動を良く知っていて当然であると利用者が感じられるようになっていれば、そのロボットがデータからわかった異常や変化について利用者に尋ねたとしても、その際の驚きが軽減されるのではないかということである。

実際に利用しているコミュニケーションロボットは「BOCCO」という製品で、利用者は「BOCCOちゃん」と、親しみを込めて呼んでいるそうだ。そして自分の生活をこのBOCCOちゃんが見守ってくれていることを認識している利用者からは、「家族がひとり増えたみたい」と嬉しい言葉が届いているという。

●コミュニケーションロボット BOCCO(https://www.bocco.me/bocco/)

松永氏はこの実証実験を踏まえ、まさに表題のテーマのとおり、「プライバシーへの配慮」の重要さを訴え、次のようにまとめ、セッションを締めた。

「情報には、提供した情報と提供していない情報の2種類があります。ただこの2つは厳密に言うと、提供した“つもり”の情報、提供していない“つもり”の情報です。先ほどのBOCCOの例で言えば、BOCCOと会話をするときは、利用者はボタンを押す必要があるので、自ら提供すると意思を示した情報。提供したつもりの情報ではありません。

一方、IoT機器から得た情報ならびに、そのデータをもとにAI技術などで推論した情報は。どちらの情報と利用者は捉えるか。とても曖昧です。つまり、プライバシーは主観的だということです。BOCCOを利用した実証実験のように、ユーザーが良い体験だと感じられる仕組みやサービスを考え、提供することが重要です」（松永氏）

参加者からの問いでも、まさに松永氏が最後にまとめた内容が上がった。

Q：監視されていることに抵抗を示す高齢者はいるか？

「BOCCOとフレンドリーに接する方、子供の頃に人形遊びなどが好きだった方などは抵抗感が少なく、むしろ逆、家族が増えたようだと喜ばれる場合が多いです。一方で、IoTやロボットの技術に詳しい方などは、情報が取得されることを嫌がる場合もあります。いずれにせよ、セコムのサービスが自分のためになっていると考えてくださるお客様、つまり、セコムと信頼関係が築けている方であれば、抵抗を示すことはありません」（松永氏）

※SECOMのパネル資料は配布不可のため記載していません。

会場から挙がった質問で盛り上がったQ＆Aコーナー

ここからは、モデレーターの斉藤氏が会場から挙がった質問を2人にぶつけていった。

▲パーソルキャリア株式会社テクノロジー本部デジタルテクノロジー統括部ゼネラルマネジャーの斉藤孝章氏

Q：法務対策はどのようにやってきたか。

松永：まず、データの利活用は2種類あると思います。一次利用と二次利用です。一次利用であれば、お客様は自分が使うサービスのために情報を提供するので、大きな問題になりません。一方、二次利用の場合は法務、プライバシーが問題になると考えます。

二次利用とは、あるサービスを提供していく中で、自然と溜まるデータを活用するようなデータの利用形態です。セコムの場合はお客様と対面するサービスが多く一次利用が中心となっているため、今のところ二次利用に関する問題は少ない状況です。

Q：情報の利活用に関する、個人、企業の反応はどうか。

橋本：先のカウンセリングの場合では、本人に同意を得て録音しています。ただ、カウンセリングでは転職希望者に最大限配慮をし、時には録音を止めたり、あとから削除するなどの対応をしています。これは、電話番号やメールアドレスなどに関しても言えます。まさに先の取り組みと同じく、本人が気持ちよいかどうか。デメリットな部分は削除していく仕組みを作っていく課題はあると思っています。

松永：プライバシーの保護はよく言われますが、保護という観点では個人情報保護法の遵守がまず最低ラインです。もうひとつ、その上にプライバシーの尊重という観点が重要と考えます。プライバシーを尊重するには、利用者の納得性がより高い状況になるようにすることが重要だと考えています。「そんなことまで分かるの？」といった状況にするのではなく、「そこまで気が利くの？」という状況を目指すことです。そのためには、利用者との信頼関係を築くことが大事だと考えています。

Q：同意においては書面で残しているか。

橋本：書面で残しています。ただ、先の削除部分の判断は、本人からの意見ではなく、我々が判断しています。つまり、同意を得てはいますが、利活用の判断は我々が行っている状況です。そのため、本人が自分の転職状況に活用できているとのメリットをきちんと把握できるような、透明性のある使い方や証明をする必要があると考えています。

松永：残しています。ただ、ステークホルダーの問題もあると考えています。先の高齢者の例だと、本人はいいと言っていても、ご家族からは反発の声があがる場合があるからです。ご家族も含めての同意、丁寧な説明が必要だと考えています。

Q：書面は口頭で言ったことを事業者が作成しているのか。

松永：サービスを契約頂く際の書面で、セットで個人情報の利用の承諾をもらっています。

橋本：口頭で先に言った使い方、削除の方法などを説明しています。その上で同意を得られたものを書面にしています。法務の確認のもと行っているフローですが、今後は確認する必要があるかもしれないと考えています。

Q：今後の非構造化データの活用について、将来像はどうか。

橋本：先ほど紹介したとおり、音声に限らず、会話のイントネーションや抑揚、音量、顔の表情などを、センサーデバイスの活用で収集していきます。さらに動画でのチャット形式のカウンセリングなども含め、よりマッチングの精度を高めていきたいと考えています。

松永：大きく2つあります。1つ目は防犯です。カメラで侵入者を把握するなど、認識系の使い方での発展がひとつ。もうひとつはまさに今日お話ししたとおり、何かいつもと違うということの検知。これはセコムの警備員にも該当する概念ですが、異常を探すのではなく、普段とは違う、正常ではないところを見つけるスタンスで、データの活用を進めていきたいと考えています。