「日本最大級のデータ量を保有するソフトバンクのAIを加速させるエンジニアリング・データサイエンス・ビジネス企画」とは?

イベント 公開日:
ブックマーク
「日本最大級のデータ量を保有するソフトバンクのAIを加速させるエンジニアリング・データサイエンス・ビジネス企画」とは?
6月26日に開催された「SoftBank AI Meetup - 日本最大級のデータ量を保有するソフトバンクのAIを加速させるエンジニアリング・データサイエンス・ビジネス企画 –」。本イベントにはソフトバンクの「AI&データ推進部」「AIデータエンジニアリング部」「AIエンジニアリング部」のマネジメント層3名が登壇。事例なども交えながらソフトバンクのAIの活用状況について紹介。Q&Aや懇親会も行われた。

参加者100名の属性は、データサイエンティストが最も多く26.8%、開発エンジニア18.9%、機械学習エンジニア14.7%、事業企画担当者12.6%、データエンジニア12.1%、コンサルタント11.6%。AIの実務経験については1~3年未満の人が45.2%、1年未満の人が34.7%、3~5年の人が13.6%、5年以上の人が6.5%であった。

AIを活用し、新たな領域のビジネスを事業化する

最初に登壇したのは、AI&データ推進部部長の千葉 芳紀氏。千葉氏はまず、AIビジネスにおけるソフトバンクの動向や戦略を説明した。

1
▲テクノロジーユニット モバイル技術統括 IoT&AI技術本部 AI&データ技術統括部 AI&データ推進部 部長の千葉 芳紀氏

「従来の通信事業を維持・拡大しながらも、これからの成長戦略、新たなビジネス領域としてAIを捉えています。具体的にはAIやデータ、その他関連テクノロジーを生かした新たなビジネスの事業化です」(千葉氏)

具体的には以下3つのリソースを活用しながら、実現を目指していくという。

①海外でAIの先端研究を行っている企業や研究所との連携
②社内リソース
③大学・研究機関との連携

①においては、戦略的かつ積極的に投資・買収を行っているソフトバンクグループと連携し、活用できそうなAI技術を持つ企業と協業。②においては社内にAIを専門に手がける部署があり、後から登壇する2名も含め、既に多くのAIエンジニアを擁しているとのことであった。

また同部署の役割についても、同じく3つあると説明した。

【ソフトバンクのAI&データ推進部の役割】

①AI&データコンサルティング
社内外問わず、AIやデータテクノロジーの活用で課題を解決に導く提案ならびにコンサルテーション。

②ビジネス企画/プロダクトマネージャー
現在保有するデータを使うことで、新しいビジネスチャンスにつなげる。あるいは新たなサービスにつながる提案を行う。

③プロダクトマネージャー
上記①②の提案が稼働した際のプロジェクトマネジメント。

AIを活用できる領域はさまざまで、事例もいろいろあるとのこと。その中から代表的なものを紹介した。

「社内での事例はいくつかあります。社員からの問い合わせ対応を『チャットボット』にすることが1つ。ドローンで撮影した画像解析による通信設備のメンテナンスなども行っています」

続いて、社外の事例についても3つ紹介した。

2

①データ活用による街づくり~東京・丸の内エリアでの事例

三菱地所、富士通、東京大学などと、大手町、有楽町、丸の内の、大丸有(だいまるゆう)エリアを対象とした実証実験を行った。このプロジェクトでは、三菱地所が保有するビルの設備稼働データや商業施設関連データなどと、ソフトバンクグループが保有する人の流れに関するデータなどを、ソフトバンクのプラットフォームなどを活用して分析を行い、各企業や組織の知見を活用することで業種を超えた新事業・サービス創出を目指している。
(プレスリリース:https://www.softbank.jp/corp/news/press/sbkk/2018/20180514_02/

②AI・IoT実証プラットフォーム構築~広島県での事例

広島県では、県内の企業や大学、自治体などが、AIやIoTに関するさまざまな実証実験を行うことができる場「ひろしまサンドボックス」の推進に取り組んでいる。ソフトバンクは、ソフトバンクが持つさまざまな最新技術やIoT事業で培った知見を生かして協力していく。
(プレスリリース:https://www.softbank.jp/corp/news/press/sbkk/2018/20180517_01/

③データプラットフォームの構築ならびにAIソリューション開発~東京大学での事例

東京大学とソフトバンクは、健康・医療情報の利活用を促進するデータプラットフォームの構築と、そのプラットフォームを活用するAIソリューション開発に関する共同研究、および成果の社会実装方法を検討しています。医療データを含めた個人情報は特殊性が強いことから、個人情報保護に万全を期し、次世代医療基盤法の趣旨を生かしたデータハンドリングについても、この共同研究の中で対応を進めていく。
(プレスリリース:https://www.softbank.jp/corp/news/press/sbkk/2019/20190327_01/

「発想力」「コミュニケーション力」がAIやデータの活用・推進を成功に導く

千葉氏は最後に、AIビジネスを推進するには、どのようなスキルセットが必要かについても言及した。

3

「AIビジネスを成功させるには、データサイエンス力、データエンジニア力、ビジネス力。この3つのスキルの掛け合わせが重要であり、1つの領域に特化しているだけでは難しいと考えています。ただ1人で全ての領域を網羅している人は、そうそういません。その上で言えることは、エンジニアのスペシャリストというよりも、ビジネスの発想力に長けている人。もっと言えば、人とのコミュニケーション力に優れている人が、活躍しているように感じています。
そして同スキルはAIやデータ領域に関係なく、昔からビジネスの成功で必須なスキルでもありました。AIビジネスは、まだこれからの領域です。技術力はもちろんですが、さらにコミュニケーション能力にも長けていて、かつ、斬新な発想ができる人。そんな人が、これから同分野で活躍していくのだと感じています」(千葉氏)

データ分析基盤の構築

20代のエンジニアが中心となりデータ分析基盤を構築

続いては、データエンジニアリング部の金子 隆大氏が登壇。部署の説明をした後、現在行っている「データ分析基盤の構築」について説明した。

4
▲テクノロジーユニット モバイル技術統括 IoT&AI技術本部 AI&データ技術統括部 データエンジニアリング部 部長代行の金子隆大氏

「私がいる部署では、ビジネスに活用できるデータを作る、データを活用するためのシステムを作る、データを活用したソリューションを作るという大きく3つのことを行っています。この3つを、20代中心のメンバー総勢約35名で行っています」(金子氏)

データを活用するためのシステムは大まかに言うと
ソフトバンクが持つIoTのシステムや社内のシステムからデータを集めるためのコネクタ、集めてきたデータの保存・分析をするストレージ、その可視化を行うためのBIツール群、そして画像分析や異常検知などの機械学習を行うAPI群で構成されている。
基盤のアーキテクチャは次の通りだ。集めたデータは機械学習系のAPIで処理。あるいはストレージに入れ、Hadoopで分散処理した後、再び機械学習APIで処理・可視化する、というものだ。

「まずはよくあるシンプルな仕組みでデータ分析する環境を整えた」と金子氏は言うが、データの活用においてはシステムを開発する以外に以下のような課題が上がったという。

5

【データ分析基盤の構築における課題】

 ・有用なデータが簡単に集まらない
 ・データ活用方法の具体的戦力が乏しい

データを単に集めるだけでは、不毛なデータも多く集まりデータの有効な掛け合わせも簡単にできない。そのためどのようなデータを集めるべきか、そのデータをどのように活用するか、といった戦略が重要であり、データサイエンティストだけでなく企画系のメンバーを入れ、データの戦略を立てていると言う。

また、社内で集めたデータをアドホックに素早くデータ分析できるための仕組みも構築している。
「ログインすると、社内で集めたデータセットの一覧・詳細を見ることができ、その中から使用したいデータをクリックすると、自分専用のデータ分析環境が立ち上がってその場で分析できる環境を作っています。社内のデータサイエンティストたちが集めたデータを使って簡単に分析でき、その結果を共有できるようにし、多くの部署でデータ分析の活動を活発化させることを目的としています。今はある程度試せる環境ができてきていて、社内のデータサイエンティストが試しに使って検証をしている段階です」(金子氏)

システム構築におけるエンジニアの作業環境も紹介した。

6

「システム開発をしているエンジニアはクラウド上の開発環境を使って作業しています。データサイエンティストたちは、Pythonを使ってデータ分析をしている人が多いですが、モバイル事業のデータの中には1日に2TB生成されるデータもあり、そのような大きなデータはSpark環境でScalaを使って加工しています。システム開発では、オープンソースをなるべく使うことを意識しています」(金子氏)

さらに金子氏は今後の取り組みについても言及した。

「ソフトバンクグループにはご存知のように、数多くのグループ会社があります。その数142社。さらに弊社の連結子会社となったYahoo! JAPANも多くのグループ会社を持っているため、これらのグループ会社と一緒にお互いのデータを活用していくような取り組みを検討していきたいと考えています」(金子氏)

社内外どのフィールドでも使える共通プラットフォームを構築

最後に登壇したのは、自然言語処理、画像処理が専門領域だという山田 聡氏。前半は具体的なAIの活用事例について話した。

7
▲テクノロジーユニット モバイル技術統括 IoT&AI技術本部 AI&データ技術統括部 AIエンジニアリング部 部長の山田 聡氏

チャットボットのNLPエンジンを開発

ソフトバンクのホームページに行くと分かるが、機種変更や契約内容などについての質問には、Pepperに見立てたチャットボットが対応している。山田氏は、このチャットボットのNLPエンジンの開発を担当しているとのこと。

「シナリオ管理、テキストの分類・判定機能の構築など、いくつかの機能やアプリケーションを個別に開発し、後でまとめるマイクロサービスの手法で行っています。また同エンジンは社外ユーザーに対してだけでなく、社内メンバーからの総務や人事への問い合わせなどにも活用しています」(山田氏)

開発環境も紹介。ユーザーへのアンケートや社内メンバーへの調査結果などで得られたデータを、ドキュメントデータの全文検索エンジン「ElastichSearch」や、データをビジュアル化する「Kibana」、分析系機能のREST APIにプラグインで連携させる形で、テキストマイニング基盤として開発したと説明した。

観光地の入場者制限を自動化

次の事例は、愛知県犬山市との共同実証実験。同市の観光名所である犬山城に入場するまでの待ち時間表示を自動化する仕組みだ。これまでは担当職員が行列の長さなどから、おおよその待ち時間を推測し、案内板を設置する担当者へ電話連絡しており、手間がかかっていた。

そこでソフトバンクは城門にカメラを設置し、人の流れを検知。同データはAPIを通じてソフトバンクのIoTプラットフォームに連携され、人数をカウントして分析。再びAPIを通じ、同市の観光ホームページや関連ウェブサイトに、具体的な待ち時間として自動更新しながら表示されるように変わった。

手書き文字をスキャン・デジタル化するOCRエンジンを開発中

ペーパーレスが進む一方で、交通費などの経費計算はいまだに紙で、処理はアナログで行っている場合が多い。ソフトバンクでは同業務のRPA化を目指し、現在複数のディープラーニングモデルを組み合わせ、手書きの文字をスキャン・デジタル化するOCRエンジンを開発中とのことであった。

ドローンが撮影した画像処理

事例の最後は、ドローンが撮影した画像処理だ。鉄塔など人が行きづらい場所の設備の劣化点検などでの活用を検討しているが、背景画像が邪魔となり、錆などの知りたい、観たいデータの検出が難しいという。そこでセマティックセグメンテーション+パッチ画像分類で、こちらも先のOCRエンジンと同じく、新たなエンジンを開発中とのことであった。

機械学習モデルの開発とデプロイ

事例紹介の後は、実際に機械学習の開発からデプロイまでの、かなり踏み込んだ技術的な内容となった。

8

「ソフトバンクの開発理念として、個々の業務やサービスごとに異なる基盤をつくるのではなく、どの業務でも使える、共通・横展開できるプラットフォームを開発するとの考えが、まず大前提にあります。総務や人事といったバックオフィス業務でも使えるし、お客さまとのコンタクトでも使える。そんなAIプラットフォームです」(山田氏)

そう言うと、山田氏は自ら考え設計したアーキテクチャを紹介した。

9

概要を要約して説明すると、エンドユーザーから学習データをもらい、RESET APIで受け取り、バックエンドの学習サーバーに流す。学習サーバーはトレーニングを実行。学習が終わると学習モデルがレポジトリされる。このような理論であり、フローだ。

ただ実際に稼働するとなると、問題がいくつも挙がったという。

【開発当初の問題】

・モデルが多すぎるためサーバーが足りない
・学習データが多いため学習に1週間かかる。GPUを使いたい
・画像分類を行いたい時に同じような仕組みを作り直さないといけない
・Googleのオープンソースライブラリ「TensorFlow」を使いたい、などさまざまなライブラリを同居させるのが難しい

当然ではあるが、数多くの業務・レイヤーで使える共通プラットフォームだからこそ、ニーズはいくらでもある。そこで山田氏のチームで構築したのが、もともとGoogleが社内のコンテナ管理インフラシステムとしてつくった「Kubernetes」を用いた現在のシステム「機械学習API基盤 OK Platform」だ。

10

「Kubernetesはたくさんのサーバーを、あたかも一つの巨大なリソースとして管理できます。そのため一つのサーバーでは荷が重すぎるモデルを、自動で複数のサーバーにデプロイしてくれます。それだけではありません。AWSを使っているため、仮にサーバーが全て埋まっていたら、自動で物理サーバーをスケールしてくれます。

また学習タスクにはAWS Batchを利用しているため、いくらでも同時に学習を実行できますし、CPU/GPUの切り換えも可能です。学習ノードは利用者や利用用途によって選べるようにしています。コンテナで管理しているので、さまざまな言語、アルゴリズム、フレームワークを使えます。正直、共通・汎用化に応えることのできるシステムやプラットフォームをつくることは難しいです。しかし実現できれば、開発者はシステムの構築ではなく、本来やるべき機械学習モデルの開発により多くの時間を費やすことができます。私は機械学習が安定運用できるMLOps(機械学習基盤)の開発に、これからも注力・推進していきます」(山田氏)

質疑応答

3名の登壇後は、質疑応答が行われた。

11

Q:チャットボットが増えてきているが、複雑な質問に対して「分かりません」と答えるなど、技術的に未熟なのではと感じる。

山田:他社の事例との違いでいうと、ソフトバンク公式サイトのチャットボットの特徴は、ものすごい数のパターンの回答を行えることです。言い方を変えれば、回答数を増やしたいから、内製しています。だからこそ先に紹介したように、複雑なシステムになっています。それ故に、応答がスムーズではない部分もまだあるのが課題です。

Q:機械学習、ディープラーニングの技術は、フィンテックにどのように適用されているか。

山田:2つ大きなトピックがあります。一つが、みずほ銀行とのジョイントベンチャー、J.Scoreにおけるサービスです。ソフトバンクのアカウント情報を連携すると、信用度がスコアリングされ、スコアの高い人は安い利率でお金を借りることができます。このスコアリングで機械学習を使っていて、実際、私たちのチームもプロジェクトに協力しています。

もう一つは「PayPay」です。グループ会社ということもあり、私たちのチームのデータサイエンティストが何名か参画しています。

Q:機械学習を利用するプロジェクトにおいて、チーム編成はどうなっているのか。単独で動いているのか。あるいは横串連携しているのか。

12

千葉:既に紹介した内容でもありますが、結論から言うと横串です。私の部署、AI&データ推進部で、ユーザー部門のニーズ把握、プロジェクトマネジメントなどを行い、機械学習に関する開発は山田の部署のメンバーをアサインしてもらっています。

Q:ソフトバンクは新卒だけでなく、中途入社も多いのでは。その中で今日紹介したソフトバンクならではの組織文化は、どうやって維持しているのか。

千葉:語弊があるかもしれませんが、単一の考え方をつくらないことを心がけています。多様なニーズや技術を扱っていくには、画一化された考えは危険だと思っているからです。私の部署には20名ぐらいのメンバーがいますが、お客さまとのコミュニケーションに長けているメンバーもいれば、技術スキルが高く、プロトタイプまで作ることのできるメンバーもいる。そんなさまざまなメンバーが揃っている方が多様性があっていいなと。あえて文化を挙げるならば失敗を恐れずに「とりあえずやってみる」です。ビジネス的な成功ばかりを考えていると、前に進まなくなりがちですからね。

13

金子:実際、中途の方も多いです。入社後はまずは面談を行いますが、その後もコミュニケーションをとりながら、その人になるべく合う仕事を行ってもらうようにしています。また、入社後は今までの環境と異なるので、相談しやすい雰囲気を作って悩みや不安をなるべく1人で抱えこまない環境をつくるように意識しています。

山田:外国出身のメンバーが増えていて、いわゆる日本人的感覚の空気を読むコミュニケーションは難しい場合もあります。そこで空気を読むのは私のようなマネジメント層が行うようにして、現場メンバーにはなるべく明確なタスクにして落とすということを心がけています。。

Q:GitHubなど、オープンソースソフトウェアのキャッチアップ、導入する際の注意点、ライセンスまわりはどうか。

山田:ライセンスは、PoCの段階はともかく、本番に向けて取り組む段階で精査します。キャッチアップは、個人が捕まえてきた面白そうな情報を社内でシェアしています。つまり、個人の情報アンテナに依っています。

テクノロジーと共に成長しよう、
活躍しよう。

TECH PLAYに登録すると、
スキルアップやキャリアアップのための
情報がもっと簡単に見つけられます。

面白そうなイベントを見つけたら
積極的に参加してみましょう。
ログインはこちら

タグからイベントをさがす