【レポート】キヤノンが描くと、未来はこうなる。 - Canon AI・Engineer Forum -

イベント公開日: 2018/05/31

ブックマーク

#機械学習, #Deep Learning, #自然言語処理, #人工知能, #ビッグデータ

キヤノン株式会社

2018年3月20日（火）19時より、「キヤノンが描くと、未来はこうなる。Canon AI・Engineer Forum」が開催されました。

AIをテーマにキヤノンが主催する本イベントには、AI研究の第一人者として著名な東京大学大学院工学系研究科特任准教授である松尾豊さんが登壇することもあり、参加申し込みが殺到。当日は当選した約150名が会場に集まりました。

登壇者と講演のテーマは次の通りです。

「ディープラーニングの技術概要と今後の進展」
東京大学大学院工学系研究科松尾豊さん

「キヤノンにおけるAI技術開発」
キヤノン株式会社御手洗裕輔さん

「ネットワークカメラとAIのリアル」
キヤノン株式会社沼田真仁さん

「IMAGINGをAMAZINGに」
キヤノン株式会社飯島克己さん

それでは内容を紹介します！

ディープラーニングの技術概要と今後の進展

まずは東京大学大学院工学系研究科の松尾さんより基調講演です。

松尾豊（まつお・ゆたか）／東京大学大学院工学系研究科 特任准教授。東京大学大学院博士課程修了。2002年より産業技術総合研究所研究員を務め、2005年10月よりスタンフォード大学客員研究員。2014年に現職に就任。2017年よりディープラーニング協会理事長。著書やメディア出演多数。

まず、松尾さんは冒頭に将棋の名人よりも強いレベルにわずか2時間の学習で達してしまう「AlphaZero」を紹介。この数年でいかにディープラーニングが急速に進化しているかを説明した後、現在「人工知能」「AI」という言葉が使われるものには、次の3つがあると指摘します。

1. IT系
従来からのIT技術でもできていたことを「AI」と呼び替えるだけのパターン。「AIを売った」ことがニュースになるケースも多いため。FinTech、IoT、RPAなどの領域で見られる。

2. マシンラーニング系
機械学習や自然言語処理を中心とする技術。ビッグデータ、ウェブ関連などの領域で使われている。グローバルなプライヤーが強い。

3. ディープラーニング
深い階層をもったニューラルネットワーク。画像処理・認識が向上しロボットと融合している。ロボットは「眼」を持てるようになった。

「マシンラーニングも重要であることは間違いありません。ただ、今から参入してももう遅いんです。お金になるところはグローバルのプレイヤーに取られています。国内企業が参入しても、ビジネスとしての伸び代はあまりないと私は考えています。

ただ、ディープラーニングはまさに今、世界中の企業が競っているところで、大きなイノベーションが起きています。ハードウェアとの親和性も高いので、製造業が強い日本企業も戦える可能性が十分にあると私は思います。

ディープラーニングを使った画像認識はこの数年で急激に制度が向上しています。ディープラーニングを使っていない2011年の画像認識では、エラー率が25.7％ありました。2017年の画像認識競技会では、エラー率は2.3％しかありませんでした。人間のエラー率が5.1％ですから、人間を越えるほどの進化がわずか5年ほどの間に起こっているのです」（松尾さん）

その一例として映像に移っているオブジェクトをリアルタイムで判別する様子を共有した松尾さんは、次に「画像認識で様々なものが把握できるようになり、それに合わせてロボットが動作する技術が進んでいる」と深層強化学習の事例を紹介します。

松尾さんは「ディープラーニングがもたらした意味」を次のように語ります。

「実は『医療の診断』や『チェスを打つ』など大人が実践する高度な推論は実現することが比較的やさしいんです。それよりも『画像認識』や『積み木を上手く積む』など3歳児が行う認識や運動スキルを実現することの方がむずかしいものでした。

それがこの3年くらいで飛躍的に実現できるようになっています。これが、第1次AIブーム、第2次AIブームとの大きな差ですね。私はこれを『眼の誕生』だと考えています。これからは『眼を持ったロボット』が圧倒的に広がるのです。

もちろん、これまでにもイメージセンサーは存在していました。ただ、それは人間でいえば『網膜』ですよね。人間も網膜に映った信号を脳の後ろの方にある『視覚野』という部分で処理することで『見える』ようになっています。ディープラーニングはこの『視覚野』に相当するわけです」（松尾さん）

さらに、「機械が眼を持つようになると、眼が見えないとできない様々なタスクが可能になります」と松尾さん。その例として「農業でのトマト収穫ロボット」「建設での自動溶接機械」「食品加工での食洗機にお皿を入れるロボット」など、「眼が必要なタスク」を行うロボットを紹介します。

「例えば世界の外食産業のバックエンドは、近い将来必ず全て自動化していると私は思っています。調理の自動化は可能ですが、とても難しい複雑なタスクです。外食産業の人件費は現在とても安いので、自動化ロボットを使う方が遥かにコストがかかります。

ですから、ビジネスとして成り立つ領域はどこかを探ることが今後は求められていくでしょう。どこかに一箇所ロボットが入れば、その周辺のタスクはどんどん自動化していきます。どこでもいいのでビジネスとして成立する領域を見つけるのが重要です」（松尾さん）

「日本の勝ち筋は機械から入ることです」と続ける松尾さん。

「日本の戦略としては、機械に『眼』をつけて作業の自動化を推進していくことです。すると、データを継続的に集められますので、その『眼のある機械』を起点としたデータを活用してプラットフォームをとっていくというやり方ですね。

海外企業ではすでにディープラーニングの実用化が進んでいます。Deep Mind社に代表されるように医療画像の認識はどんどん進化していて、医者よりも高い精度が次々に出ています。日本は既に出遅れてしまっていますね。次に進んでいるのは顔認識でしょう。

ですから、『眼のある機械』を起点としたデータが重要なのです。単なるデータだけでは、当然ながら英語圏の方がマーケットが大きく、日本はかないません。ただ、センサー系を含めると機械の領域では高い世界シェアを持っている企業が日本にはたくさんありますよね。このやり方が一番可能性があるというか、このやり方以外には勝ち方がないとすら私は思います」（松尾さん）

さらに、松尾さんはディープラーニングによってロボットが「認識」することができるようになった結果、「今後は『認識』が人間から切り離されて、社会の必要なところに再配置されるようになる」と指摘します。

「産業革命以前は、『力』は人間の筋肉に基づいていましたが、蒸気機関が発明されることで社会の様々な場所へ『力』が再配置されました。

先ほど挙げた業界だけではなく、『認識』も今後、製造・物流・介護などあらゆる領域に広がっていくでしょう。例えば、現在の家電には認識機能はありませんよね。それは、ほとんどの家事労働には『認識』が必要だからです。

今後、もう一度大きな家電の波がきます。それは認知機能を取り入れた家電です。自動で片付けをやってくれたり、スーパーで買ってきた野菜や魚を冷蔵庫にしまってくれたりするわけです」（松尾さん）

ディープラーニングの活用法などを話した松尾さんは、続いて技術的な側面から概要を説明します。

「一般的な概念の中でディープラーニングに一番近いのは『最小二乗法』です。Excelで近似直線を引くアルゴリズムにも最小二乗法が使われていますね。

例えば、『ある日の気温』と『ある日の飲料売上のデータ』があるとします。最小二乗法を使うと『気温が28℃だったら、どれくらい飲料が売れそうか』を予測ができます。

測定で得られたデータセットを特定の関数を用いて近似する際に、想定する関数が測定値に対していい近似になるよう、残差の二乗和を最小とするパラメーターを求める方法です。これはディープラーニングの仕組みとほとんど同じものです。

先ほどの例では、1変数として『気温』のみがありました。これを『気温と湿度』の2変数に増やすこともできますし、同じように1万変数にまで増やすことができわけです」（松尾さん）

1万もの変数とはどのようなものなのでしょうか？

「例えば、100×100の画像から猫かどうかを判別する問題です。x1からx10000までの変数をとるパラメーターを推測するわけですね。これも最小二乗法で行うことができます。一旦推測ができると、『この画像は猫である』『あの画像は猫ではない』と判別できるようになります。

ディープラーニングは基本的にはこういうことをやっています。パラメータの数が多いのでデータ数は多くなり、すると計算が大変になりますからGPUが必要となってくるわけです。ときには数億個のパラメータを持つ計算をすることがあります。

実際には、猫関数はこれほど簡単ではなくもっと深い構造をしています。x1からx10000の変数から直接ではなく、k1からk10000のパラメーターを中間的な関数を介して猫関数が定義されているのです。この場合は１段関数をかませているので、二層のネットワークを作ることに相当します。このようにどんどん階層を深くしていくわけですね。

ただし、線形のものの階層をいくら深くしたとしても、線形にしかなりません。非線形な要素をいれたい場合には、『Sigmoid』関数が使われてきました。

ニューロンは刺激が少ないときには発火せず、刺激が強くなると発火するので、0と1を上手くつなぐ関数を定義してあてはめると、全体として非線形性の強い関数になるのです」（松尾さん）

続いて松尾さんは、なぜ階層を深くすることが重要なのか次の3点を列挙します。

1. 世界の階層性
「猫の顔には目と鼻とヒゲがあり、ヒゲが12本ある」のように世界の構造が階層的になっているので、学習モデルも階層性をもったモデルのほうがいい。

2. 多様性
線形なモデルで切り取れる領域は、直線でかこめる範囲でしかない。非線形なモデルで階層を重ねるほど、自由に領域が指定できるようになる。

3. 効率
簡単な関数を何層も組み合わせることで、指数的に効率よく記述することができる。

「こうした理由から階層を深くすることが重要なのですが、従来まではデータもなく、また計算力も足りなかったので実現できなかったんです。それが今できるようになってきています。

また、活性化関数が進化したのも大きな要因です。これまでの約30年間は『Sigmoid』関数がつかわれてきましたが、現在は『ReLU』が使われるようになっています。これは『Sigmoid』と比較して、xが大きな値のときに微分をとっても最適化しやすいからです。

『ReLU』は2012年頃から使われるようになりました。それまでなぜ『Sigmoid』が主流だったかといえが、理論的に美しいからなんですね。それまでは技術的に実現できなかったので、理論の美しさが求められていたのです。それが、この数年は様々なことができるようになり、多くの新しいやり方が広がっていきました。

そのひとつに『Batch Normalization』が挙げられます。各ニューロンの出力値を平均0、分散1になるように正規化して、勾配消失・勾配爆発へ対応するアイディアです。これは、現在のほとんどもディープラーニングに採用されていますね。理論的な研究から工学的な研究へシフトしているのです」（松尾さん）

松尾さんはこれまでにみた最小二乗法を基本とした方法を下記の通りまとめます。

xとyを決める
回路を決める
損失関数を決める
データを集めて学習し、パラメーター最適化する

「このワンパターンで本当にいろんなことができる」という松尾さんは下記を例に挙げました。

画像認識 → x:画像、y:クラス
物体検出 → x:画像、y:バウンディングボックスとクラス
セグメンテーション → x:画像、y:領域とクラス
翻訳 → x:英語の文、y:日本語の文

最後に、松尾さんは自身が抱いているという危機感を会場に共有して講演をまとめました。

「私はディープラーニングは日本人に向いていると思います。最初は難しく取り組みにくいところもあるのですが、最終的には細かいチューニングが必要であったり、質の高いデータを集めることで精度があがっていったりするからです。だから、たくさんの人に技術を習得して欲しいですね。

『ディープラーニング』は、歴史的に見ると『インターネット』『トランジスタ』『電気』に匹敵するような数十年に一度のイノベーティブな技術だと私は捉えています。簡単な関数の組み合わせで、複雑な関数を表現し、パラメーターをデータから学習するという非常にシンプルなものでしかありませんが、ディープラーニングの上に様々な技術が積み重なることで非常に多くのことができるようになっていくでしょう。

ディープラーニング関連の論文が引用された回数のランキングを見てみると、この10年位内に博士号をとったばかりに人物がトップ10、トップ30に非常に多く入っています。これはほかの領域では全く考えられないことで、通常は引用数でみると70代の大御所の博士が上位を占めており、若い博士が上にあがることはできないのです。若い人が上位に並ぶディープラーニングは、いかに新しい分野なのかということを示しています。

このランキングに出てくる日本人は400位くらいの方がトップです。ただ、彼はマサチューセッツ工科大学で学んでいるので、日本で学んでいる日本人ではないんですね。非常に遅れをとっているわけです。

日本の問題点は3つあります。まず、『古い』こと。人工知能への投資といいつつ、既存の分野への投資になっていることがほとんどです。それはアカデミアの大御所やITベンダーが従来のソリューションを売りたいと考えていることが原因だと思っています。

次に『遅い』ことです。私は最近『消極的全張り』と呼んでいるのですが、意志決定ができずに全ての分野にちょっとだけ取り組み、やったことにしているんです。これだけの大変革の時代ですから、経営陣が意思決定をして、技術を踏まえた事業としての投資を素早く行うことが必要です。

最後は『人への投資になっていない』という点です。先ほどの論文引用数ランキングでトップ300に入る人材は、博士号を取得したばかりの20代、30代の初任給で年収が50万ドル、30位内だと数百万ドルという争奪戦が繰り広げられています。松尾研でも5000万円くらいでオファーをしているのですが、獲得することができていないのです。

しかし、日本全体でみると結局スーパーコンピュータを買っているような状況です。ディープラーニングに取り組む人をどんどん増やし、優秀な人材を世界から連れてこなければいけないのです。

ディープラーニングと日本のものづくりの組み合わせは非常に大きな可能性を持っていると私は思います。その一方で、そのポテンシャルをまた活かせないのではないかという危機感も持っています。勝負の世界ですから、正しく早く動くことが必要です。

いかにディープラーニング、人に投資をしていくかがグローバルで勝ち抜くための日本の課題でしょう。本日はありがとうございました」（松尾さん）

次のページ：
キヤノンにおけるAI技術開発

【レポート】キヤノンが描くと、未来はこうなる。 - Canon AI・Engineer Forum -

ディープラーニングの技術概要と今後の進展

キヤノン株式会社

テクノロジーと共に成長しよう、
活躍しよう。

タグからイベントをさがす

キヤノン株式会社

エラータイトル

ディープラーニングの技術概要と今後の進展

関連するイベント

おすすめの記事

テクノロジーと共に成長しよう、活躍しよう。

タグからイベントをさがす

エラータイトル

テクノロジーと共に成長しよう、
活躍しよう。