AIへの学習はやっぱり使用データが重要
どうも、totokoです。
前回、データに偏りがあると結果にも偏りが出てしまうということをさらっと書きましたが、今回はそれにもう少しピックアップしてみましょう。
負のデータでサイコパス!?
アメリカの大学の研究によると、オンライン掲示板に投稿されたいわゆる「閲覧注意」的な画像や言葉をAIに学習させた所、AIがサイコパスになってしまったのです。
ロールシャッハテストの認識が普通のAIでは「2人が隣り合っている」と認識していますが、件のサイコパスになったAIは「部屋の窓から飛び降りた男性」と非常におかしな答えをしました。
他にもいくつかのロールシャッハテストを行ってみましたが、どれもこれもサイコパス的なおかしな答えをしたようです。
さてはて、この研究からわかったことは「学習に使用されるデータがアルゴリズムよりも重要」ということです。
アルゴリズム? なんだそれ? という人は……このコラム読んでいる人にはいないですよね。多分僕よりも詳しいはず。 ですが、一応説明を。アルゴリズムというのは「問題を解くための手順を定式化した形で表現したもの」です。 わかりやすい例ですとフローチャートですね。これも立派なアルゴリズムです。
アルゴリズムの効率性や完成度
複雑な問題を解く場合においてこのアルゴリズムの効率性や完成度が重要とされています。
先程の研究では、そのアルゴリズム(ここではAIに画像と言葉を学習させ、テストさせた時にどのように答えさせるのかという部分)よりも、データが大切ということを言いましたが、それはここまでくるとわかりますね。
アルゴリズムというのはあくまでも解き方の手順でしかないのです。
「負の感情的な解き方」とか「生の感情的な解き方」とかを作ることはできるのかもしれませんが、それでは用途が限られてしまいますよね?
AIというものは、人間がこれまですごい長い時間をかけていた問題などを、遥かに短い時間で、かつ複雑な問題を解くために用いられることがあります。
それによって、人間の考え方を遥かに上回る結果を叩き出すことができるのです(身近な例ですと将棋AIとかですね)。
「人間を超えた結果を出す」ためのAIなのに、解答を限定させてしまっては、本末転倒ですよね? だって、ある程度答えがわかってしまっているのですから。
それならわざわざ仰々しくAIを使う必要もありません。 コンピュータがあたかも人間の感覚で答えるかのようにすることで、これまでやっていた複雑な仕事や、定式化された作業等を肩代わりしてもらい、人間本人は生身の人間にしかやれないこと(または、得意なこと)をしていこうというポリシーのもとの、AIの実験研究です。
適切なデータ群の選択がキモ
現在ではコンピュータの性能などが向上し、大きな実験室を用意せずとも、個人単位でミニマム的な実験は行えるレベルにはなってきたはずです。
AIや機械学習を用いたサービスなども増えてきて、「機械で賄えるところは機械にやってもらおう」となってきています。
そういう時に必要なのは、「機械が行動する指針となる参考データ」になるのです。
適切なデータを集めて、学習させることによって、ユーザーや開発者が求めている結果をAIが出してくれます。
これはつまり、データが不適切であった場合は、本来必要とする結果を一向に出してくれないということも意味しています。
もちろん、SF映画やロボットアニメのような「悪のマシン」を作りたいのならば、悪人の心理とかのデータを学習させればいいでしょう。
しかし、それは悪人の世界では通用するかもしれませんが、一般向けには通用しません。
考えてみてください。
もし、お掃除ロボットのAIが何者かの手によって部屋を片付けないデータだったり、悪者のデータで埋め尽くされてしまうと、障害物を避けて動くとかそういうことをせずに、部屋をめちゃくちゃにしてしまうかもしれません。
まあこれは極端な話ですので必ずしも、そうであるとは限りません(そもそもお掃除ロボットのAIの仕組みが違うかもしれませんし……)。
なんにせよ、機械学習、深層学習(AI)において大切なのは、「〇〇実現のための解き方」よりも「〇〇実現のためにどんなデータがいるか」の方が重要であるということです。
これに関して、エンジニアだけではなく、サービス等の開発企画を立てる人たちも頭に置いておく必要があります。
良質なデータが良質なAIを産むのです。