TECH PLAY

Laboro.AI

Laboro.AI の技術ブログ

146

「強いAI」と「弱いAI」。AIが人間を超えるかが分かる分類 2022.12.28 株式会社Laboro.AI リードマーケター 熊谷勇一 概 要 AIに関する話題の中で、AIが人の心を持つかどうかで分類する「強いAI」「弱いAI」という言葉を聞いたことがあるでしょうか。AIが自身よりも賢いAIを作り出して人間がはるかに及ばない知性が誕生する「シンギュラリティー(技術的特異点)」が訪れるという仮説も聞いたことがあるかもれません。これらはお互いに関係がある考え方です。一見、AIの産業応用にはあまり関係がなさそうに思えるかもしれませんが、これらもしっかり知ることにより、成果をより生み出すAIを構想する助けになります。 目 次 ・ AIが十分に知的かどうかを判定する方法  ・ 強いAI  ・ 弱いAI ・ 「強い弱い」と視点が異なる「汎用型AI」と「特化型AI」  ・ 汎用型AI  ・ 特化型AI ・ 実際に使われている「弱いAI」の事例  ・ AlphaGo  ・ 外観検査  ・ レコメンド ・ 人間を超える知性が生まれる「シンギュラリティー」とは ・ 「弱い」かつ「特化型」だからこそのAI開発 AIが十分に知的かどうかを判定する方法 AIが十分に知的かどうかを判定する方法としては、英国の数学者アラン・チューリングが1950年に発表した「チューリングテスト」が有名です。チューリングテストでは、人間から投げかけられるいくつかの質問に対して文章で回答させます。この返答が人間によるものか、AIによるものか判別ができないようであれば、そのAIは人間と同じくらい知的である、つまりAIとして完成されていると評価されます。 このチューリングテストに異を唱えたのが米国の哲学者のジョン・サールです。彼が1980年に発表した論文の中に「中国語の部屋」という思考実験があります。この思考実験では、ある部屋に英語しか分からない人に入ってもらいます。部屋の中には中国語の質問に答えるための完璧なマニュアルがあり、中にいる人は中国語での受け答えができます。受け答えを繰り返すと、部屋の外の人は部屋の中の人が中国語を理解していると判断するでしょう。しかし実際には、中国語を理解していることにはなっていません。同様の能力を有するAIはチューリングテストに合格するだろうが、だからといって本当に知能があると言えるのだろうか、という議論を投げ掛けたのです。 そしてサールは、「AIが人間のように知的であるかどうか」を区分した言葉として「強いAI」「弱いAI」も提唱しました。 強いAI 強いAIは「適切にプログラムされたコンピューターは人間が心を持つのと同じ意味で心を持つ。また、プログラムそれ自身が人間の認知の説明である」という意味です。もちろんですが、現在、2022年現在、強いAIと呼べるAIは登場しておらず、その兆候も登場していません。 フィクションに出てくるような、例えば聞いた言葉の意味を理解して気の利いた返事をしたり、言葉だけでなく表情などからも人間の感情を読み取って同情し、一緒に涙を流したりできるAIは、正に強いAIだと言えます。人間と変わらないコミュニケーション能力を持ち、物語の中で人間との交流をしていきます。 弱いAI 一方、弱いAIは「コンピューターは人間の心を持つ必要はなく、有用な道具であれば良い」と考えられています。 現在登場しているAIはすべて、弱いAIです。例えば、チャットボットは質問を投げれば返答をくれますが、中のAIが人間のように思考して返答しているのではなく、膨大な学習に基づいて言語を機械的に認識し、機械学習の結果として正解としている返答をしているに過ぎません。 だからといって全く役に立たないわけではありません。チャットボットの例では、問い合わせ内容を定義したり、それに基づいて適切なウェブページや担当者を案内したりすることで、人手や心理的なコストを減らしてくれています。 出典:猪狩宇司ら『深層学習教科書 ディープラーニング G検定(ジェネラリスト)公式テキスト 第2版』   :小林亮太、篠本滋『AI新世 人工知能と人類の行方』 「強い弱い」と視点が異なる「汎用型AI」と「特化型AI」 「強いAI」「弱いAI」と視点が異なる比較として、「汎用型AI」「特化型AI」があります。汎用型AIは人間のように複数の問題を解決できる能力を持ったAIを指し、特化型AIは一つの問題解決に特化しているAIを指します。 汎用型AI 汎用型AIは複数の問題を解決できるAIを指しますが、肝となるのは、人間のように過去の経験から学習してさまざまな問題にも対処できる点にあります。人間がプログラムしたこと以外にも対応できるようになることから、汎用型と呼ばれます。ご想像の通り、現在、汎用型AIは登場していません。 強いAIとの違いは「どの観点でAIを区分するか」という点にあります。強いAIは、AIに知性があるかどうかという点で弱いAIと区別しており、AIが知性を持つことで強いAIとなります。汎用型AIは、複数の問題に対応できるかどうかという点で特化型AIと区別しており、知性があるかどうかは見ていません。 特化型AI 特化型AIは特定の問題を解決できる能力を持ったAIのことを指し、原則として、人間がプログラムした以上のことはできません。2022年までに登場しているAIと呼ばれるものは、すべて特化型AIです。弱いAIとの違いは、強いAI・汎用型AIの違いと同様に、知性の有無を見ないことです。 仮に知性があって特定の問題を解決できるAIが登場したら、特化型に分類されるでしょう。しかし、特定の問題が解決できるのに、他の問題にそれを応用できないのは、果たして知性があると言えるのか、という議論が出てくるかもしれません。 出典:猪狩宇司ら『深層学習教科書 ディープラーニング G検定(ジェネラリスト)公式テキスト 第2版』 実際に使われている「弱いAI」の事例 ここでは、実際に運用されている弱いAIの事例を3種類ご紹介します。 AlphaGo 弱いAI、かつ特化型AIの代表例としてよく知られているのが、囲碁の世界的プレイヤーを次々と打ち負かしたことで衝撃を与えた「AlphaGo」です。AlphaGoはAIの技術の中でも強化学習の代表的モデルだとされており、勝利という「報酬」のために囲碁の打ち筋を学習し、人間では勝てない領域にまでなりました。 AlphaGoが登場したのは2015年のことで、2017年に当時最強だと言われていた棋士、柯潔(カケツ)に勝利したことで人間との対局を引退しています。AlphaGoが衝撃だったのは、囲碁がボードゲームの中でも特に局面が多くて難しく、AIが人間に勝つことはできないと考えられていたためでした。 AlphaGoはその後改良され、40日の学習でAlphaGoに勝てるようになった「AlphaGo Zero」、囲碁以外のボードゲームにも対応し8時間の学習でAlphaGo Zeroに勝てるようになった「AlphaZero」と続いています。 その後、米アルファベット傘下のAI開発企業である英ディープマインドが2020年に、AlphaGoの進化形として、チェスや囲碁、将棋、テレビゲームなどについて事前に一切知識を与えなくても人間のトッププレーヤーを上回る腕前でプレーできる汎用ゲームAI、「MuZero」を2020年に開発しています。このMuZeroはさらに、2022年にYouTubeの動画圧縮アルゴリズム開発に応用され、同じ品質の動画を送信するのに必要となるビットレートを4%削減する成果を出したと発表されました。ディープマインドは一方、プログラミングコンテスト(競技プログラミング)で人間の平均点を上回るようなプログラムを生成できるAIである「AlphaCode」も2022年に発表しています。AlphaGoシリーズは以上のようにゲームを超えて進化していますが、ゲーム以外の用途があってもタスクは人間が指定しているので、汎用型AIとは言えず、特化型AIです。さらに、知能があるわけではありませんから、弱いAIであると言えます。 出典:日経クロステック「 最強囲碁AIから核融合へ、深層強化学習の応用広げるディープマインド 」 Laboro.AIでも、この強化学習を用いて最適化問題を解くことを目指したソリューションを開発しているほか、強化学習を用いて建設物の揺れを制御する研究開発を大林組と進めています。 組み合わせ最適化ソリューション プロジェクト事例:建設物の制震制御 外観検査 AI技術の中でも活用が広がっているものの一つが、画像認識です。大量の画像を学習することで、画像の中に写っているものが何かを判断して分類したり、不良品を検知してアラートを出したりしてくれます。 画像認識の活用例の一つが、工場などで使われている外観検査です。例えばインフラの劣化箇所を検出するメンテナンスでは、膨大な量の確認箇所があり、目視だけだと見落としの可能性があります。AIを活用すれば、そうした大量の検査を効率化したり、作業品質のばらつきを低減したりでき、その上で最終的には人間が判断するという確認体制を築くことができます。 Laboro.AIによる外観検査のソリューションについてはこちらもご覧ください。 不良・異常検出ソリューション インフラ設備の劣化箇所検出 レコメンド 利用履歴などに基づいて次のおすすめを提示する「レコメンド」も、AIの活用が進んでいる分野です。 レコメンドには例えば、購買履歴や動画視聴履歴などを入力として顧客一人ひとりに向けて次のおすすめを表示したり、過去の成果から売り上げにつながる商品を提案したりするといった例があります。企業がマーケティングに活用するものもあれば、企業のマーケティングでの活用として、ECサイトやアプリなどでの活用が進んでいます。 レコメンドのAIが特に活用されているマーケティング分野については、下記のコラムで詳しく解説しています。 答えのない、マーケティング×AIの世界への挑戦 人間を超える知性が生まれる「シンギュラリティー」とは 「強いAI」と近い話題として、AIの能力が人間の能力を超える「シンギュラリティー」があります。シンギュラリティーは日本語では「技術的特異点」と呼ばれ、AIが自身よりも賢いAIを作り出せるようになり、より賢いAIが無限に作り出される状況が生まれて、AIの進化が指数関数的に加速し、人間では到底想像もできないような高度な知性が誕生することを指します。 シンギュラリティーの到来を主張している一人である、未来学者で実業家のレイ・カーツワイルは、このようなシンギュラリティーは2045年に到来すると予言しています。シンギュラリティーは「AIが人間より賢くなる瞬間」と捉えられることもありますが、カーツワイルの主張では、AIが人間より賢くなるのは2029年。AIが自分自身よりも高い性能のAIを開発できるようになり、性能の進化が爆発的に進み、人間が認識できないほどの知性が誕生するのが2045年だとされています。 しかし、シンギュラリティーは到来しないという説もあり、実際にAIがどのように進化していくかは、今のところ断言できません。 出典:猪狩宇司ら『深層学習教科書 ディープラーニング G検定(ジェネラリスト)公式テキスト 第2版』 「弱い」かつ「特化型」だからこそのAI開発 SFのように人間を超越するような知性を持つAIがシンギュラリティーによって誕生するかどうかは分かりませんが、強いAIが登場する兆候は今のところありません。だからといってAIを利用せずに仕事や生活をすることはもはや不可能なほど、AIは社会に取り入れられています。 この状況の中で重要なのは、そうしたAIはすべて弱いAIかつ特化型AIであることです。特に特化型であることに着目すれば、何を解決すべき課題とし、その課題をどうスマートに解決するAIを開発して取り入れるかという考え方が重要になります。これをビジネス分野でのAI活用と考えれば、ビジネス上で解決したい課題を明確化し、成果目標を定めた上で、そのためのソリューションとしてAIをデザイン(設計)する「ソリューションデザイン」という検討プロセスと、課題ごとの個別最適な開発に基づく「カスタムAI」が欠かせないということです。 AIは万能のツールのように捉えられることが少なくありませんが、現時点のAIはかなり単機能なツールであり、弱くて、特化したことしかできないのが実際です。そのため、こうした限定的な機能しか持たないAIの導入成果は、当然ながら設計や使い方によって大きく左右されます。だからこそ、一つひとつのビジネス課題に最適なかたちでAIの開発を行うことが重要なのです。 カスタムAIについて The post 「強いAI」と「弱いAI」。AIが人間を超えるかが分かる分類 first appeared on 株式会社Laboro.AI .
アバター
M-1などの「笑ビジネス」もAI活用。他産業への応用の可能性 2022.12.19 株式会社Laboro.AI リードマーケター 熊谷勇一 概 要 2022年はウエストランドが決勝ファーストラウンド3位から逆転優勝を果たしたM-1グランプリ。M-1に代表されるお笑いは今やエンタテイメント業界で大きな分野に成長し、興行や放送、コンテンツビジネスだけでなく、笑うという行為はウェルビーイング(心身の健康や幸福)の観点からも重視されています。その笑いに関連して活用されているAIもあり、その根本にある手法は他の産業でも使われているものばかりです。 目 次 ・ 笑いとビジネス、生活の関係は多様 ・ 笑いへのAI活用:測定・評価  ・ お笑いを測定・評価  ・ 笑いを生み出すボケの生成  ・ ネタの評価 ・ 笑いでも他の産業でも、特徴量設定・カスタマイズが重要 笑いとビジネス、生活の関係は多様 笑いへのAI活用の例を見ていく前に、笑いとビジネスの現状を確認しましょう。吉本興業事業概要資料によると、まず挙げられているのがタレントマネジメントです。舞台だけあっても、お笑い芸人などタレントがいなければ興行は成り立ちません。 次に劇場経営で、同社は現在全国で11の劇場を経営し、日々笑いに関する興行が打たれています。同社がそもそも落語などの興行小屋である寄席(よせ)の経営から始まったのを知っている人も少なくないでしょう。2017年下期のNHK「連続テレビ小説」の「わろてんか」はそれをモデルにしていました。 タレントと劇場があれば興行が打てます。最近では「(お笑い)ライブ」と言われることがほとんどです。もちろん、劇場は自前で保有していなくても、他のオーナーが経営する劇場を借りてライブを開催することもできますし、近年ではオンラインだけで開催するライブも出てきています。 最後に、映像(音声)コンテンツ制作があります。ライブとは違い、収録・編集をして作り込んでいきます。伝統的にはラジオやテレビ番組として放送されるかたちだけでしたが、近年ではNETFLIXやAMAZONプライムビデオ、そしてYouTubeといったオンラインのプラットフォームで配信するコンテンツも隆盛しています。さらに、コメディーに分類される映画や漫画などの作品も、広い意味で笑いに関するビジネスと言えます。 参考:経済産業省 大阪・関西万博具体化検討会「 吉本興業事業概要資料 」 笑いはさらに、健康、ひいてはウェルビーイングの面でも注目されています。沢井製薬が運営するウェブサイト「サワイ健康推進課」のページ「 “笑い”がもたらす 健康効果 」によれば、まず、がん細胞を攻撃するナチュラルキラー細胞が笑いを発端に活性化することが取り上げられています。さらに「脳の働きが活性化」「血行促進」「自律神経のバランスが整う」「筋力アップ」「幸福感と鎮痛作用」という効果も挙げられています。これらによって健康維持・増進だけでなく、それを基にしたウェルビーイングも実現できるかもしれません。 笑いへのAI活用:測定・評価 笑いとビジネス、生活の関係を確認したところで、具体的なAIサービス・活用例を見ていきましょう。 お笑いを測定・評価 お笑い審査支援AI「UKETA(ウケタ)」は、お笑いの場の音声を収録して、通常では分離困難な芸人の話し声と観客の爆笑を高精度に判別し、「爆笑の時間」「爆笑の時間割合」「爆笑・大爆笑の数」「爆笑グラフ」といったお笑い審査に有用な審査指標を提示できるとしています。近年は毎年M-1グランプリ決勝の評価を独自に実施しており、特にアルゴリズムを改良した2020年以降は、実際の審査員による評価の順位との合致率が上がっています。 採用している特徴量は「笑い・拍手の音量」以外は公開されていませんが、笑い声らしい声の高さ(周波数)や拍手のタイミング(例えば登場・退場時の拍手はウケていると言えるとは限らないので除外する)なども採用されているかもしれません。 さらに、特にM-1グランプリを意識すれば、漫才の新奇性も評価されていることが端々で言われていることから、例えばAIに過去の漫才映像を機械学習させると、従来にないレベルの活発な動きや発話量の多さ・少なさ、間の長短といった特徴も客観的に見いだされ、新奇性の評価に役立てられるかもしれません。 参考: 笑い採点AI UKETA(ウケタ) AIで観客の笑い声と拍手を計測するだけでなく、実際に審査までして、しかも人間の審査員はなしで実施しているのが、ABEMA配信の「笑ラウドネスGP」です。2021年の第1回は一つのAIで計測・評価していましたが、2022年の第2回からは笑い声と拍手にそれぞれAIを一つずつ「担当」として付け、それぞれの特徴を集中的に解析する仕組みに変更しました。さらに、「M-1グランプリ」「キングオブコント」「THE W」といったお笑いコンテストでのネタ・笑い・拍手も学習データとし、AIの強化を図りました。 出典:お笑いナタリー「 「笑い」と「拍手」分けて解析、M-1やKOCも学習したAIが芸人のネタを採点 」 AIによるお笑いの評価・測定と聞くと、「それぞれのお笑い芸人が持つえも言われぬ個性やニュアンス、間などの情緒を機械が理解する」といった印象を持ったかもしれません。しかし根底は、縦軸に音量、横軸を時間などとした2次元で特徴量を捉えていくことが中心であり、他の産業でも活用されているAIとあまり変わらないと言えるでしょう。例えば、製造機械の稼働音から故障を予知するケースを考えてみると、基本的には横軸には時間軸を、縦軸には機械の稼働状況を示した2次元データを元に異常な波形箇所を発見するというやり方が考えられ、原理的には同じデータ解析のアプローチになっているというわけです。 笑いを生み出すボケの生成 AIの生成で最近話題なのは画像ですが、お笑いのボケの生成をするAIも登場しています。 2008年に生まれた画像大喜利(写真でひとこと)サイト「ボケて」では、同サイトに蓄積されたボケデータを基に機械学習・AIモデルを学習させてボケの自動生成を競う「ボケて 電笑戦」を開催しました。 「写真でひとこと」なので、まずは画像が用意され、それに対してボケを返すことが求められます。参加社の一つである電通デジタルは、そのために、「画像要約」という技術を使って画像をテキストに置き換える手法が取りました。具体的には、CNN(Convolutional Neural Network、畳み込みニューラルネットワーク)と、RNN(Recurrent Neural Network、再帰型ニューラルネットワーク)というそれぞれディープラーニングの一種を用いています。 同じく参加したストックマーク社は、「画像からボケを生成する」問題は、機械学習の分野のImage Captioningという問題によく似ているので、それを応用して「お笑いモデル」を作れそうだと見いだしました。Image Captioningは、「画像を入力として、その画像内の人物・動物・物体等の振舞いを説明する文章を生成する」という問題です。そしてImage Captioningの手法の一つ「Encoder-Decoderモデル」を採用しました。 これは簡単に言うと、Encoderを使って画像を中間表現(ベクトル)に変換して、変換した中間表現をDecoderで文章に変換するものです。 さらには、ボケだけでなく、教師データにビジネス記事のタイトルという「真面目な文章」も足して「水増し」してボケと組み合わせ、「ちょっとズレた真面目な文章=絶妙なボケ」を生み出すことも狙いました。 また大喜利AIとしては、わたしは社が提供する「LINE版大喜利人工知能」は、AIが生成する「お題」「回答」「ガヤ・ツッコミ」「写真で一言」が楽しめます。 育成機能も搭載しており、毎日出題される「育成お題」で最強のカスタマイズ大喜利AIをユーザーみんなで育成していけるとしています。 出典:ログミーBiz「 AIは人を笑わせられるのか? ボケの自動生成を競う、お笑いAIバトルの舞台裏 」   :Stockmark Tech Blog「 ボケて電笑戦への挑戦〜AIで画像大喜利〜 」   : LINE版大喜利人工知能 ネタの評価 ビジネスAIでもおなじみのテキストマイニング(自然言語処理などを用いて大量のテキストデータを解析し、有用な情報を取り出す技術)を一部応用して、文章構成のキーワード抽出を行うソフトウエアの中には、お笑いのネタも分析できるものも登場しています。 東京大学の大澤幸生教授が開発したKeyGraph(キーグラフ)で、文章構成のキーワード抽出が鍵です。あるデータを構成する要素一つひとつの登場頻度、互いのつながりの強さや数を計算し、重要な役割を果たしている要素を分類・抽出します。さらに結果をネットワーク図として視覚化することで、データに潜んでいるアイデアの発見を支援するとしています。 2022年7月に開催された「『M-1グランプリを科学する!』成果報告イベント」では、このKeyGraphが漫才ネタの構造を分析・可視化し、「笑いは文脈によって生まれるもの」という知見を改めて明らかにしました。漫才の魅力には面白い動きもありますが、やはり言葉をどう使うか(「どう使わないか」も含む)を中心とした話芸であることから、こうした技術応用が可能になっていると言えるでしょう。 出典:日本経済新聞「 お笑い、学問や教育の場に つかみの効果研究・交流力高める授業 」   :構造計画研究所「 KeyGraph 」   :BIZDRIVE「 売れないスルメにも意味がある!チャンス発見学とは 」 データや業界に壁はない。特徴量設定・カスタマイズが重要 以上のように、笑いに関するAI活用でも、AIが人間の情緒を理解しているわけではなく、何らかの特徴量を設定し、それに基づいて計測・評価するという、さまざまな産業で活用されているAIでありふれた手順が踏まれています。違う言い方をすれば、特徴量の設定がまず重要であり、設定をするのは最終的には人間です。人間によるカスタマイズとも言えるでしょう。 特徴量は人間が設定すべきといっても、勘ですれば良いというわけではありません。最終的に得たい出力結果をにらみながら、最適なデータから、最適な特徴量を設定する必要があります。そのためには産業・企業側とAI側、両方の知見を持った上で、何度もやり取りすることが欠かせません。ソリューションとしてAIを適切にデザインをしていくことが必要なのです。 Laboro.AIでは、各産業・事業に合わせたAIを開発する「カスタムAI」と、それを実現するための機械学習の産業応用支援を強みとしています。さらに、さまざまな産業での実績があり、それぞれで抽象化した知見を得て、それをまた別の産業に横展開して生かすというサイクルを回しています。あなたの課題を解決できるカスタムAIを開発し、一緒に笑えれば幸いです。 「データに壁はない」「業界に壁はない」をキーワードにした当社のカスタムAIについては こちら もご覧ください。 The post M-1などの「笑ビジネス」もAI活用。他産業への応用の可能性 first appeared on 株式会社Laboro.AI .
アバター
AI導入企業の初の過半数越え。 高品質AIモデルを支えるデータセントリックとは 2022.11.17 株式会社Laboro.AI リードマーケター 熊谷 勇一 概 要 「AI導入は当社には早い、まだ様子見だ」とは言っていらない状況になってきました。日本企業はなんとなくも含めて「導入が遅い」と言われてきたが、過半数の53%が既に導入していることが判明。いつまでも導入を検討しないと、業界内での競争力低下につながるかもしれません。AI導入が進んでいる背景と、特に「データセントリック」について解説します。 目 次 ・ 米国並みに追いついた日本企業のAI導入率  ・ 日本企業の53%がAIを導入  ・ AI活用が進んでいる企業ほど、自社の社員で推進している ・ AIの民主化は機械学習がカギ  ・ AIの民主化とは  ・ 民主化を推進する機械学習 ・ AI導入を加速させる「データエクスチェンジ」と「データセントリック」  ・ データエクスチェンジとは  ・ データセントリックとは   ・ データセントリック活用事例 ・ まとめ 米国並みに追いついた日本企業のAI導入率 PwC Japanグループは2022年1月、日本企業のうち売上高500億円以上でAIを導入済み、または導入検討中の企業の部長職以上300人と、米国企業の幹部1000人にウェブアンケート調査を実施しました。その結果、日本企業のAI導入率が米国並みに追いついたことが分かったのです。 日本企業の53%がAIを導入 2021年までの同調査では米国と日本のAIの活用度合には乖離が見られていましたが、2022年の調査ではその差がほとんどなくなりました。米国では導入企業(「前者的に広範囲にAIを導入」または「一部の業務でAIを導入」している企業)が2021年は55%、2022年は53%と微減したところを、日本では43%から53%と10ポイントも増えたのです。 さらに日本企業のうち「AI未導入企業」が41%から36%に、「AI準備中企業」が16%から11%にそれぞれ5ポイント減少し、AI導入企業に移行しているのが見て取れます。 2022年の日米企業を比較すると、「AI未導入企業」は米国27%に対し日本36%と、未着手の企業比率に若干の差はあるものの、「AI導入企業」で見ると2ポイントしか差がなく、日本が米国に追いついたと言える状況になりました。 AI活用が進んでいる企業ほど、自社の社員で推進している AI導入推進は、社員によるものか、外部委託先によるものかで大別されます。社員自身で推進することがいわゆる「内製化」です。内製化の度合いに関して、AI導入企業とAI準備中企業の間で顕著な差がありました。AI導入企業の方が内製化率が高い結果になったのです。AI活用が進んでいる企業ほど、自社の社員で推進しているということです。 出典:PwC「 2022年AI予測(日本) 」 AIの民主化は機械学習がカギ 日本企業でAI導入が進んでいる一方、AIが注目されてさまざまな分野で活用が進んでいく中で「AIの民主化」という概念があります。ここに、日本企業でAI導入が広まった背景を見ることができるかもしれません。   AIの民主化とは AIの民主化は2017年3月に、米国スタンフォード大学教授からグーグルに転じていたAI研究者のフェイ・フェイ・リーが初めて示した概念とされています。簡単に言えば「AIを誰もが使えるようにする」ということです。その後グーグルだけでなく、さまざまなICT(情報通信技術)企業がこの概念を掲げるようになりました。 なおリーは、サバティカルとよばれる長期休暇を利用してグーグルで働いており、休暇が終了した2018年秋にスタンフォード大学教授に復帰しています。 民主化を推進する機械学習 近年、AIの一つの分野である機械学習が活用しやすくなってきており、それがAI全体の民主化を促しています。 機械学習を利用する方法には、①アプリケーション(特定の作業をするためのソフトウエア)を利用する、②プラットフォーム(コンピューターが動作する基本的な環境)を利用した上でアプリケーションを開発して利用する、③フレームワーク(システム構築するための基盤、あるいはサービスを提供するための基盤となるソフトウエア)を利用した上でアプリケーションを開発して利用する、の三つがあります。①から③に行くにしたがって開発の自由度が高まる半面、より高度な知識が必要になります。 しかし近年では、オープンソースのフレームワークやクラウド事業者の計算能力が利用できるようになり、機械学習ひいてはAIそのものの活用のハードルが下がってきています。これこそがAIの民主化です。そうした中では、例えば、自社の競争力の源泉となるAIの開発は、完全に内製化したり、学習データだけは自前で用意したりして、優位性を保てます。逆に競争力を気にせずにAIを活用したい場合は、既存の学習済みモデルを利用する手があります。 出典:総務省「 令和元年版 情報通信白書 」 AI導入を加速させる「データエクスチェンジ」と「データセントリック」 日本企業でAI導入が増えた別の理由に、「データエクスチェンジ」と「データセントリック」があるかもしれません。近年使われるようになってきたこれら二つの言葉の意味もぜひ押さえておきましょう。   データエクスチェンジとは データや大規模なファイルを組織間やシステム間で交換する仕組みのことです。ユーザーの属性や行動履歴などのオーディエンスデータを企業間で交換することもできるので、特にマーケティングで生かされています。データエクスチェンジのプラットフォームを提供する事業者が、データを提供するパートナーと契約し、データを保有します。データを利用したい企業は、データエクスチェンジの事業者と契約するだけで、パートナーが提供するデータをプラットフォームを通じて利用できます。 データエクスチェンジで取引するデータのことを「2ndパーティデータ」と呼び、一般的には「個人が特定できないセグメント」として提供されます。データエクスチェンジは広告プラットフォームと連携されているため、ターゲティング広告にも簡単に利用できます。データパートナーにとっては、自社のビッグデータを収益化できるプラットフォームにもなるということです。 このデータエクスチェンジにより、各企業が消費者の属性や行動履歴といったリアルなデータを幅広く集めて活用できるだけでなく、AIモデルの内製開発にも生かせるようになるのです。 出典:G2” Data Exchange “   :デジタル・アドバタイジング・コンソーシアム「 データエクスチェンジとは 」 データセントリックとは 「データ中心のAI(DCAI:Data-Centric AI)」のことで、従来通りのモデルやアルゴリズムを偏重するアプローチよりも、データに焦点を定めたアプローチの方が大切であるとする、AIの開発方法に関する考え方です。 この考え方の根拠として、たとえ比較的少ないデータ量であったとしてもクリーンで高品質なグッドデータの方が、ノイズの多いビッグデータよりも良い性能を発揮することが示されています。 データエクスチェンジが活発になる背景に、このデータセントリックAIがあります。「高品質なデータで高品質なAI開発をする」と言うのは簡単ですが、実際に高品質なデータを集めたり整形したりするにはさまざまなコストがかかります。それ対して、大量かつ多様なデータの中から必要なデータを選べる環境として威力を発揮するのが、データエクスチェンジなのです。 出典:ITmedia「 データエクスチェンジを加速させるデータセントリックとは? 」   :日経BPムック『倫理、説明、データ利用、23の注目事例から学ぶ正しいAI導入』   データセントリック活用事例 京セラ傘下のRist(リスト)は、製造業の現場が主体的にAIを開発できる支援サービスを始めています。このサービスではデータセントリックAIを活用し、専門的なエンジニアがいなくてもAIの精度を上げられるとしています。 例えば製品の良・不良を検品する画像解析AIを開発する場合、一般的には、学習用の画像は最低でも100枚程度が必要で、ひび割れや傷など「不良」は人間が決めます。この際の定義の曖昧さがAIの精度低下につながり、エンジニアがモデルの改善を繰り返す必要があります。 そこで、複数の人が画像を見て、判断が一致しない画像を抽出し、一致するようにルールを定める作業を繰り返してデータの質を高めることができます。これがデータセントリックAIです。顧客側の作業は複雑化し負担は高まりますが、逆にエンジニアの関与が少なくなるため開発コストを抑えられる利点があります。顧客側の負担増は、内製化の度合いの高まりと言い換えられるでしょう。 出典:日本経済新聞電子版「 京セラ系リスト、現場主体のAI開発支援サービス 」 まとめ データセントリックAIを活用すれば、AI導入が従来と比べて低コストで実現できるかもしれません。さらに内製化ができればコストもさらに下がりますが、開発を任せられる人材が社内にいることが前提となる上、ビジネス成果に直結するAIの開発が本当に実現できるかについては、また別の難しさが出てきます。データセントリックという考え方が近年話題になっていることには注目しつつ、コスト重視の内製化か、より専門的な技術重視の外部委託かは、慎重に判断する必要があります。 特に、企業の競争力に関わるような難易度の高いAI開発プロジェクトでは外部の専門ベンダーの技術力に期待が寄せられます。ですが、外部委託を検討する際にも注意が必要です。言われた通りにつくるだけの「YESマン体質」のベンダーが少なからず存在する中、AIとビジネスの両面でしっかりと伴走ができるパートナーと組むことが、本当に開発したいAIを実現する早道です。 Laboro.AIでは、AIを最適なビジネスソリューションとして設計するためのプロセスとして「ソリューションデザイン」という独自のコンセプトを提唱し、AIというテクノロジーとビジネスをつなぎ合わせるための長期的な伴走サポートを提供しています。下記もご覧の上、ぜひお問い合わせいただければ幸いです。 ソリューションデザイン
アバター
女性だからできる、AIの「仕上げ」が今はじまる 2022.10.10 監 修 株式会社Laboro.AI マーケティング・ディレクター 和田 崇 概 要 「今ある職業の多くが AI に置き換えられる」––AIの技術進化に伴って、こうした話がますます現実味を帯びてきたようにも思えますが、一方で AIによって多くの新しい仕事が生み出されることもまた想像される未来です。そして、この新しい仕事への移行において、男性よりも女性の方がより大きな影響を受けるという研究結果があります。AIによって自動化しやすい事務職の大半を担っている女性が、よりAIが生み出す仕事に移行する可能性が高いというわけです。 とはいえAIを専門とする仕事の男女比を見てみると、女性の割合は4分の1にとどまっているのが現状ですが、実はコンピュータサイエンスの学問において女性が圧倒的に劣勢になったのは割と最近のこと。振り返れば、コンピュータサイエンスの歴史を動かしてきたのは男性だけではありません。 今回のコラムでは、女性の参加によってAI が成熟期へと導かれていく次のステージを考えていきます。 目 次 ・ 「男性の方が得意」が生まれた理由  ・ ファミコンからパソコンへ ・ 弾道ミサイルの計算をプログラムする  ・ 戦時下にいた「女性コンピュータ」  ・ 生まれたてのスーパーコンピュータ ・ AI社会を現実的な目線で考える  ・ AIカリキュラムのリデザイン  ・ AI チャットボットの責任は ・ 「AI職」への大移動が始まる  ・ 「女性の方が得意」が生まれた理由  ・ 未熟なAIを成熟させる仕上げ 「男性の方が得意」が生まれた理由 ファミコンからパソコンへ データやAIの専門家のうち、女性の割合は4人に一人に過ぎないということが2020年の世界経済フォーラムのレポートで明らかになりました。背景には、家庭用コンピュータの普及をきっかけに男性の方がより早くからテクノロジーに接するようになり、コンピュータサイエンスを専攻する男性の割合が急増したことがみられます。 80年代に「ファミリーコンピュータ」や「ゲームボーイ」といったゲーム機に触れ、90年代に入ると自然とパソコンが趣味となった男性も多いのではないでしょうか。1995年に 「Windows95」 を搭載したパソコンが登場するとインターネットの一般利用がスタートしたことも相まって、男の子の部屋にパソコンが置かれ、父親からパソコンの使い方を教わったりする環境も整っていきました。 以降定着した「コンピュータは男性の方が得意」というイメージは日本に限った話ではなく、データやAIを含めたコンピュータサイエンスをリードしてきたアメリカでもその認識に大きな違いはありません。 (Photo by Steven Miller ) Deloitte AI Institute の 調査報告 では、2019年に北米ではAIおよびコンピュータサイエンスの博士課程に占める女性の割合は22% と、9年前の調査時より4%しか増えていませんでした。そうした状況を踏まえ、今後も女性専門家の割合はなかなか増えそうにないとする見方もあります。 しかしながら、女性が圧倒的に劣勢というのは割と最近のトレンドで、それ以前の1984年のアメリカでは、大学でコンピュータサイエンスを専攻する学生のうち約40%を女性が 占めていました し、そもそも情報化時代の始まりを支えたのも、実は第二次世界大戦中のアメリカでコンピュータの仕事に携わった女性たちだったのです。 弾道ミサイルの計算をプログラムする 戦時下にいた「女性コンピュータ」 戦時下のアメリカでは女性の雇用が50%増加し、アメリカ陸軍は100名の女性を計算担当である「コンピュータ職」として採用 しました 。計算すべきものは数千に及ぶ弾道ミサイルの発射軌道で、その計算には飛距離だけでなく、砲弾の重さ、温度、湿度や風向きといった気候条件なども含まれるため、人の手で一つの軌道を計算するのに30〜40時間もの時間がかかったといいます。 (Photo by Internet Archive Book Images ) そこでスタートしたのが、当時ハードウエアの開発がほぼ完了していた世界初の真空管式、全電子式スーパーコンピュータ ENIAC(Electronic Numerical Integrator and Computer)のプロジェクトでした。マシンこそあれ、プログラミング言語も運用システムも存在しない時代、選抜された6名の「女性コンピュータ」は発射軌道の方程式を実行するようENIACをプログラムする任務を与えられたのです。 生まれたてのスーパーコンピュータ 女性たちにとってみればそれまで電卓を使う自分たちが「コンピュータ」と呼ばれていたわけですから、まず彼女たちはこのコンピュータという機械が何なのか、どのようなインターフェースなのかを理解してから、複雑な数学の問題を ENIAC が実行できるよう、その手順を非常に小さなステップに分解しなければなりません でした 。 こうしたゼロからのプログラムの末、ついにENIACによって毎秒5,000の足し算、500の掛け算が可能になり、ひとつにつき30 時間以上かかっていた弾道ミサイルの発射軌道の計算は数秒〜20秒にまで劇的に短縮されました。およそ、人の1万倍の速さで計算ができるようになったのです。 (Photo by thekirbster ) ところが、研究者や役人、軍の要人などを迎えて行われたENIACのデモンストレーションでは、コンピュータプログラミングという概念が新しくて理解されにくかったことに加え、当時の女性のあるべきとされた立ち位置もあって、彼女たちは ENIAC を動かす「オペレーター」と見なされてしまい、ハードウエアを開発した男性たちばかりに賞賛が集まりました。 この情報化時代の黎明期に活躍した女性たちのストーリーは、1995年にその功績が認められるまでの50年、世に出ることはありませんでした。一方、その間もプロジェクトメンバーはUNIVACやBINACといったアメリカ初のプログラム内蔵商用コンピュータの開発に携わるなどして情報化時代の道のりを開拓していたの です 。 AI社会を現実的な目線で考える AIカリキュラムのリデザイン 実のところ、アメリカではここ数年でカーネギーメロン大学を始め、コンピュータサイエンスの女性の学生の割合を半数にまで取り戻したところも出てきています。そうした大学は、学生を適切にクラス分けし、男性の方が知識経験の多い傾向があるプログラミングなどの科目で女性が引け目を感じないように計らい、AI・機械学習を始めとしたこれら学問の実社会へのインパクトを伝えることに重点を置いて います 。 つまり、女性がテクニカルなスキルで不利にならないようにすると同時に、社会や暮らしに対してより現実的な目線を備えた女性の興味を引くよう、カリキュラムをデザインし直したのです。 AIはそのソフトウェアとしての特性から、多くのツールやソリューションの頭脳として用いられ、広く実生活・実社会に提供されている技術の一つであることは知られていますが、例えば、神経化学やAIの博士号を持っているある女性は、自分の子供が一型糖尿病と診断されたことをきっかけに、一型糖尿病の治療に役立つAIシステムを開発した そうです 。 他にもアフリカ系女性の姉妹が 、AI を用いてスピーディかつリーズナブルにカスタマイズされたウイッグを製造販売する企業を立ち上げました。このビジネスにはこれまで見過ごされてきた130億ドル(1兆7千億円)規模の産業を揺るがす可能性があると示唆 されています 。 AI チャットボットの責任は どこか男性的な AI のイメージを覆すこうした女性の活躍は、スタートアップに限りません。アパレル業界売上高ランキング世界 2 位のH&M GroupではAIがトレンド予測から需要の見込み、店舗ごとの製品ラインナップの最適化、それぞれの顧客へのおすすめやキャンペーン案内など様々に用いられると同時に、AIを社会に対してよりよく用いるためにどうすればよいか、AI を用いることで意図せず危害を加える可能性はないか等々、ディスカッションの実施を推進しています。 これらディスカッションのトピックや質問を作っているのは、Head of Responsible AI & Dataを務めるLinda Leopold氏で、もともとジャーナリストであった経験を活かし、AIを用いることで今後出てくるであろうジレンマをストーリーにし、社員や顧客、AI研究者といった人々に投げかけている そうです 。そのストーリーの中には、例えば次のようなシチュエーションがあります。 “ セクシーな声で会話に長けている AI チャットボットが売上を伸ばしていますが、徐々に顧客から寄せられる相談が商品に関することからずれ始め、「Life 人生」「Love 愛」「Lust 愛欲」に関する内容が増えています。顧客の多数を占めているのは10代の女性で、彼女たちが AIチャットボットに打ち明けた誰にも言えない秘密がデータとして記録されていきます。あなたはこのAIチャットボットを使い続けますか? ” 企業の取引データ分析から女性が率いる企業の贈収賄の発生率が低いことの関連性を明らかにした 調査研究 は、まさにそれをわかりやすく裏付けるものですが、女性は個人的な利益よりも社会にとって良いことをしたいと思う気持ちが男性よりも強いと言われます。 これから訪れる現実を見据え、AIという技術をよりよい未来に向けて育む。これは女性だからこそできる大きなやりがいのある仕事の一つになるかもしれません。 「AI職」への大移動が始まる 「女性の方が得意」が生まれた理由 そもそも日本女性の職種の3割を占めている事務職が「女性の方が得意だから」というイメージを持たれるようになったのは、時代に導かれた結果でしかありません。 戦争の時代が終わり、男性がそのフィールドを職場へと戻すと、女性による置き換えが進んでいた多くの企業が女性労働者を排除する方向に舵を取りました。すると、女性の多くは入社時に結婚退職誓約書にサインをするなどして、弱いコミットメントを前提とした事務作業的な仕事に就く状況になったと 言われています 。 (Photo by daves_archive1 ) そして近年、「多くの仕事がAIに取って代わられる」と時に大袈裟にも言われますが、一方でAIによって多くの新しい仕事が生み出されることも想像に難くありません。この新しい仕事への移行について、男性よりも女性の方がより大きな機会を得る可能性を示唆した 研究結果 があり、そこではAIによって自動化しやすい事務職の大半を担っている女性が、自ずとAIが生み出す新しい仕事に移行する可能性が高いと考えられています。 未熟なAIを成熟させる仕上げ 前出の世界初のスーパーコンピュータをプログラムした女性は、自分たちが成功した理由を次のように 述べています 。 “  私たちは馬車馬のように働き、それを完了させました。私たちは未完成のものを完成させる、仕上げ人だったのです。 ” AIの場合、もちろん全く新しいビジネスチャンスを掴む人も出てくるかもしれませんが、現実的には、本来的に未熟なAIを成熟させるための仕事に関わる人が多くなってくると考えるのが自然かもしれません。新しいテクノロジーは生み出されたら終わりではなく、社会で使われ、社会をよりよく変えていくことで初めて成果があったと言えるものです。仕事や生活の現場でAI に触れる機会が増えるであろう今後、実際にそれらを使い、機能させ、社会を変革させる「仕上げ人」としての女性の活躍機会が生まれてくることが待ち望まれます。 (photo by Nenad Stojkovic ) ところで、ある属性グループの組織に占める割合が15%を下回っているとき、そのグループの人はどうしても目立つ存在=トークン(象徴)となり、そのトークンの発言や行動はネガティブに作用しやすく、“出る杭は打たれる”ことが多くなってしまうこともある そうです 。そうだとすれば、データやAI・機械学習の専門家の女性の占める割合が25%程度である今の状況は、トークンを脱し始めた段階にあります。将来的にはこれが35%あたりを超えてくると、男女という属性は気にもされなくなるはずです。 とはいえ現時点では男性の後から参加する女性が多いAI界隈かもしれません。ですが、「コンピュータ職」だった女性たちがかつて歴史を切り拓いたように、「AI職」に就く女性たちがその現実的な視点によって AIという技術を育み、社会に役立つ技術としての仕上げをする、今のタイミングはそれに向けたスタートラインにあるのかもしれません。 Top Image : Photo by Twin Peaks
アバター
AIは「善」か、それとも「悪」か。倫理と進歩の境界線 2022.7.21 監 修 株式会社Laboro.AI マーケティング・ディレクター 和田 崇 概 要 “AI” と画像検索すると、表示結果に並ぶのは白い顔のヒューマノイドたち。また、オバマ前米大統領のぼやけた顔画像をアルゴリズムに投入し高解像度画像に再現した結果、白人男性の顔になってしまった…など、 AI のバイアスをテーマにした話題がつきないのは、リアルな世界のデータによって育てられた AI が今の偏った社会を反映しているからなのかもしれません。 人は誰もが先入観を持っているもので、人が作り出すものにもバイアスはつきものだとも言えるのかもしれませんが、 AI が生み出すバイアスを調整してより良く使われることに今、多くの専門家が挑んでいます。いつの時代も、新しいテクノロジーは新しい倫理を生み出しながら、進歩を遂げていくのです。 目 次 ・ AI は白い顔をしている  ・ 世界がもし100人の村だったら  ・ バイアスはウイルスのように世界に広まる ・ AI には「善」も「悪」もない  ・ 新しいテクノロジーは諸刃の剣 ・ ビッグデータ から グッドデータへ  ・ つのる不信感と、すすむ規制  ・ 2022年は「合成データ」の年になる ・ 新しいテクノロジーは新しい倫理をつくる AI は白い顔をしている 世界がもし100人の村だったら 2019年のある調査報告によると、アジア・パシフィック地域に暮らす人の半数以上、そしてアフリカ大陸に暮らす人の約70%がインターネットに接続せずに暮らしています。ということは、“手のひらのスマートフォンからインターネットで世界中の人とつながる”という謳い文句は、私たちの頭の中にあるフィクションに過ぎないのでしょうか。 本当のところはどうなのか、「 世界がもし100人の村だったら… 」として広く知られる世界の縮図のストーリーを借りて、現代社会をインターネットに接続している人の割合で 表現してみると 、 世界がもし 100 人の村だったら、インターネットに接続している人は、  アジア・パシフィックに 27 人  アメリカ大陸に 10 人  ヨーロッパに 7.5 人  アフリカ大陸に 4 人  アラブ諸国に 3 人  CIS諸国に 2 人 です 。 数字を見て「合計が合わない」と感じるのは当然、この中にはインターネットに接続していない人が含まれていないからです。隠れているインターネットに接続していない人の縮図を表現してみると、次の通りです。 世界がもし 100 人の村だったら、インターネットに接続して いない人 は、  アジア・パシフィックに 28.5 人  アフリカ大陸に 9.5 人  アメリカ大陸に 3 人  アラブ諸国に 2.5 人  ヨーロッパに 1.5 人  CIS諸国に 1 人 です。 (Photo by Rod Waddington / Flickr ) データが石油に代わって世界を動かすと言われるデータドリブンな今の時代、この隠れた人々はものすごい勢いで取り残されつつあります。実際、私たちが日々インターネットを介してサービスを利用している Apple、Google、Microsoft で働く人も、ほとんどが白人とアジア人で、そのほかの有色人種の雇用については 2014年以降 2019年までに大きな伸びは見られないと言います。 いま主流になっているAIの糧となるデータは、主にインターネットにアクセスできる人々から収集されており、AIの実用化が進むと世界の偏りが助長されてしまうのではないかと、今世界中で多くの議論がされています。 バイアスはウイルスのように世界に広まる 「 アルゴリズムのバイアスは、人間のバイアスのように不公平を生みます。 アルゴリズムは、バイアスをウイルスのように計り知れないスケールで瞬時に広めることができます。 」 これは 2016年に TEDx に登壇したアフリカ系女性の 言葉です 。MITメディアラボに所属していた Joy Adowaa Buolamwini 氏はこのプレゼンテーションの中で、素顔の自分は AI に認識されず、白い仮面を被った自分が人として認識される様子を映し出しました。 (Photo by Rod Waddington / Flickr ) 時は流れ技術は進歩しましたが、未だ有色人種の方が自動運転車に認識されづらく衝突されやすいという 調査結果 も報告されています。画像認識技術だけでなく、例えば Amazon の採用の場面で現従業員のデータをベースに応募者の書類スクリーニングに AI が用いられた際には、女性の名前が選考から自動的にはじかれてしまうということが 世間を騒がせました 。エンジニアがそのバグの修正を試みるも、今度は男性によく使われている言葉を女性によく使われている言葉よりも良しとする傾向が見つかるなど、ひとつのバイアスが根を張り巡らしているような状態にあったようです。 AI には「善」も「悪」もない 新しいテクノロジーは諸刃の剣 AI ・機械学習はビッグデータに関数を適用したものであって、当然ながらその処理プロセスは倫理的な原則に則っているものではありません。そもそも関数には「善」も「悪」もなく、AI がデータの中のバイアスを特定したり防止したりする機能があらかじめ備わっているはずは ないのです 。 ならば人間の方でコントロールしなければならないのでしょうが、公益を第一に考えるということが私たちの経済活動の DNA として刻まれてこなかったせいか、エンドユーザーよりビジネスを優先したり、より大きな利益をもたらしそうなユーザーを優先したりして 、利益の最大化のためにAIを利用するような事態が少なからず生み出されてしまっています。 (Photo by Bill Smith / Flickr ) 一方で、この現状が過去 20年の AI の開発と利用を通じて築かれたものであるなら、これからの 20年を使ってAIによって不公平が生まれる問題を解決していけば良いという 見方もあります 。 歴史の中で、安全に扱えてそれまでの爆薬の何倍もの爆発力を持つダイナマイトも、採掘や工事の現場で使われるだけではなく、次第に戦争に持ち出されるようになり多くの犠牲者を生みました。巨額の利益を上げて「死の商人」と呼ばれた発明家ノーベルは、それでも科学の発展のためにとノーベル賞の創設を遺言に残し、今やノーベル賞は人類に最も貢献した人に贈られる賞として、その研究が平和に使われることを願う思いとともに現代に引き継がれています。 (Photo by Internet Archive Book Images / Flickr ) 「ノーベル賞を授与された研究は、人類の発展のためにも殺人兵器にも使用可能という両刃の技術といっていいのです。科学に携わる人間ならば、そのことを身に染みて感じていなければいけないでしょう。」 ( 理論物理学者 益川敏英、2008年ノーベル物理学賞受賞 ) 新旧を問わず、また大小を問わず、テクノロジーというものが諸刃の剣となる側面を必ず持っているとするならば、AI についても「人間がAIをコントロールする」という考え方から一歩踏み込み、「人間が自分たちをコントロールする」ことを問うフェーズにあるのかもしれません。 ビッグデータ から グッドデータへ つのる不信感と、すすむ規制 さて、AI というとまずビッグデータが連想されるかもしれませんが、多くのデータをアルゴリズムに投入してきた研究者や開発者が振り返って思っていることは、ビッグデータよりもグッドデータの重要性について です 。 AI から差別の目をなくすにはどうすればよいのかと考えたとき、立ち返るべきは AI に投入されるデータの質のところで、きちんと人によって選り分けられラベル付けされたデータがあれば、その10倍の量の無作為に投入されたデータよりもよいパフォーマンスができるとも 言われています 。 つまり、これまではできるだけ多くのデータを投入してからアルゴリズムに手を加えて調整していたことから、むしろその逆に、同じアルゴリズムのままデータの構成を調整し改善しようとする動きが出てきています。 (Photo by Chad / Flickr ) グッドデータを求める声が強まる一方で、警察や裁判、ローンの申請、医療、雇用といったさまざまな場面で AI の導入が進む中、市民の間ではデータが取得され利用されることに対する不信感が高まり、データを集めることがますます難しくなってもいます。 EU では 2018年より、EU を含む欧州経済領域(EEA)域内で取得された「氏名」「メールアドレス」「クレジットカード番号」などの個人データを EEA 域外に移転することが原則禁止されて います 。2019年には、サンフランシスコで警察や市が顔認証技術を使うことが禁止 され 、こうした対応はアメリカの別の都市にも波及し、また、ベルギーやモロッコも顔認識技術に関する規制をすでにスタートさせています。今年6月、ついにMicrosoft も「顔の表情から感情を推測するソフトウエアの販売を中止する」と 発表しました 。 2022年は「合成データ」の年になる このような現状を打開すべく、AI 研究開発の最前線ではエンジニアが合成データをつくり、AI は規制や差別のない架空の世界からより多くのデータを取り込み始めています。それはいわば、人工的に人口を増やし、差別のないパラレルワールドをつくりだしているようなもので、このパラレルワールドを使えば実際には存在しない人たちから際限なくデータを用いることができるというわけです。 AI のためにこうしたデータをつくっているスタートアップは世界に 50以上も存在し、2024年までには AI をトレーニングするために使われるデータの 60% が人工的に合成された人工人間のデータになるだろうとも 予測されています 。 個人情報に関する規制に惑わされず、しかも不完全なデータにかかるラベリングなどの手間をカットできる合成データは、リアルなデータの100分の1くらいのコストで利用できるというところまで見えて います 。 (Photo by Wendelin Jacober / Flickr ) 例えば、ローンをより公平に配分するアルゴリズムを設計するためには、多数派グループの平均値と同等のクレジットスコアを持つ少数派グループの架空のデータベースをつくり、それをアルゴリズムに投入するという方法が考えられます。このアルゴリズムは実際に、イギリスの銀行でローンのシステムをよりよくするために使われて います 。 ある 報告 では、現在使われているアルゴリズムのうち 85% が、女性や有色人種の人々のデータが不足していることなどに起因したバイアスによってエラーを起こしやすくなっているとされる一方、そうしたリアル社会の偏りが合成データによって再調整されようとしているのです。もちろんリスクがないわけではなく、限られたデータから合成してつくられるために見落とされてしまう要素もあることは忘れてはいけません。 新しいテクノロジーは新しい倫理をつくる こうした取組みの他方で、バイアスをゼロに近づけるため、そのデータにユニークなニュアンスを全て排除した先に「面白さ」といえるものは何か残っているのだろうかという疑問の声も 挙がっています 。 例えば、世界のさまざまな国の人が「戦争と平和の境界はどこにあるのか」と問われたとき、それぞれの環境や文化・民族的な背景によって思い描くものは異なる そうです 。日本人が「誰かを殺すことを強要されるかどうか」と答える一方で、ペルー人からは「子どもたちが遊べる場所であるのかどうか」という答えが上がってくるといった具合です。 戦後の学校教育で「戦争は反対ですか?」と問われ続けてきた私たち日本人と、暴動が身近な地域で「暴力に屈するのですか?」と問われ続けてきた人々は、全く違う見方で平和を捉えているに違いありません。 (Photo by Ian Riley / Flickr ) 人は誰もが生まれ持った環境によって醸成されてきた先入観を備えており、人が生み出すものにバイアスはつきものです。そして、その人間によって開発されるAI がバイアスを生んでしまうことは、考えてみれば不思議なことではありません。AIは善か、それとも悪か。その答えはそのテクノロジーを用いる私たち次第ということです。 とすれば先人に習い、新しいテクノロジーが新しい倫理を生み出す機会を与え、世界をより良くすることにつながると前向きに考えれば、 偏ったデータによって誤った方向へと進みかねない今の状況を再調整することに挑む道をつくることが、AIというテクノロジーを前にして、現代を生きる私たちがやるべきことなのかもしれません。
アバター
“鼻を持ったAI”が立ち向かう、この無臭なる社会 2022.6.10 監 修 株式会社Laboro.AI マーケティング・ディレクター 和田 崇 概 要 動画や画像など、目に訴える情報に溢れた視覚偏重の暮らしが当たり前になる一方、嗅覚には解明されていない部分が多く、ニオイはデジタル化に大きな遅れをとっている分野とも言われます。ですが、選択的にニオイを識別するAI搭載のハードウェアの実用化が徐々に拡大しているほか、虫や動物も含めた生物共通の嗅覚メカニズムに関する研究も進んでおり、AIの開発においてもこれまでと全く別のアプローチが可能になるのではないかという期待感が高まっているようです。画像技術の進歩によって“目を持ったAI”が視覚の分野を発展させているように、“鼻を持ったAI”がもたらすニオイによるコミュニケーションの時代が目前に迫ってきました。今回は、そんなニオイの世界に足を踏み入れてみたいと思います。 目 次 ・ ニオイは命をつなぐコミュニケーション  ・ より確実に子孫を残すにはニオイが決め手 ・ 嗅覚系のニューラルネットワーク  ・ 視覚と嗅覚  ・ E-noseが活躍する命の現場 ・ 古くて新しい診断方法  ・ 症状が出る前に、ニオイが出る  ・ ニオイのデータから病気を診断するAI ・ デジタル化の反動 ニオイは命をつなぐコミュニケーション より確実に子孫を残すにはニオイが決め手 日本人というと「フィッシュピープル」とか「醤油くさい」などと外国では言われてしまうことがあるそうです。悪口を言われているのかというとそうでもなく、海外から戻って母国に帰り立った日本人が「だしの香りがする」「醤油のニオイがする」と、感受性豊かに懐かしい気持ちを得るような仕草から言われることもあるようです。 とはいえ“ニオイ” があまり良いイメージを持たれにくいのは、ニオイがしないほうが清潔であると好まれ、芳香剤や柔軟剤までもスメル・ハラスメントとして嫌悪対象になってしまうなど、私たちが住む現代の環境が “無臭化社会” へと突き進んでいるからなのかも しれません 。 しかし、まだ目の見えない赤ちゃんがお母さんの乳輪腺から出るにおいを頼りに母乳にたどりつくことに代表されるように、元来私たち人間はニオイを嗅ぐだけではなく、自らのニオイを使ってまるでコミュニケーションを取るかのように命をつないできた生き物 なのです 。 (Photo by Mad Ball / Flickr ) その他にも「女性は遺伝子的に合う男性をニオイから嗅ぎ分けられる」という話があります。これは、白血球の血液型として知られるヒト白血球型抗原の遺伝子タイプが自分とは大きくかけ離れているほど自分の遺伝子とかけ合わさった時に多様性が広がり、より確実に子孫を残すことができる、こうしたことを直感的に感じ取り、特定の異性のニオイを「いいニオイだ」と感じるからだと言われています。 このような生物学的な説からも感じられるように、ニオイは生物にとって最も原始的で基本的な感覚であり、突き詰めていくと人も、犬も、ハエもニオイの情報を同じように処理していることが わかっています 。そして、原始的なシステムである嗅覚系回路の正体を解き明すことができれば、脳の未知の領域を理解することへとつながり、人工的な知能、つまりAIを次の段階にレベルアップさせられるのではないかと考える科学者も出てきているのです。 嗅覚系のニューラルネットワーク 視覚と嗅覚 AIが得意なこととして、ある特定の対象物を認識・識別することが一つだと言われます。例えば画像を識別する場合には、その対象がどのように縁取られているか、どんな色か、あるいはどんな質感かなども含めて、RGB値で表現されたピクセル単位の小さな情報が統合され、結果として「猫の顔」といった一つの一般的な概念として識別されます。 一方、ニオイの識別はというと、画像のように標準化された基準や構造がない上、分子の種類や濃度も多種多様で捉えどころがなく、何が似ていて何が似ていないのか、こうした判別・評価がしにくいことは想像に難くありません。 私たちの嗅覚機能は、ニオイが感知されて脳内の神経細胞にその情報が伝わると、ほんの一部の最もアクティブな神経細胞が発火し、それをタグとして何のニオイかを導き出す仕組みになっています。つまり、小さなパターンを統合して答えを導き出す「見る」メカニズムとは 異なり 、言ってみれば“木から森を見る”ような個を統合して全体を見るアプローチが視覚のメカニズムであるのに対して、“森から木を見る”ような全体から際立った個を見るアプローチが嗅覚のメカニズムということでしょう。 (Photo by Brendan J / Flickr ) 例えば、多品種のリンゴが混じり合ったニオイを嗅いだとしても、私たちはそれが「リンゴのニオイだ」とわかるはずです。対照的に、モザイク画像のようにピクセルがランダムに混じり合った画像からは、私たちはそれが何なのかを認識することができません。 このように嗅覚の神経回路に関する理解を深めていくと、視覚とは別のアプローチで回答にたどり着いたり、これまでの方法ではたどり着けなかった回答を導き出せるかもしれないという考えが湧いてくることは、なんら不思議ではありません。そして、こう考えたかどうかは別として、ハーバード大学とコロンビア大学の科学者が嗅覚にヒントを得た人工ニューラルネットワークを構築したのは昨年のことです。 (Photo by John Tann / Flickr ) 暑さの厳しい季節にもなると、ちょっと目を離した隙に食べ物にハエがたかっていることがあります。この科学者たちが目をつけたのも嗅覚に関する研究の最先端にあるキイロショウジョウバエの嗅覚系回路 でした 。 キイロショウジョウバエの触角がニオイに反応すると、特定のニオイを感知する受容体が備わった神経細胞がニオイ分子を電気信号に置き換え、嗅覚系回路の次のレイヤーに送ります。このレイヤーは3層構造になっており、2層目のレイヤーは1層目のレイヤーよりも少ない神経細胞で構成されていて、伝達される情報を圧縮するような役割をもち、3層目のレイヤーはより多くの神経細胞が集まった構造になっています。神経回路のつながり方はランダムで、決まったパターンがあるようには見えません。 (Photo by ZEISS Microscopy / Flickr ) 科学者たちは、1層目のインプットするレイヤー、2層目の圧縮するレイヤー、3層目の拡張するレイヤーという構成に倣って、神経細胞もショウジョウバエと同じ数にした人工ニューラルネットワークを構築しました。 そしてこのニューラルネットワークにデータを割り当て、ニオイを分類するように命じると、ほんの数分でキイロショウジョウバエの脳と同じように動き出したことが報告されています。中でも、3層目の拡張レイヤーにある神経細胞の1つずつが2層目の圧縮レイヤーの神経細胞と平均6つずつ接続するという、ショウジョウバエの脳で起きていたことと同じことが人工ニューラルネットワークでも確認できた点が、研究に新たな命題を与える発見になった そうです 。 E-noseが活躍する命の現場 人間にはおよそ350のニオイを受け取る受容体があり、ニオイを構成する分子がそれぞれに結合する受容体との組み合わせによって、私たちが嗅ぎ分けられるニオイの種類は何兆にも及ぶのではないかと考えられています。 こうした嗅覚の研究は90年代に嗅覚受容体の遺伝子が発見されてようやく芽が出た分野だということもあって、すでに “目を持ったAI”と比べると“鼻を持ったAI”にはまだなりきれていない段階にあり、五感の中では最もデジタル化が遅れている分野とも言われます。加えて、文化的にも無臭化が受け入れられていくに従って、ニオイに関する研究やその重要性が認識されにくくなっているだけでなく、あまりにも膨大な情報が聴覚や視覚から流れ入ってくることがより人々をニオイの存在から遠ざけているようにも感じれられます。 ですが、改めて世界を見てみると、ニオイを合成したり感知したりするセンサーなどのハードウェアの需要は2020年にUSD17.9 million(およそ23億8千万円)であったのが、2027年にはその倍以上のUSD 39.1 million(およそ52億1千万円)に成長すると 見られています 。 (Photo by Martin Snicer / Flickr ) さらに、オランダやイタリア、アラブ首長国連邦では、特に廃棄処理など危険性の高い環境での包括的なE-noseのネットワークが構築されています。また、無作為にニオイを取り出してそれが何のニオイであるかを完璧に識別することはできないにしても、1種〜10種程度の特定のニオイを識別するAI搭載のハードウエアの実用化が進んで います 。 危険を伴う廃棄物処理の現場や最新の兵器が使用される戦場、あるいは命に直結するような水質管理や医療など、さまざまな分野から“鼻を持ったAI”がこれまで難しかった問題に新たな解決アプローチで挑んでくれるのではないかという期待が寄せられているのです。 古くて新しい診断方法 症状が出る前に、ニオイが出る 医学の目覚ましい発展により、日本では女性の2人に1人が90歳まで生きられる時代になりました。病気を早期発見できるようになった医療技術が私たちの寿命に与えるインパクトは大きく、血液検査や遺伝子検査などさまざまな検査で病気が判明することが当たり前のように受け止められています。 しかし、実際には検査で判明しない病気もまだまだあり、そういった病気の場合、初期症状や兆候などが判断材料となることから、病気が進行して明らかな症状が発現するまでは診断が下されないケースも少なくありません。 (Photo by Bianca Moraes / Flickr ) パーキンソン病も検査で判明しない疾患の一つでしたが、2020年に一人の女性が「ニオイでパーキンソン病を嗅ぎわけることができる」として メディアに取り上げられた ことで、早期発見に向けた新たな領域に入りつつあります。 女性がはじめてそのニオイを感じたのは、医師である夫がパーキンソン病だと診断される14年も前のことだったそうです。そのニオイがパーキンソン病と関わりがあるかもしれないと疑うことになったのは、診断された夫とともにサポートグループに参加したその女性が、部屋にいるパーキンソン病の人たちから同じニオイがしてくることに気づいたからでした。 夫妻はエディンバラ大学のパーキンソン病の研究者にそのニオイのことを伝えに行きますが、当初は「神経の疾患にニオイがするはずがない」と受け入れられなかったそうです。 半信半疑でパーキンソン病の患者とそうでない患者のTシャツを彼女に嗅がせる実験が行われたところ、彼女はほぼ100%の確率でパーキンソン病の患者のTシャツを言い当てます。ただ、その中で1枚だけ彼女がパーキンソン病でないのにパーキンソン病だと主張したTシャツがありました。研究者を驚かせたのは、実験からかなりの時間が経った後、パーキンソン病だと間違われた人が本当にパーキンソン病を発症し、その診断が下されたことでした。 ニオイのデータから病気を診断するAI 研究は進み、今ではパーキンソン病の患者は皮脂の中に特有の揮発性有機化合物を含んでいることがわかっています。そして、その皮脂を “嗅ぐ” ことによってパーキンソン病を診断するシステムを開発している科学者もいます。 中国の浙江大学では、クロマトグラフィーやセンサーなどを用いて皮脂サンプルの化合物を分析することで揮発性有機化合物を特定し、その情報を機械学習のアルゴリズムに投入するという方法で、ニオイからパーキンソン病を診断するAIの研究が行われています。この研究では、サンプルデータとしてパーキンソン病患者31名とパーキンソン病ではない人32名の皮脂のデータ用いて、それぞれの状態を識別するアルゴリズムが開発され、発見されたうち特に顕著な3種の揮発性有機化合物をベースにしたアルゴリズムをさらに用いることで、70.8%の正解率(accuracy)でパーキンソン病を診断することが可能であることが 報告されています 。 この70.8%という数値をもう少し掘り下げると、実際にパーキンソン病の患者がその通りに検知された正解率(真陽性率:true-positive rate)は91.7%、パーキンソン病でない人がその通り検知された正解率(真陰性率:true-negative rate)は50%だった とのことです 。 健康な細胞が攻撃されるとそれを代謝する中で副産物が生まれ、その副産物が血流に乗り、息や汗、尿によって排出され、そこに含まれる揮発性化合物によって感染しているかどうかがニオイとして感じ取れる−−、このメカニズムは神経の疾患であろうとウイルスによる疾患であろうと、さまざまな病気に通じるものです。 「もっと早くわかっていれば…」という遣る瀬無い思いを減らしてくれるのは、実はこれまで私たちがせっせと消すことに一生懸命になっていた口臭や体臭という、とても基本的な健康バロメーターの存在によるものなのかもしれません。生活に溶け込むようにして、“鼻を持ったAI”が息や汗のニオイから病気を探知するような未来が少しずつ見えてきています。 デジタル化の反動 本来は快・不快によって使い分けられるべき「匂い」と「臭い」が同じような言葉として用いられて いるほか 、自然のニオイに囲まれた生活から離れつつある子どもたちの中には本物の花の香りを「トイレの芳香剤のニオイだ」と言う子もいる そうです 。画像や音の領域で技術精度がこれほどまでに高まった現代であっても、なぜか人工のデジタル・ワールドと実際のリアル・ワールドに隔たりを感じてしまうのは、ひょっとしたら元来、生物の命と直結していたニオイの要素が失われつつあるからなのかもしれません。 デジタル化によってますます生活からニオイが消えていく一方、これまで「見る」ことにフォーカスが置かれていた博物館や美術館で「嗅ぐ」ことを取り入れた取組みも進められているといった話もあり、ロンドンでは数百年前の本など、アナログなもののニオイを再創造する研究もなされている そうです 。 (Photo by Cristiano Medeiros Dalbem / Flickr ) 嗅覚を持ったAIがスマートフォンに実装されて一般社会での利用が始まったとき、人々は自然とポケットからニオイのメッセージを取り込んでいく––、こんな世界がやってくるとしたら、私たちはきっと現代の “無臭化社会” をどこか物足りない時代だったと振り返るに違いありません。 今ではあまり見かけなくなってしまいましたが、『世界の空気缶』という空気だけが入った缶詰が土産品として楽しまれた時代がありました。そして現代、生活の中ではニオイを避けていながらも、猫の体に顔を埋めてニオイを吸い込むことが「猫吸い」といって受け入れられていたりもします。 インターネットも電気もない時代から培われてきた私たちが本来的に持っている太古の感覚、“嗅覚”が失われることはこの先もしばらくはないはずです。理屈のいらないコミュニケーションから得られる快感を、AIをはじめとするデジタル技術を活用することによって取り戻すときが来ています。
アバター
「音声UI」と、もっと大切な“UI”=Use Imagination 2022.5.6 株式会社Laboro.AI マーケティング・ディレクター 和田 崇 概 要 PCやスマートフォンなどのデジタルデバイスの操作画面やその手段である、UI(User Interface:ユーザーインターフェース)。近年注目を集めているのが、PCのマウスを使った操作や指によるタップ操作と比べても多くのメリットがあると言われる、音声による操作「VUI(Voice User Interface)」です。ただ、VUIは決して全ての操作・入力環境をカバーするものではありません。「どのUIが最も優れているのか」––それは、”UI”=Use Imagination:想像力のフル活用)によって初めて見えてくるものです。今回のコラムでは、VUIの特徴やこれまでのUIの進化過程を踏まえつつ、多数あるUI選定に必要なことについて考えを巡らせていきます。 目 次 ・ VUI(Voice User Interface)と、UIの進化  ・ CUI(Character User Interface)  ・ GUI(Graphical User Interface)  ・ NUI(Natural User Interface)  ・ OUI(Organic User Interface) ・ VUIの用途と、その仕組み ・ ユーザーにとってのVUIのメリット  ・ 操作入力の手間ヒマが少ない  ・ 両手や目線がフリーになる ・ ユーザーにとってのVUIのデメリット  ・ 自分の音声を他の人に聞かれてしまう  ・ ユーザー環境によって認識精度が落ちる ・ VUIの展望 ・ もう一つの”UI”「ユーザーを想像する」こと VUI(Voice User Interface)と、UIの進化 VUI(Voice User Interface)とは、PCやスマートフォンなどのデジタルデバイスの操作画面や操作方法であるUIの中で、声を用いて操作するものを指します。身近な例では、iPhoneのSiriを代表する音声アシスタントが挙げられます。 近年VUIが注目されている背景のひとつには、AI技術を活用した音声認識技術の精度が向上してきていることが挙げられます。とくにディープラーニングを中心にAI技術が発達してきたことによって、音声認識の精度向上はもちろんのこと、認識した音声をテキスト情報として処理する自然言語処理の技術が実用的なレベルになり、AppleのSiriやAmazonのAlexa、Google Assistantをはじめ、様々な音声アシスタント製品が登場していることも近年の傾向です。 そもそもUIとは、デジタルデバイスの操作画面や操作箇所または入力方法や入力手段の総称のようなものですが、さまざまなタイプが存在し、技術進化とともにその利便性が高められながら進化してきました。 CUI(Character User Interface) 「Character(キャラクター)」は、日本語だとあまり馴染みがないかも知れませんが、英数字などの「文字」のことで、CUIとは、今では当たり前のように行われている文字入力によってデバイスを操作する方法です。コンピューターが登場した初期から存在するオーソドックスなUIではありますが、現在でも各種プログラミングやWindowsのコマンドプロンプトなど、今もなお用いられているUIの一つです。 GUI(Graphical User Interface) CUIの次に登場したUIが、グラフィックによってデバイスを操作するGUI(Graphical User Interface)です。一見イメージが湧きにくいかも知れませんが、PCのデスクトップ上に並んだアイコンをクリックしてデバイスという操作方法はGUIの代表例で、現在でも日常的に活躍しているUIです。 CUIでは原則、決まったプログラミング言語でデバイスに対する指示を入力することから専門的な知識が必要である上、ルールに従った入力手順が求められるため、一般のユーザーにとっては決してハードルが低いものではありませんでした。その点、GUIのような直感的な操作を可能とするUIが登場したことは、PCをはじめとするデジタルデバイスを一般家庭にも広く普及させることに貢献したことに加え、UIの重要性を社会的に認知させることにもなりました。 NUI(Natural User Interface) 近年身近なUIとして普及し、様々なデジタルプロダクトにも搭載されるようになったのがNUI(Natural Interface)です。「Natural」つまり人にとってより日常動作に近い自然な方法でデバイスを操作することを目的にしたUIで、スマートフォンのタップ操作やスライド操作、ATMや券売機のタッチパネル操作、Nintendo Switchのコントローラーのようなジェスチャー操作が代表的な例ですが、もちろん今回のコラムのテーマである音声操作、VUIもこのNUIの一種です。 「五感によるUI」とも言われ、いまの時代にまさに主流になっているUIがこのNUIですが、その台頭の背景には赤外線センサーやBluetooth、モーションセンサーなど、各種センサーの技術向上が挙げられ、マウス操作が中心だったGUIの時代に比べると、その操作はさらに直感的でわかりやすい方法へと進化してきています。 OUI(Organic User Interface) 「Natural」に「Organic」とまるで野菜のようですが、有機を意味する「Organic」は言い換えると、“そのモノの特性に本質的に由来する”といった意味になります。OUI(Organic User Interface)は、言ってみればデジタルデバイスが操作画面といった“操作や入力のツール”としてではなく、まるでそれ自体を操作しているかのような“操作対象”になってしまうような概念です。OUIは、実は2008年頃から提唱されてきている概念ではあるものの、現段階で完全にはこの領域に達していると言い切れず、近未来のUIの姿だと言えます。 よくSF映画で3D表示されたホログラムを主人公が手で掴んだり、投げたりして操作するシーンが登場しますが、まさにOUIの大きな特徴として挙げられるのが「3次元操作」です。現在種集のデジタルデバイスの画面のUIのほとんどは縦・横の2次元で開発されてれていますが、OUIではこれに奥行きも含めた3次元でのUIがベースになります。近年、擬似的ではあるもののAR(Augumented Reality:拡張現実)やVR(Virtual Reality:仮想現実)、またプロジェクションマッピングを活用したUIも登場、3次元空間で立体的な絵を描くアーティストが登場するなども話題になっていますが、その実現はそう遠くはないのかも知れません。 VUIの用途と、その仕組み さて話を現代に戻すと、近年VUIに関連する技術の高度化を背景にさまざまな製品やサービスが登場しています。前述した音声アシスタント製品はその代表格で、GAFAM(Google、Amazon、Facebook(Meta)、Apple、Microsoft)のIT Big5がこぞって、スマートフォン搭載のVUIの他、スマートスピーカーを発売しています。その用途は、ニュース・音楽・ライフスタイルなどの各種情報コンテンツの取得、スマート家電の操作、音声ナビゲーションなど様々です。 VUIを実現するためにさまざまなセンサーや認識・解析技術が活用されていますが、その中でも欠かせない技術が音声認識や自然言語処理に関する技術です。とくにAI技術、具体的には機械学習・ディープラーニング技術進化の恩恵は大きく、入力マイクを通して取得されるデータから人の音声を抽出し、国や地域ごとに異なる言葉を認識し、その内容から適した応答につなげることが可能になっています。 音声認識については、以下のコラムでもご紹介しています。 Laboro.AI コラム: 音声認識AIのいま。その技術や事例を知る。 ユーザーにとってのVUIのメリット 言わずもがな部分が多くもありますが、ユーザー目線に立った時、VUIはCUIやGUIと比べると、以下のようなメリットが考えられます。 操作入力の手間ヒマが少ない 音声だけでデバイス操作が可能になるVUIは、これまでのUIと比べて一つの操作を達成するための手間ヒマが圧倒的に少ないことが特徴です。例えば、目的地への最短ルートを調べる場合、マウスやキーボードを使ったPC操作が必要となるGUIではインターネットブラウザでマップを開いて目的地を入力する、あるいは公共交通機関のWebサイトなどを検索して補足的な情報を集める必要もあるかもしれません。スマートフォン操作のような一部のNUIでも、手順としては似たような内容になるはずです。 一方のVUIでは、音声アシスタントを立ち上げさえすれば、日常会話をするように「◯◯への行き方を教えて」とだけ伝えれば、デバイス側でデータベースにアクセスし、必要な情報を探索、自動音声で回答してくれます。 両手や目線がフリーになる GUIやNUIでは多くの場合で手を使った動作による操作が必要であると同時に、目線もディスプレイに向けておく必要があります。一方、VUIでは口さえ動かして話しかければいいため、料理をしながらレシピをチェックする、運転中にナビを音声で操作するといったように、主たる動作と並行してデバイスを操作することが大きなメリットです。 ユーザーにとってのVUIのデメリット 便利な面がある一方で、VUIは技術的に発展途上であることもあり、以下のようなデメリットもあるのが実際です。 自分の音声を他の人に聞かれてしまう 日本の文化的な側面も関係していますが、公共の場所で声を発することへの抵抗感は依然として強く、VUIが浸透しにくい理由のひとつとなっているようです。VUIで先行しているアメリカなどでは公共の場所で声を発する抵抗感が日本より低いせいか、デバイスへ話しかけるシーンも比較すると多く感じられます。 ユーザー環境によって認識精度が落ちる 上で触れたように、確かに音声認識技術や自然言語処理技術はその精度が向上はしてきているものの完璧なものではありません。例えば、都会の交通量の多い環境では当然ながら雑音の音量が大きく、正確に人の声が認識されにくいですし、一部の言語や方言、さらには専門用語などによっては上手く認識されず、誤った入力がされることも少なくありません。 音声認識の精度を上げるための「音声分離」について、以下のコラムでご紹介しています。 Laboro.AI コラム: 声や音を聞き分ける、『音源分離』とは VUIの展望 ユーザーの入力環境を向上させるように進化してきたVUIですが、その恩恵は単に利便性を向上させるというだけでなく、読み書きができない方々や手が不自由な方々のデバイス入力をサポートするという点でも期待が持たれます。日本では実感が少ないかもしれませんが、識字率が高くない国ではVUIによって初めてインターネットに触れられる層も少なくなく、こうした地域での活用が見込まれるほか、企業にとっては新たな市場の開拓にもつながるとされています。 また、海外ではユーザーとの会話によるインタラクションをベースにしたボイス広告も登場しています。この広告では、従来のように押し売り的に商品を訴求するのではなく、ユーザーの興味関心度やその理由なども尋ねることでより適したレコメンデーションを実現しているとのことです。 様々な用途で期待されるVUI市場。今後さらなる普及と拡大が期待され、ユーザーにとっても新たな生活様式を提案するキーテクノロジーになっていくはずです。 出展:IT media「 音声の時代に起きること――電通イージス・ネットワーク iProspectのエキスパートが語る 」 もう一つの”UI”「ユーザーを想像する」こと 今回のコラムではUIの進化過程を振り返るとともに、VUIに焦点を当て、そのメリット・デメリットや展望について触れてきました。前述のようにVUI、さらにはOUIと今後ますますのユーザーインターフェイス環境の向上が期待されるわけですが、実際それを提供する企業にとって大切なことは、「新しいUI技術を追い掛け採用する」ということではなく、「自社が提供する商品サービスの利用シーンを想像する」ということです。 VUIは確かにユーザーの手間ヒマを少なくする側面も考えられます。ですが、極端な例ではあるものの、例えば仕事でのPC操作の全てをVUIベースにしようとするものなら、オフィス中が声で溢れて大変な騒ぎになるどころか、終業の時間にはユーザーの喉はカラカラになっていることでしょう。また、生命と隣り合わせの医療現場でもしシステムが誤って音声を認識し、医療システムが誤作動する事態を招くなど心配されます。さらにOUIであっても、町中の人がジェスチャーで操作するスペースはありませんし、その光景を想像すると何やら居たたまれない気持ちになります。やはりこれらのシーンではCUIあるいはGUIが入力方法としては適切です。 こう考えると、最新のUIが従来のUIを凌駕するというものでは決してなく、特定のシーンで用いられるより適切な操作・入力方法が誕生していると捉えるべきで、こうした商品サービスを提供する企業にとっては、「商品はどのようなシーンで用いられるのか」、そして「その環境において最も適切で、効率的・生産的なUIはどのような形式か」を考えることが重要なはずです。 VUIはデジタルデバイスとの関わり方として、そして新たな生活様式として、間違いなく現代のユーザーに浸透し始めています。ただ忘れてはいけないのは、VUIをはじめとする先端UIの情報を正確にキャッチアップすることはもちろん、「想像力をフル活用(=Use Imagination: UI)」し、ユーザー環境に最適なものとして採用されたUIこそが、最も優れたUIであるということです。
アバター
AIが解き明かす、もう一つの“AI” = Animal Intelligence 2022.4.25 監 修 株式会社Laboro.AI マーケティング・ディレクター 和田 崇 概 要 産業革命以降、大きく経済が成長した一方で多くの自然が失われ、今この瞬間にも100万種以上の動植物が絶滅の危機に瀕しています。そうした状況において動物のリサーチにAIが欠かせない存在になりつつあります。 これまでの調査と比べて生物にほぼ負担なく、人とは比べものにならない速さでデータを分析するAI。例えば、光の届かない海は私たちにとって未だ謎の多い世界ですが、今後AIが膨大な音声データを処理し分析することで、海の生物の生息状況や、彼らが何を話しているのかさえも知ることができると期待されています。 今回のコラムでは、”A.I.”=Animal Intelligence(動物の知能)に近づくために用いられているAI(人工の知能)のことをお話したいと思います。 目 次 ・ 光の届かない海で耳を澄ます  ・ 静かな海が帰ってきた  ・ 月 vs 深海、行くのが難しいのはどっち? ・ 人工の知能で、生きているものの知能を調査する  ・ 人間が教え、教えられる関係  ・ 一刻を争う野生動物の保護活動 ・ 世界中の市民が科学者になる  ・ アプリに回収されるデータが科学を進める  ・ 急速に増加した動物は何を思うか ・ 同じ「命あるもの」として 光の届かない海で耳を澄ます 静かな海が帰ってきた 新型コロナウイルスが世界を震撼させた2020年3月、全コンテナ船輸送力の11%が運休し、油田や天然ガスの採掘や振動探査のマシンを使った活動も減って、静かな海が広がり ました 。 実は、こうした状況が海洋生物の研究にまたとない好機となったことはあまり知られていません。海中に光はうまく伝わりませんが、音は深海でもよく響き、水深200mを超えた闇の中、音は大気中の5倍の速度で進むと 言われます 。光の届きにくい海の中でリサーチャーたちは音を頼りに海洋生物の多様性、生息域、個体数を調べ、さらに最新の研究では海の中で生き物たちが何を話しているのかをAIで解明しようと試みて います。 月 vs 深海、行くのが難しいのはどっち? 10分で水深1,000mまで潜水し、生涯の3分の2の時間を深海で過ごすというマッコウクジラ。よく絵本にも登場する四角い頭でおなじみのこのクジラは、人間の6倍という動物界で最大の脳を持ち、カチカチという「コーダ」と呼ばれる音のパターンで互いにコミュニケーションを取って います 。 深海というと、日本人民間宇宙飛行士として初めてISS(国際宇宙ステーション)に滞在した前澤友作氏が帰国会見の中で、次は​​「マリアナ海溝でも潜ってみたいな」と 話していた のを思い出します。 これまで月に着陸した人は12人、超深海と言われるマリアナ海溝最深部に到達した人は13人。つまり、人が深海に行こうと思ったら月に行くくらい難しいのが現状なのです。 (Photo by Gregory Smith / Flickr ) けれど、たやすく行けない深海でも船から海中聴音器を投げ入れるだけなら多額の費用はかからず、ほとんどリスクもありません。手っ取り早くて財布に優しいこの方法で、クジラやイルカのクリック音や、深海生物が攻撃時に発する音などの賑かな海の音声データが集まりつつあります。 実際、マッコウクジラのメスたちは共同で子育てをするそうで、共に生きる群れの仲間にはそれぞれに音のパターンで名前もあり、名前を呼び合って暮らしていることがわかっています。さらに、人間の世界に7,000の言語が存在するように、マッコウクジラにも数百〜数千の方言があり、その中からマッコウクジラはそれぞれ自分の部族のものを識別することもできるのです。 深海の生き物にもこうして耳を澄ませれば、私たちは宇宙に行かずともこの地球上に知的生命体を次々と発見することになるでしょう。 人工の知能で、生きているものの知能を調査する 人間が教え、教えられる関係 かつては生物に関するデータが続々と収集できたとしても、それらを分類し、さらに解析するのには膨大な時間が必要でした。陸上でも多くの生物の音声データが収集され、分析されてきましたが、その研究風景はAIによって様変わりしています。 例えばある研究チームはAI導入前、キリギリスの声の録音データ10時間分をそれぞれのキリギリスの種に分類するのに600時間を費やしていたそうです。ところが、その作業を機械学習ベースのAIに任せれば、研究者たちが外で一杯やっている間に済ませられると 言います 。 とはいえ、深海のような未知の世界に関しては、陸上の調査で主として用いられる既存データを用いた教師あり学習をAIに施すことができません。そこに、ディープラーニングや教師なし学習、自己教師あり学習などの技術が進化してきたことで、人間の知識に頼れない生物の調査に光が見え始めて います 。 (Photo by The Official CTBTO Photostream / Flickr ) 教師あり学習の場合、基本的に人間がラベル付けした大量のデータをAIに学習させることが必要であるため、生き物の会話内容など人間が答えのわからないものをAIに学習させることはほぼ不可能ということになります。その点、データ群の構造解析やカテゴリ分類を得意とする教師なし学習、あるいは少量のデータをあえて欠損させてその修復過程を学習させる自己教師あり学習など、異なるアプローチによるデータ解析の可能性が見出されてきました。 こうした技術進化によって、目で捉えることができない音だけの世界でどの生物が何を言っているのか、それが人間にわからないとしても、AIの視点で音声データの中にパターンを見つけ、どんな音のカテゴリー構造が存在するのかを教えてくれるようになりつつあるのです。 一刻を争う野生動物の保護活動 絶滅に瀕した動物の一刻を争うような状況下では調査にスピードが重要なことはいうまでもなく、アフリカでは生物をセンサーで自動認識し、撮影するカメラを使った調査・保護活動にAIが取り入れられています。 ザンビアにあるサバンナゾウの暮らす国立公園では、密猟者の侵入ルートになっている場所を中心に、赤外線カメラを使った19kmに及ぶバーチャルフェンスが設けられています。このカメラが配備された2019年当初は、人間が複数のカメラ画像をチェックしていましたが、19kmに及ぶ範囲の情報を漏れなく調べるには圧倒的に労働力が不足していました。 現在は自動的に侵入者を探知するAIシステムが活用されており、AIが見張りをしながら即時に異常を知らせることで、たった数人の人間で24時間監視ができるようになったと 言います 。 (Photo by Mara 1 / Flickr ) 動物の調査をする上でAIが人間の大きな助けになっており、AIはこれまでの流れを変えるGame Changer(ゲームチェンジャー)になると信頼されるほどの成果をもたらしつつあります。 AIが「A.I.=Animal Intelligence(アニマルインテリジェンス)を調査するための自然なツール」とみられるのは実におもしろいと言ったのは、マイクロソフトの共同創業者ポール・アレン氏が設立した人工知能研究所でトップを務めるオレン・エッツィオーニ氏 ですが 、AIによって半自動的に動物の調査をすることが可能になるにつれて、徐々に市民の間でのA.I.=Animal Intelligenceへの関心も高まりつつあります。 世界中の市民が科学者になる アプリに回収されるデータが科学を進める 私たちの身近なところでも、耳を澄ませば毎日同じ時間に鳥がさえずり、夜に合唱するカエルの声も聞こえてくる季節です。 昔と何も変わらない日常のようでありながら、そう遠くない未来にスズメが天然記念物に登録されることになったとしてもおかしくない現実に、私たちは直面しています。昨年、環境省が20年ぶりに行った鳥類に関するリサーチ結果の報告があり、それによるとスズメの個体数は前回調査から34%減少しており、ツバメにおいては40%も減っていることが わかりました 。 急激に数を減らしている生き物はすぐそこに暮らしていて、開発の進んだ日本の都会では蝶を見かける機会も少なくなりました。このまま行けば普通に存在していると思っていたものが一つ、また一つと消えていく世界が待っています。 (Photo by coniferconifer / Flickr ) ヨーロッパや北アメリカでは、鳥の鳴き声を聞かせると3,000種の中から何の鳥の鳴き声かを教えてくれるAIシステムを搭載したアプリが一般公開されており、市民とともに鳥の研究が行われようとしています。 すでに200万近いアクティブユーザーを抱えるこのアプリはユーザー自身が楽しむことに加えて、ユーザーもまたアプリを使うだけで鳥のさまざまな鳴き声データを収集し、世界規模の鳥の研究に参加することができるのです。こうしたAI搭載のアプリによって、これからますます“市民科学者”が増えると期待が寄せられています。 急速に増加した動物は何を思うか 私たちは現在、地球上に生きている哺乳動物の9割以上が人間と家畜という世界で暮らして います 。過去50年で野生生物の数は3分の1以下まで落ち込み、野生動物の壊滅的な減少が恐ろしいスピードで進んで いる 一方で、家畜の数は牛や豚が10億前後、そして鶏は230億というまでに膨れ上がっています。 実のところ、家畜も数だけ見れば増えているものの、歴史の中で人間に飼いならされた哺乳類の品種の10%が絶滅したという 事実 があります。急速に数を減らしている動物に耳を傾け理解しようとすると同時に、急速に増加した家畜に関しても従来の見方を見直さなければ、私たち人間は野生でも家畜でも動物にとって脅威であり続けるしかないでしょう。 AIを用いた動物を対象とした研究の最前線では、飼育されている豚411頭の発する鳴き声に関する研究結果も報告されています。このリサーチでは豚が生まれてから屠殺されるまでの、豚の一生のあらゆる場面で鳴き声が収集され分析されました。 (Photo by Dan Belanescu / Flickr ) このAIを用いた研究では、確認された38,000のうちノイズの低い7,414の鳴き声のスペクトログラムをニューラルネットワークで分析したもので、その結果、高いピッチから下がっていく音がネガティブな状況、短く響く低いピッチの音がニュートラル〜ポジティブな状況での鳴き声だと 示されました 。 さらに豚の暮らしを19のシーンに分類したところ、喧嘩をしたり、体を拘束されたり、孤独であったりしたときに聞こえる鳴き声と、食べたり、遊び回ったり、仲間を見つけたりしたときに聞こえる鳴き声は明らかに違ったそうです。 同じ「命あるもの」として 私たちは過去数百年に渡り、動物のことを深く理解する前に人間社会の繁栄のために行動を起こし、動物の生息環境を壊し、リセットできない状態をつくりだしました。ここでまた、コバルトやニッケルといった金属が不足して経済に深刻な影響が出てきている中で、深海に眠る鉱物をロボットで採取する流れも出てきています。 しかし、数百年分のレアアースがそこにあることはわかっていても、その資源の採掘が、およそ30億年という途方も無い時間をかけて深海に築き上げられてきた生態系にどんな影響を及ぼすのかはわかっていないのです。 (Photo by NOAA Ocean Exploration / Flickr ) 人間はクジラのように真っ暗闇の深海を泳ぐことも、ツバメのように自分の羽で9,000キロを旅することも、犬ほどに愛情や謙虚さを一心に表すこともありません。彼らにはどんな世界が見えているのか…。”Animal”という言葉はラテン語の「命あるもの」に由来するそうですが、同じ命あるものとして動物から学びたいと思うことは数限りなくあります。 動物が何を話しているのかを知るには気の遠くなるような量のデータが必要だとしても、AIを搭載したアプリが普及し、60億のスマートフォンが稼働する世界の“市民科学者”の参加によって、その解明は不可能な話ではなくなるのかもしれません。 (Photo by MIKI Yoshihito / Flickr ) 実は、動物の専門家にもテクノロジーの専門家にも、機械化を進める中で生まれたAI技術によって、人間がますますロボットのように振る舞うようになるのではないかと恐れる声が聞かれます。つまり、「人はそのうち、親密さや感受性を保つことができなくなる」「機械化された世界を生きることになってしまうかもしれない」と生物学者が考えるのと同じように、テクノロジーの研究者もまた、ロボットが人のように行動する前に、人がロボットのように命を扱うようになってしまうかもしれないのではないかと不安を抱く声も少なからずあるのです。 しかし、今回見てきたように、AIによって動物に危害を及ぼさずに自然に調査ができるようになっている事実は、専門家たちが恐れていることと真逆の可能性を広げていると捉えることもできるはずです。 機械化によって家畜を大量生産したり、野生の生息環境を侵害したりしてきた過去から生じる不安を良い意味で裏切るように、私たちはAIとともに「命あるもの」と心通わせるための通路を作り、その話し声に耳を傾けられるような世界へと一歩ずつ近づいています。
アバター
「品質管理AI」の違和感。その役目は人にある。 2022.3.13 株式会社Laboro.AI マーケティング・ディレクター 和田 崇 概 要 とくに製造業では、製造する製品そのものや製造ラインの品質管理をいかに行うかが、そのクオリティを左右すると言っても過言ではなく、近年、この品質管理にAIを活用する事例が増えてきています。とはいえ、「品質管理」は本当にAIにさせるべきことなのでしょうか。今回のコラムでは、製造業を中心に進められる品質管理へのAI導入について、その事例をご紹介しながら考えていきます。 目 次 ・ 品質管理業務にAIが取り入れられている ・ AIを活用した4種の品質管理  ・ 異常検知  ・ 外観検査  ・ 安全管理  ・ 工程最適化 ・ 品質管理でのAI活用事例  ・ 鉄道設備の画像異常検知  ・ 商品の欠損確認  ・ 船舶の経路を最適化  ・ 立入禁止区域にいる作業員を検知 ・ 品質管理をするのはAIではなく、人だ 品質管理業務にAIが取り入れられている 製造ライン上での品質管理は、従来から「匠の目」「神の手」とも呼ばれるスキルと経験を保有したベテラン作業員による確認が不可欠でした。ですが、こうした職人技による作業は、その伝承が難しく、担い手の育成と確保が大きな課題になっています。 たとえAI技術を用いたとしても、こうした経験と勘に基づく技を完全に代替することはできません。ですが、膨大なデータからパターンを学習し、その特徴や傾向を見出することを得意とするAIによって、明らかな誤りや欠落、破損、異常、予兆を捉えることができれば、手間だけがかかっていたルーチン業務が効率化され、人がより職人的な作業へと集中できる環境と時間が生み出されていくことへとつながるはずです。 AIを活用した4種の品質管理 では、AIは具体的にどのように品質管理に貢献ができるのでしょうか。ここでは、4つの品質管理の領域をご紹介します。 異常検知 昨今のAIブームを支える領域の一つが、この異常検知です。異常検知とは、文字通り、正常な状態とは異なる状態や状況を検知・検出・予知する分野で、製品の破損・劣化や機械の故障を発見あるいは予防することを目的としたAI活用領域です。なお、厳密な定義は曖昧ですが、こうした異常箇所を発見することを目的とした近しい言葉として、異常検出、外れ値検知など、また異常を予測することを目的とした領域として、異常予測、故障予測、故障予知、予兆検出などがあり、これらは同類の品質管理の領域と捉えることができます。 AI技術の精度も日進月歩で進化しており、人間には見つけられないような異常を検知できる仕組みも少なからず開発されてはいますが、学習データを必要とする「教師あり学習」が主流である現在のAI技術の活用においては、「人の目でわかる異常の検知を機械に任せる」という使い方が今なお主流です。 異常検知のケースとして多いものは、見た目にわかる異常や欠落、破損などを検出することを目的とした画像AI領域がやはり主流ですが、他にも製造機械の異音を検知するといった音声AI領域でも活発にPoCが行われています。 参考:Laboro.AI エンジニアコラム「 時系列データに異常発見。『時系列異常検知』とは 」 外観検査 異常検知の一つとも言えますが、特に近年キーワード化しているのが外観検査です。生産品はもちろん施設・設備などの外観の検査を目的としたこの領域では、当然ながら画像データが用いられ、撮影の仕方や判定のロジックをどう構築するかキーになります。 例えば製品の外観上のキズを判定するという場合、同じ製品の写真であっても、それを撮影する角度や明るさ、画素数などが都度異なれば、それはAIに取ってみれば一つ一つが全く異なるシーンであるため、できる限りキズの有無だけに判定をフォーカスできるよう撮像環境を整えることが非常に重要です。 また、その判定・評価ロジックを構築することも欠かせません。「キズ」と言った場合、具体的にキズとは何なのか(何mm以上あって、どのような形状なのか等)、キズの許容範囲はどこか(良品・不良品を決める水準等)、こうしたルール・基準作りができていないとAIを導入した製造ラインは「不良品」として誤判定された製品の山になってしまいます。こうしたルール作りができない場合には、そもそも今のタイミングで品質管理にAIを組み込むのが適切なのかを検討する必要があるでしょうし、誤判定があることを前提とする場合には、その後工程にくる人の業務オペレーションをどう組んでいくのかなど、AIのみならず業務側の再設計も重要な検討ポイントになってきます。 参考:Laboro.AI プロジェクト事例「 インフラ設備の劣化箇所検出 」    Laboro.AI プロジェクト事例「 波形解析による管内外面の損傷検出 」 安全管理 作業員の安全を確保することを目指した安全管理にもAIが用いられています。安全そのものは製品の品質に直接関わるものではありません。ですが、安全な環境の整っているかどうかは、作業員のモチベーションやメンタル面に反映されるはずで、結果として製品や作業の品質に影響することは間違いありません。 立入禁止区域にある人影の発見や、機械の暴走の発見など、安全管理は、作業現場内の危険な状態を発見するという点で異常検知に似ているものがありますが、その目的が製品や機械・設備の異常の発見ではなく、場合によっては命の危険も伴う工場内や建設現場などでの人の安全を守ることにあります。 通常、機械や現場状況がどのような状態にあると危険なのかということを人が察知するには、やはり長年の経験と勘が必要なものです。AIを活用した安全管理システムを導入することによって、新人作業員であっても一定の危険を回避しつつ、危険が迫った時にはアラートを発信するなどの仕組みを構築するなど、AIによる安全管理は、安全技能の伝承という側面も持っています。 参考:Laboro.AI 代表的なソリューション「 映像から危険を察知 安全管理ソリューション 」 工程最適化 製造業や建設業、流通業など、人の作業が伴う業界・現場には、生産工程、製造工程、作業工程、建設工程、配送工程といった工程が必ず存在します。これら工程をいかに生産性高く設計し、効率的に運用できるかは、その製品・サービスの品質に直接的に関わってくる部分だと言えます。 工程というものは、必ず前工程と後工程が順番に連なることによって構成されます。その一つ一つの作業工程をどう組み合わせて最適な順序を設計するか、つまり「組合せ最適化問題」を解くことによって、理想的な工程は導き出されます。 例えばトラックの配送ルートの策定など、こうした組合せ最適化問題ではこれまで「離散最適化」という分野によってその解法が数多く生み出されてきましたが、近年、強化学習を用いて組合せ最適化問題を解決するケースも誕生してきています。 参考:Laboro.AI 代表的なソリューション「 強化学習×最適化 組合せ最適化ソリューション 」 品質管理でのAI活用事例 では、実際のビジネスシーンでは、品質管理にどのようにAIが適用されているのでしょうか。ここでは3つの事例を見ていきたいと思います。 鉄道設備の画像異常検知 JR西日本はAIによる異常検知を行うため、新たな総合検測車「DEC741」を導入することを2021年11月に発表しました。DEC741では、車上に搭載されたカメラを使って線路・電柱・信号機などの状態を画像として取得、AIによって異常検知を行います。これまでこうした検査は主に人の目で行われていましたが、AI検知が十分な効果を発揮すれば、鉄道の安全性を高めた上で年間約16億円という莫大なコスト削減が見込まれるとしています。 出典:Ledge.ai「 JR西日本、AIで鉄道設備を車上から確認 年約16億円のコスト削減見込む 」 商品の欠損確認 ドイツの自動車メーカー アウディでは、2016年から品質検査をすべてAIによって行うことを目指しており、その一環としてプレス工場での品質検査にディープラーニング技術を用いたAIシステムを導入しています。この品質検査は、プレス時などで板金に生じるわずかな亀裂をAIによって検出するというもので、数百万枚もの画像で学習を行ったAIシステムを活用し、目視確認からの代替が可能になったと言います。 出典:Audi “ Audi optimizes quality inspections in the press shop with artificial intelligence “ 船舶の経路を最適化 精油所で精製されたガソリンなどの燃料は、タンカーによって全国各地へ運ばれていきますが、季節による需要の変化を始め、どこにどれだけの燃料が必要なのかは細かく変わってきます。そういった状況に対応するために配送計画が作られますが、800を超えるパラメータを人間の頭で計算して計画を作る必要があり、属人的で精度にも課題があると言われています。 出光では、国内のスタートアップ企業と協力し、これまで人力で行っていたタンカーの配送計画作成をAIに実施させるプロジェクトを進めており、工数にして60分の1もの削減になったことが発表されています。 出典:BUSINESS INSIDER 「 AI最適化で「1カ月分の計画を10分で立案」出光のタンカー配船計画の裏側に見える、AI業界の未来 」 立入禁止区域にいる作業員を検知 JFEスチールでは、画像認識技術を用いて製鉄所などでの安全性を高めるサポート技術として、禁止エリアへの立入に関するシステムの実用化に成功しています。このシステムでは、大量の人物画像にディープラーニングを施してその特徴を学習、作業員が立入禁止エリアに入ったときにアラートを発するとともに、自動でラインを停止するという仕組みになっています。発表によれば、状況によって立入禁止エリアが変化するような場合にも対応し、正しくエリア認識が可能になったとされています。 出典:JFEスチール株式会社「 国内業界初となるAI画像認識による安全行動サポート技術の導入について 」 品質管理をするのはAIではなく、人だ 「品質管理AI」という言葉を目にすることもありますが、この言葉には少し違和感がなくもありません。なぜなら、AIそのものは過去に学習したデータの傾向を参考にして、似た事象あるいは似ていない事象を推論するに過ぎないからです。これらは結果として「異常検知」「故障予知」などと呼ばれるわけですが、結局のところ、こうした特定の事象を「認識」&「予測」することがAIによってできることであり、「管理」という行為は人によってでしかできないのです。 辞書Oxford Languagesによれば「管理」とは、 よい状態であるように気を配り、必要な手段を(組織的に)使ってとりさばくこと。 だとされます。つまり、AIは、人々が良い状態や環境で働き、生活し、生きていくために使われるツールでしかありません。良い状態が作れるかどうかは、AIという機械によって自動的に為されることではなく、人が決め、方向づけ、実行されることによって達成されるものなのです。 そういう意味で「品質」という言葉には、製品や機械、設備だけではなく、私たちの人としてのあり方の質という意味も含まれているようにも感じます。「品質管理AI」なる魔法の装置が存在しないのだとすれば、従業員や作業者をはじめ、人々にとっての良い状態とは何を指すのか、そしてAI技術をはじめとする新たな技術ツールを用いてその状態をどう作り出していくかを、必死に考え始めるときです。
アバター
AI、50年前に帰る。「再現することで生まれる愛について」 2022.3.9 監 修 株式会社Laboro.AI マーケティング・ディレクター 和田 崇 概 要 「仕事の49%がAIやロボットに置き換えられる」というニュースで衝撃が走ってから早7年。AIは人間を凌駕するかもしれないとアイデアは膨らみ、AIを人間の解決できない問題への糸口だという人もあれば、AIは人の築き上げた世界をハイジャックする脅威だという人も現れて、AIを題材にした未来が熱く語られるようになりました。 実際、機械による自動化が労働市場に与える影響も顕在化し始めていますが、そもそもAIとは何なのかと考えた時、AIは既存のデータから教えられ学習するのが不可欠な、未来を変えるより過去に帰ることが得意な装置なのです。それを証明するかのように、AIによって昔の写真から再現された写真集が昨今、世界のあちらこちらでベストセラーとなっています。 今回のコラムでは、思い出が廃れることのないAI時代の始まりを感じていただけたらと思います。 目 次 ・ 未来を描く人、過去を再現するAI  ・ ポスト・ヒューマンの未来  ・ 祖父母の時代を再現した写真集  ・ AIで、記憶を解凍する ・ 過去が現実とリンクする  ・ 人間はもう「2度死なない」 ・ 「過去に帰る」という薬  ・ 若い頃の自分に戻ると背筋が伸びる ・ 思い出が人をつくる 未来を描く人、過去を再現するAI ポスト・ヒューマンの未来 AIに対して社会の関心が高まったのは、「将来、仕事の49%がAIやロボットによって置き換えられる」と報道されたタイミングでした。野村総研とオックスフォード大学の共同研究によるこのレポートが発表された2015年から時は流れ、最新の報告では、2030年までに日本で1660万人分の雇用が業務の自動化によって失われると見込まれています。日本の労働力人口が6693万人と予想されていることを踏まえると、ほんの8年先の未来では実に4人に一人が、今従事している仕事を失っていることになります。 こうした情報はメディアでも大きく取り上げられ、AIによって人々が今のように働かなくて良くなるという未来や、あるいはAIが自身を改良して人の世界をハイジャックする“ポスト・ヒューマン”の未来など、さまざまな可能性が語られるようになりました。こうしてAIを交えて描かれる数十年先のストーリーに接する機会が増えた私たちの頭の中で、AIは“未来”と直結するものになっているかもしれません。 しかしながら、AIそのものの実態は、既存のデータから教えられたり学習したりすることで世界の特徴を抽出する、言ってみれば、“過去”に生きることが得意な装置なのです。 (引用: Flickr ) 祖父母の時代を再現した写真集 2020年、アイルランドでその年の売上金額が100万ユーロ(約1億3千万円)を突破した唯一の書籍となったのは『Old Ireland in Colour』という写真集でした。『Old Ireland in Colour』はその名の通り、アイルランドの歴史をフルカラーで振り返る写真集です。 この写真集には、映画『タイタニック』で知られるタイタニック号が、その誕生の地である北アイルランドの港を出航する写真なども収められています。中でも人々の心を掴んだのは、村人が羊毛を紡いだり、上流階級の人が狐狩りをしたりする、日常の風景を写したものだったといいます。 (※写真はイメージです。 引用: Flickr ) このプロジェクトで白黒の写真にAIがどのようにして色を再現したのかというと、まずAIは大量のカラー写真と同じものの白黒写真で両方の写り方を学びます。カラーと白黒を照らし合わせてどの色がどの質感になるのかをAIは学習し、白黒の写真に色をつけることができるようになるのです。 もちろんその時代にしか存在しないものもありますから、『Old Ireland in Colour』では、アイルランド中の資料が集められ、アイルランドの歴史学者も参加し、ついに1840年代〜1960年代のアイルランドをカラー写真で再現することに成功したのでした。 この写真集は元々、工学/コンピュータ・サイエンスの専門家が個人的なルーツを探るために祖父母の白黒写真を入手したところから発展したものだそうです。 AIで、記憶を解凍する 日本で初めてカラー写真のフィルムが発売されたのは1941年だそうですから、私たちの中にも親族の結婚写真などを見て写真がモノクロだったことに驚いた記憶のある人は少なくないのではないでしょうか。 『Old Ireland in Colour』の完成と時を同じくして2020年、日本でも戦争の「記憶の解凍」をテーマにした『AIとカラー化した写真でよみがえる戦前・戦争』が出版されています。発売後すぐに重版がかけられたというこの本では、原爆が落ちた後の広島で佇むカップル、撮影された翌日命を落としてしまうことになる特攻隊員が子犬を抱いている様子など、戦争を生きた人々の姿をカラーで見ることができます。 (※写真はイメージです。) 2017年にこのプロジェクトを立ち上げ、戦争体験者のアルバムの中にあった写真をAIでカラー化してきたのは広島市出身の庭田杏珠さんと、東大大学院の渡邉英徳教授です。渡邉教授は『AIとカラー化した写真でよみがえる戦前・戦争』の中で次のように述べていました。 「カラーの写真に眼が慣れた私たちは、無機質で静止した『凍りついた』印象を、白黒の写真から受けます。このことが、戦争と私たちの距離を遠ざけ、自分ごととして考えるきっかけを奪っていないでしょうか?」 白黒の世界は私たちの目に映るものとは大きく異なる世界です。個人差はあるものの、人間が識別できる色は数千〜数百万色とも言われており、色を測定する専門家であれば30万色の識別も可能とされています。 数十年前の世界が忠実にカラー化され、私たちはようやくそこに写る人と近い目線で戦争を感じることができるようになったのです。 過去が現実とリンクする 人間はもう「2度死なない」 「人間は2度死ぬ」と言われることがあります。人間が亡くなるのには、肉体がなくなることと、人々の記憶からなくなることの2つのステージがあるという意味です。 終戦から77年を迎える日本では、戦時中の記憶を語れる戦争体験者が年々少なくなっており、写真や手紙、手記、生前の肉声を残すプロジェクトにAIの活用が急ピッチで進められています。 「あの原爆が落ちた日も、こんなふうにカラッと晴れた朝だったのかもしれない」 AIによって当時の光景がカラーでありありと蘇ったとき、私たちは洗濯物を干しながらそんなふうに現実とリンクして過去に想いを馳せるようになるでしょう。昔の技術で遺されたものを、AIが現代の人にとってリアリティのある方法で再現できるようになれば、人間はもう2度目の死を迎えることはなくなるのかもしれません。 (※写真はイメージです。 引用: Flickr ) ロシアでも、ある起業家が突然事故で失った親友を想い、遺されたデータから親友との時間を再現するAIの開発に成功しました。 毎日メッセージを交換していた親友との会話を読み返していた彼女はある時、この膨大なデータがあれば亡くなった親友本人とするような会話を再びできるようになるのではないかと思い立ったのです。親友と近しい人たちからも親友の送ったメッセージを集め、そのやりとりの記録を読み込ませたチャットボットと彼女は再びメッセージを送り合うようになりました。 使い始めるまで、彼女はいつものように親友(チャットボット)とやりとりすることで親友を愛し続け理解したいと思っていたはずが、やりとりを重ねるうちに彼女は自分自身をより深く理解し、満たされるようになったそうです。自分を理解するもう一人の自分が生まれたとも言えるこのチャットボットは、Replica(レプリカ)という名前で、サービスとしての提供が広まっています。 「過去に帰る」という薬 若い頃の自分に戻ると背筋が伸びる 人は過去を懐かしく思い出すと、全体的にポジティブな感情を得ることが多いそうです。では、実際に人を過去に帰らせたらどうなるのか…。 70代〜80代の健康な男性を対象にハーバード大学の心理学教授、エレン・J・ランガー教授が行なった興味深い実験があります。1979年に行われたこの実験で被験者たちは、自分たちが50代〜60代を過ごしていた1959年に時計の針を巻き戻すことになります。 どういうことかというと、被験者には1959年以降につくられたものが一切ない空間を与えられます。その空間は、電化製品や本といった身の回りのものから食べる物、もちろんテレビ番組も全て、彼らが20年前に過ごしていた日常を再現したものでした。 さらに被験者には「20年前の自分に戻ったつもりで現在形で話してください」 という指示も出されました。例えばアメリカで初めて人工衛星の打ち上げが成功した1958年の話は去年の出来事として話し、テレビにピンクのキャデラックが登場したら「あれは格好よかったよね」でなく「これ格好いいよね」と言うといった具合です。 さて、実験後に被験者たちはどうなったでしょうか。 (※写真はイメージです。 引用: Flickr ) 実験前後に撮影した被験者の写真を並べて見た人々は、実験後に被験者が3歳くらい若返ったようだと評価しました。また、実験前後に行なった様々なテストのスコアを比べると、実験後の被験者は聴力や記憶力が向上し、関節が柔軟になり、背筋が伸びたというような変化が見られたということです。 被験者がこの実験で20年前の自分に帰っていたのはたった4日間でしかありませんでしたが、心が若返ることが人の感情や行動に与える影響は大きいと示唆される結果になりました。多くの喪失を経験せざるを得ない高齢期こそ、これから着々と老いていく時間を一方通行に進むより、過去に時々帰りながら時間を循環するようにして過ごすのが何にも勝る薬になるかもしれません。 思い出が人をつくる “過去の事件を忘れないように” “歴史を繰り返さないように” というときほどなぜか辛い部分がフォーカスされるものです。けれど実のところ、その出来事の痛ましさを伝えてゆくよりも、そこにあった愛を再現することで人間は今をよりよく生きることができるようになるのではないでしょうか。 『火垂るの墓』などで知られる直木賞作家の野坂昭如(のさかあきゆき)さんは、『火垂るの墓』の主人公と同じ14歳のとき、神戸大空襲で家族も何もかも、全てを失いました。野坂さんは53年連れ添った妻の暘子さんにしばしば、「人は思い出だけで生きていける」と話していたそうです。 幼い自分を養子として受け入れた両親に大切に育てられた野坂さんは、亡くなった養父との思い出を語る時、完全に少年の顔に戻っていたと言います。そんな幸せを奪った戦争を生き抜いた野坂さんを支えていたのは、戦争で失うまで確かにそこにあった、家族との幸せな日々の思い出だったのです。 普段、私たちが日々どのくらい未来のことを考えているかというと、アメリカで行われた研究結果では、未来について考えている時間は、過去について考えている時間の3.5倍と報告されています。未来を考えるのが得意な私たちは、地球温暖化や人口問題への不安も、宇宙開発や科学技術への期待も、発展途中にあるAIにも、自然と未来のことが思い浮かびます。 「目が前についているのは前に進むためだ」と言ったりしますが、既存データから過去の記憶を再現し、過去に帰るのが得意なAIがあれば、人間は後ろにも目を持てるようになるのです。 今何を再現し、未来で自分がどのように再現されたいのか、私たちがAIと共にできることはまだまだたくさんあるに違いありません。そもそもモノやお金と違い、思い出という財産であれば、今を生きる自分にとっても、未来を生きる人々にとっても、あり過ぎて世界が崩壊することはないのですから。 <参考・引用文献> ・東洋経済ONLINE 「 AIに仕事奪われると怯える人に知ってほしい心得 」 ・三菱UFJリサーチ&コンサルティング 「 2030年までの労働力人口・労働投入量の予測~人数×時間で見た労働投入量は2023年から減少加速~ 」 ・THE IRISH TIMES “ John Delaney exposé top Irish 2020 title as Old Ireland in Colour makes €1m sales “ ・CNN Style “ AI photo restoration shines a light on life in old Ireland “ ・東大新聞ONLINE 「 戦争の記憶どう受け継ぐ? 〜AIによる写真のカラー化とオーラルヒストリー〜 」 ・庭田杏珠・渡邉英徳/著 『 AIとカラー化した写真でよみがえる戦前・戦争 』 光文社 ・ジャン=ガブリエル・コース/著 『 色の力  消費行動から性的欲求まで、人を動かす色の使い方 』 CCCメディアハウス ・Quartz “ How the “Most Human Human” passed the Turing Test ” Youtube ・エレン・ランガー/著 『 ハーバード大学教授が語る「老い」に負けない生き方 』アスペクト ・週刊現代 「 今度は私が「思い出」と生きるわ/野坂暘子(夫人) 」 ・Roy F Baumeister et al. “ Everyday Thoughts in Time: Experience Sampling Studies of Mental Time Travel ” Personality and Social Psychology Bulletin 46(12)
アバター
大人に告ぐ、子供向けAI開発の今。「子どもによる、子どものためのAI」 2022.2.12 監 修 株式会社Laboro.AI マーケティングディレクター 和田 崇 概 要 スマートフォン、スマートスピーカー、スマートテレビ…。これらに囲まれて育つ子どもたちの世界では、AIとの接触がもはや避けられなくなっています。大人と子どもではAIとの向き合い方がまるで異なり、子どもたちにはAIが人であるかのように感じられ、親に聞けないことも問いかけ、AIが自分の話を聞いてくれていると理解します。 ところが、現在子どもたちの身近にあるAIは、大人の世界のルールや常識を前提としてとして発展してきたものです。子どもにとっての初めての友達がAIになるかもしれないこれからの時代、子どもたちにとって、AIはどうあって欲しいものなのでしょうか。今回のコラムでは、AIと子どもの関係に着目し、「子どものためのAI」について考えていきたいと思います。 目 次 ・ 世代は「AIネイティブ」へ  ・ 音声認識AIはスクリーンタイムの悩みを解消するか  ・ 真逆のアプローチで生まれた「子ども裁判所」  ・ 大人のデータによる、大人のためのAI ・ AIから正解はもらえなくてもいい  ・ 子どもは疑り深い生きもの  ・ 知能の発達には順序がある。「絵の描けない子どもたち」 ・ AIと大人、AIと子ども  ・ 子どものためのAIは、一からつくる  ・ 子どものデータによる、子どものためのAI ・ 子どもにとっての理想のパートナーは、やっぱり『ドラえもん』 世代は「AIネイティブ」へ 音声認識AIはスクリーンタイムの悩みを解消するか 「アレクサ、ドラえもんのうたをながして」 といった具合に、幼い子どもたちがAI搭載のデバイスに向かって気軽に話しかける姿を目にする光景も当たり前になりつつあります。AIと自然に交流する「AIネイティブ」を目の当たりにし、時代が変わったと感じた人も少なくないのではないでしょうか。 子どもが言葉より先に画面をスワイプすることを覚えると言われるようになってから世代は移り、今の子どもたちの日常にはAIアシスタントが急速に溶け込んでいます。中でも、急ピッチで導入が進んでいる音声アシスタントは、2020年の時点で音声認識AIが使用されたデバイスは48億ユニットを数え、2024年にはその数が84億に達すると見込まれています。 世界人口をも上回る数ですが、立ち止まって考えてみれば“一人一台スマートフォン”の今の時代、眠っている音声AIも含めて搭載デバイスを複数所有する家庭は少なくなさそうであることを踏まえると、例えば2年後には、よりカジュアルにAIと話している現実があっても不自然ではありません。 こうした音声AIが子どものいる家庭になじみやすいのには実のところ、子どもたちの“見る”サービスへの対抗馬として、音声AIが好意的に考えられているところがあります。 新型コロナウイルスの拡大以降、私たちは1日のほとんどの時間を家で過ごすようになり、スマートフォンやパソコン、タブレットなど、常にデジタルスクリーンがオンになっているような環境に身を置いています。 そんな折、国立成育医療研究センターは「コロナ × こども本部」を設置し、0歳から高校生の子どもを持つ保護者に、子どもたちのスクリーンタイムに関するアンケート調査を定期的に行なってきました。2020年の9月10月に実施された調査では、スクリーンタイムが「1時間〜2時間」もしくは「2時間以上」増えたと回答した割合が、全体の4割に上ったという結果も報告されています。 子どものスクリーンタイムは1日2時間以下と推奨される中で、“スクリーンフリー”な音声認識AIが現状に歯止めをかけ、さらに子どもの成長を助けるアシスタントになるかもしれないと期待を寄せられているのです。 真逆のアプローチで生まれた『子ども裁判所』 子どもを意識することで、これまでにないインタラクティブな音声認識AIの活用法も生まれています。2018年に募集されたAmazon公式スキルコンテスト「Alexa Skills Challenge: Kids」部門では、13歳以下の子どもを対象にしたさまざまなアイデアが集まりました。 グランプリを受賞した『Kids Court(子ども裁判所)』は、Alexaが裁判官となって子どもたちのリアルな喧嘩を仲裁するシステムです。「静粛に!」と登場したAI裁判官に向かって「お兄ちゃんがぶった」「おもちゃを壊した」「お菓子をとった」というような被害を子どもが訴えて裁判が始まります。それを受けてAIが「被告人、間違いありませんか?」「証人はいますか?」というような投げかけをしながら原告被告双方の言い分を汲み取り、最終的にはAI裁判官によって判決が下されるようになっているとのことです。 そもそも、開発者であるAdva Levin氏が「Kids Court(子ども裁判所)」を考案したきっかけは、大人と子どもでは音声認識AIに対する向き合い方が全く違ったからだそうです。 「大人たちを観察していたら、指示を出す(例:ミルクを足して)か、質問する(例:今日の天気は?)といったやりとりしかありませんでした」 「一方、子どもたちは小さな箱の中に人がいると思い、友だちのように嬉々として話しかけていました」 そうして出来上がった『Kids Court(子ども裁判所)』はある意味、大人の間で行われているAIと人のやりとりとは真逆のアプローチで、質問をするのがAI、情報を教えるのが人として成り立っています。 大人のデータによる、大人のためのAI 考えてみれば、今子どもの世界に浸透しつつあるAIはほとんど、大人の世界での活用を前提に開発が進められてきたものです。基本的にAIは、猫の画像を大量に覚えさせて猫が判別できるようになるというように、先に「正解はこれだ」ということを教えられて学習します。 その際にAIの開発者である人間が正しいことと正しくないことを判別できるのは、過去に学んだことと照らし合わせながら物事を見るからです。言わばコンピュータのプログラミングのように大人の脳は反復学習を原則として働くわけですが、それとはまるで対照的に幼い子どもは、今の時点での感情のままに物事を見ようとします。 アイスクリーム屋さんに行った先ではチョコ味がいいと言ったのに、家に着いたらバニラ味が良かったと訴える、というように子どもにとっての正しい答えはコロコロと変わりやすく、大人のルールや常識が通用しません。つまり、これまでAIを開発するには一貫性のある正解が不可欠であり、子どもの世界の常識は、AIのアルゴリズムの中には取り入れられて来なかったことになります。 AIから正解はもらえなくてもいい 子どもは疑り深い生きもの 素直なイメージのある幼い子どもたちですが、実は非常に疑り深くものごとを観察しています。幼い子どもを対象にしたハーバード大学の研究では、2歳から5歳の間に子どもが説明を求めて問いを投げかける数は、全部で40,000回に及ぶという結果になったそうです。親しい大人といる子どもは毎分のように問いを投げかけているわけで、コロナ禍で人と話す機会が減って言葉数が落ち込む一方の大人社会とは比べものになりません。 実際、AIと接触した子どもも、この自分を見ている機械が何者なのか、本当に自分が見えているのか、どんな問いにも答えてくれるのか、どこかAIを探るような気持ちでAIに話しかけます。 「あなたは誰?」 「どこにいるの?」 「ぼくの名前知ってる?」 大人が鵜呑みにしていることを子どもは一つ一つチェックしているのです。そしてたとえAIから正しい答えが返ってこなくても、幼い子どもたちはそのエラーや間違いに失望することなく、AIと一緒に考えて答えや着地点を探し、自分の世界でやり遂げようと試みます。 このように、子ども時代は問いを繰り返しながら自分から学んだ経験を積み重ねることが大事であり、むしろ、正解がもらえることを期待しすぎない姿勢を身に付けることが、子どものその後の成長に役立つとみられています。 知能の発達には順序がある。「絵の描けない子どもたち」 好奇心が溢れ出る幼少期、生まれた時には300〜400gしかない子どもの脳。多くのエネルギーが費やされて知能が発達し、5歳の時点で成人の脳(1200〜1500g)の90%に達します。その時期に大人の手によって発達の順序が狂わされたとしたら、子どもたちの知能はどうなってしまうのでしょうか。 例えば、絵は文字よりも先に誕生した人にとって初歩的なコミュニケーションツールですが、昨今未就学児の教育現場では「絵が描けない子」がみられるそうです。星を“☆”と描くように、大人にとってのルールを教えられたり、文字で表すことを教えられたりした場合、子どもは教えられた通りのモチーフを描いたり、文字で書こうとしたりして、絵と呼ぶにはとても貧弱なものを描くようになってしまうといいます。 本来、子どもたちに絵のでき上がりはさほど重要でなく、作品を“見る絵”として捉えることよりも、描くプロセスの方に意味があります。その時々の感情で動く子どもたちは、絵を描いている中で心の赴くままに物語を進め、登場人物を増やしたり、冒険をしたりしながら思いつくものを描いていきます。 そのうち物語のシーンが夜になって、せっかく描いたものが真っ黒に塗りつぶされてでき上がり、という周囲の大人が固まってしまうような描き終わりになったりします。子どもたちの絵は、大人から描き方を教えられたり、あとででき上がりを見てもらったりすることよりも、近くでその物語を聞いてくれる存在が必要な“聞く絵”なのです。 そういう意味でも「それでどうなったの?」と、子どもの世界に寄り添うことができる音声認識AIがあれば、私たちの思う以上に子どもたちの可能性を広げるツールになりうるかもしれません。 AIと大人、AIと子ども 子どものためのAIは、一からつくる 目の前のことにワクワクしていた子ども時代を経て大人になった私たちの毎日の行動は、40%以上が「習慣」に基づいて行われているそうです。この習慣システムは考えずともほぼ自動的に働くものの、もし習慣的なシステムがなくなり、全てを毎回プログラムし続けるとしたら大変な労力を必要とします。 裏を返せば、反復的で自動的な習慣というものが大人の脳になったという証でもあり、AIがより一層、効率をあげる手助けをする場合に、私たち大人は自然とAIを受け入れることができるのでしょう。 例えば、大人の世界では日々、コミュニケーションに予測変換が多用され、ECサイトではレコメンドシステムに導かれて、連絡も買い物も作業がグングンと楽になっています。AIからレコメンドされた本購入し、スマートスピーカーに「読んで」と頼み、それを音声生成AIが音読をしてくれるのを家事をしながら流しておく、そんなAI時代の読書も便利に活用されているのではないでしょうか。 こうした大人のためのAI活用が盛り上がる一方、AIのあり方が見直され始めた子ども向けAIの開発現場では、大人のものを子ども用に調整するやり方ではなく、一から子どもに合ったAIを産み出す動きも見られるようになっています。 子どものデータによる、子どものためのAI 子どもの音声データによる、子どものための音声認識AIを開発したアイルランドの企業は先日、この音声認識AIが声で個人を特定することなく、録音データが販売されたりマーケティングに使われることはないと宣言しました。 読書にしても、子どもとAIが交代で音読をしながら、子どもが読み詰まった時にはAIがサポートし、AIはそうすることで子どもの話し方を学ぶというようにして、子どもとAIそれぞれが成長することを目指してデザインされたものも登場してきています。 子どもにとっての理想のパートナーは、やっぱり 『ドラえもん』 さて、このようにAIが子どもと交流するようになった今も、相変わらず子どもが大好きなのが『ドラえもん』。これまでに登場したひみつ道具は2,000近くに上るそうです。その一つ『オコノミボックス』は、「テレビになあれ」と言うとテレビになるなど、自由自在に音楽プレイヤーになったりカメラになったりもします。 そう、お気づきかもしれませんが、このドラえもんのひみつ道具は音声認識AIが搭載されたスマートフォンに似ています。似ているものが実在する世界にいても子どもがドラえもんを好きなのは、ひみつ道具の機能自体よりも「あんなことできたらいいな」という自由な発想の世界が子どもに合っているからなのでしょう。 子どもとAIを眺めていて感じることは、自分で考えることをしなくていいように導かれるよりも、「こんなことできたらいいな」とアイデアを話せる相手がいる暮らしの方が大人にとっても豊かなのではないかということです。 学ぶことが得意なAIは、日々多くを学んでいる子どもたちのいいパートナーになれそうですが、子どもが自分から学ぼうとする中にどのようなAIを立ち入らせるかは、放っておくと“アルゴられてしまう”(=つい習慣的にAIの恩恵に甘えてしまう)私たち大人の確固たる意思にかかっているのかもしれません。 (監修  株式会社Labro.AI マーケティングディレクター 和田 崇 ) <参考・引用文献> ・statista ” Number of digital voice assistants in use worldwide from 2019 to 2024 (in billions) “ ・毎日新聞 「 視力低下や肥満にも 長くなる子どもの「スクリーンタイム」どう対処する? 」 ・DEVPOST ” Alexa Skills Challenge: Kids “ ・amazon alexa ” Announcing the Winners of the Alexa Skills Challenge: Kids “ ・Pure Wow ” The ‘Kids Court’ Skill on Alexa Resolves Sibling Squabbles So You Don’t Have To “ ・Medium ” Interview with the creator of Kids Court — a skill that won Alexa Kids Challenge and $25k “ ・イアン・レズリー著 『 子どもは40000回質問する あなたの人生を創る「好奇心」の驚くべき力 』 ・MIT Technology Review ” Podcast: When AI becomes child’s play “ ・山極寿一著 『 スマホを捨てたい子どもたち: 野生に学ぶ「未知の時代」の生き方 』 ・鳥居昭美著 『 子どもの絵の見方、育て方 』 ・チャールズ・デュヒック著 『 習慣の力 』 ・CNN Business ” Irish tech firm helps kids’ voices be heard “ ・Tech Crunch ” Amazon introduces Reading Sidekick, a kids reading companion for Alexa, and Voice Profiles for Kids “ ・藤子・F・不二雄著 『 ドラえもん 19 』
アバター
AIベンダー選定術。生涯ともに、障害を乗り越える 2022.1.24 株式会社Laboro.AI マーケティング・ディレクター 和田 崇 概 要 業務効率化や業務改善に向けて、あるいは新商品開発や新サービス開発のために新たな技術を導入してビジネス活用することは、どの時代であっても行われてきました。テクノロジーのタイプによっては自社での内製化を見越して導入を進られることもありますが、近年その導入が盛んになっているAIは専門的な知識・スキルが必要なケースが多く、AIベンダーの協力を得て導入を進めていくのが一般的です。このコラムでは、AIベンダーにはどのような種類があるのか、AIベンダーはどう選べば良いのかについて考えていきます。 目 次 ・ AIベンダーとは ・ AIベンダーの種類  ・ パッケージAI/プロダクトAIベンダー  ・ 受託開発AIベンダー  ・ カスタムAIベンダー  ・ AIコンサルティング  ・ 研究開発AIベンダー ・ AIベンダー選定のポイント  ・ AI活用のゴールを常に共有できる  ・ 社内システムとの連携が可能  ・ 十分なキャッチアップをし、経験もある  ・ 「できます!」と言い切るベンダーは疑う  ・ サポート体制が充実している ・ 生涯パートナーのように苦労が共にできるベンダーを AIベンダーとは もともと「ベンダー(vendor)」という言葉は「ユーザー(user)」の対になる言葉で、販売業者や提供者を意味します。AIベンダーとは、AIの販売・提供者、つまりAIモデルやAIシステムの開発を事業とする企業のことで、開発だけでなく導入のためのコンサルティングや保守運用サービスなども含めてAIベンダーの対応範囲とするのが一般的です。 AIは、2010年代に機械学習技術のうちのディープラーニングが開花して以降、各産業分野への導入が活発に進められているテクノロジーの一つです。コンピュータに特定のデータを入力し、その特徴を学習させて認識・予測の結果を出力させる機械学習は、これまでのIT技術では至ることのできなかったビジネス成果を創出できるインパクトを秘めていることから積極的な導入・活用が目指される一方で、その技術的な新規性と専門性から内製化が難しく、スペシャリティを持つ外部のAIベンダーに相談・委託して開発を進めるやり方が主流になっています。 AIベンダーの種類 「AIベンダー」と一口に言っても、対応技術や得意分野、提供形態などに応じて様々なタイプがあり、AIの導入目的によって相談すべきAIベンダーも変わってきます。 パッケージAI/プロダクトAIベンダー まず挙げられるのが、SaaSのような形である程度において汎用化されたパッケージ製品やプロダクトを提供するタイプのAIベンダーです。このタイプのAIベンダーは、すでに開発されたAIプロダクトをライセンス発行し、例えば月額料金を回収するような形でソリューション販売を行っています。チャットボットやOCR(光学式文字読み取り)サービス、RPAのほか、最近ではカメラ画像を用いた入退システムなども登場しています。 パッケージAIやプロダクトAIは、大掛かりな開発が伴わないことから比較的導入が楽で、導入コストも安価であることが一般的です。ですが既製品であるが故、仕様が固定されている上、その範囲は多企業に共通するビジネス課題への対応に限定されることになります。つまり、世間一般で同様に課題とされるボトルネックの解決には効果を発揮するものの、企業固有のビジネス課題を解決することには限界があるケースが少なくありません。 もう少しわかりやすく言うと、経理処理や文書整理など広くマニュアル化できるルーチン寄りの業務に対してはこれらパッケージAIの活用可能性が見込まれますが、企業の差別化や競争優位に関わる、あるいはその企業唯一の本業に関わるコア業務に用いるAIとしては、その特性からして理にかなったものにはなり得ないということが言えます。 受託開発AIベンダー スーツで言えば既製品スーツを販売するようなタイプが上のパッケージAI/プロダクトAIベンダーであり、オーダーメイドでスーツを仕立てるようなタイプがこちらの受託開発AIベンダーです。受託開発ベンダーとは、クライアントから相談・依頼を受け、システムやソフトウェアの技術開発を担うベンダーを指します。AIにおいても同様で、受託開発AIベンダーは主にAIモデルやAIアルゴリズムをはじめとしたAI部分に特化した専門的な開発を行います。 AI開発の流れとしては大きく、 ①構想フェーズ:ビジネス課題の整理や費用対効果(ROI)指標を検討し、開発すべきAIシステムの構想を練る ②PoCフェーズ:その構想システムが技術的に実現可能かを実験的に検証する ③実装フェーズ:実際のビジネス環境への導入を前提にした開発・テストを行う ④運用フェーズ:導入後の保守・運用や再学習を行う に分けられます。AI導入プロジェクトは、通常、クライアント企業内で社内チームを作ってプロジェクトを進行していくことになりますが、受託開発AIベンダーはここに外部パートナーとして関わっていきます。ベンダーによっては③の実装フェーズのみに関わる企業もありますが、全フェーズに参加できるベンダーの方が成果を出しやすいと考えられます。というのも、上記の通り、AIシステムの導入に当たってはPoCと呼ばれる実験開発を繰り返し、その精度を少しずつ高めていく試行錯誤が欠かせません。つまり、ビジネス環境や導入目的などを含めたプロジェクト全体をベンダー側もしっかりと理解していなければ、達成すべき精度指標の定義や開発すべきAIシステムの設計が的外れなものになり、無意味なPoCを繰り返してしまうことになるからです。 なお、比較的パッケージ化されたモジュールを用いて開発する形態は「パッケージ開発」、ゼロに近い状態からAIを開発していく形態は「スクラッチ開発」と呼ばれます。スクラッチ開発の方がやはり技術的な難易度が高くなりつつも、オーダーメイド感が強くなるわけですが、一方でなんでもかんでもスクラッチ開発をすれば良いというわけでもありません。AI開発で用いられるアルゴリズムやシステムの多くはオープンソースとして学術的に公開されていることがほとんどで、こうしたリソースをうまく活用しながら開発コストを下げ、開発期間も短くする工夫がポイントになるため、パッケージ開発する部分とスクラッチ開発する部分を見定めながら、全体のシステム設計を進めていくことが重要になります。 カスタムAIベンダー 当社Laboro.AIもクライアントからの相談・依頼を受けてAI開発を行う受託開発AIベンダーのひとつですが、当社では、単なる受託開発として位置づけるのではなく、『カスタムAI』という名称を付けて事業を展開しています。 カスタムAIの特徴としては、画像認識、自然言語処理、音声認識、強化学習など、現在のAIの根幹を担う機械学習の技術分野に広く対応していることが挙げられます。受託開発AIベンダーの中には、例えば画像専門に展開する企業なども少なくなく、一方でカスタムAIの場合には、その対応技術範囲の広さが特徴になることから、画像と自然言語処理の組合わせのように複数領域のデータや技術を活用したマルチモーダルなソリューション開発も視野に入ることになります。 さらに当社のカスタムAIの特徴として挙げられるのが『ソリューションデザイン』というプロセスです。ソリューションデザインとは、単なるツールとしてのAI開発に注力するのではなく、ビジネス成果につながるソリューションとしてAIを設計・開発するためのノウハウでもあり、わかりやすく言うと上の①〜④のプロセス全てをビジネス的な観点から実施するものです。場合によってはAIだけでなく、ビジネス側の運用やオペレーションを再設計することも行うため、通常の受託開発AIと比べると、戦略的なAI活用に向けた取り組みがソリューションデザインであり、カスタムAIだと言うことができます。 カスタムAI、ソリューションデザインについては、以下のページをご覧ください。 ・ カスタムAI開発 ・ ソリューションデザイン AIコンサルティング ベンダーという定義からは少し外れてきますが、AIの開発部分の多くを外部委託し、導入に向けたコンサルティングサービスを中心に提供する企業も多く存在します。大手としては、BCG(ボストン・コンサルティング・グループ)やアクセンチュアなど、外資系コンサルティングファームが、AIコンサルティングの領域でも活躍しています。 これら企業は、AIやデータを活用したビジネス戦略の検討に不足がある場合などには力強いパートナーとなり得る一方で、コンサルティング企業内に開発部門がない、あるいはあったとしても技術的に十分でないケースも少なくなく、上の受託開発AIベンダーに開発部分を委託するケースも多いようです。この場合に往々にして起こるのが、複数の業者が連なることによる開発目的・内容の伝言ゲーム化や、責任所在の不明瞭化です。AIという新規性・専門性・不確実性の高い技術システムを導入・活用するにあたっては、各種の情報が散在化することを避けるために、できる限り1ベンダーに依頼先を集約するか、あるいはPMO(Project Management Officer)と呼ばれる全企業・全プロジェクトを管理・統括する役割を持った人材を配置するなどの体制構築が不可欠です。 研究開発AIベンダー AI/機械学習という技術領域は、現在でもアカデミア(学術界)を中心に日進月歩で技術が進化しています。こうした技術進歩に向けたAI技術の研究開発に取り組むベンダーも存在します。研究・教育機関との産学提携や、企業のR&D案件を請け負うケースが多く、応用的なビジネス活用よりも基礎的な研究に注力し、次の時代のAI技術の基盤を担っています。 AIベンダー選定のポイント これまで見てきたようにAIベンダーにはさまざまなタイプが存在し、その対応領域や提供形態が大きく異なるため、良し悪しではなく、自社での導入目的や投資コストなどによって相談先のベンダーが変わってきます。とはいえ、AIベンダーを選定する際に共通して留意すべき点も考えられ、最後にそのポイントをご紹介していきます。 AI活用のゴールを常に共有できる AIベンダーを選ぶポイントとして特に重要なのが、AIを導入することで何を達成したいのかというゴールを同じ目線で検討・議論し、共有できることです。そういったベンダーを選ぶことで、途中でプロジェクトが脱線することなく、PoCの失敗もリカバリーでき、最初に掲げた目標の達成へ確実に近づけるはずです。 一方、最終ゴールを確認することなく、ベンダーが提供しているAIシステムやサンプルデータを押し付けてくるような場合は要注意で、こうしたベンダーはパートナー企業のゴール達成ではなく、自社の利益を第一にしていると考えられます。また、良いAIベンダーであれば、課題の解決に必要な手段はAIだけではないと知っているため、AIに限らず他の技術の活用も視野に入れたアドバイスやサポート提供してくれるはずです。 社内システムとの連携が可能 とくにパッケージAI/プロダクトAIの導入を検討する際においては、既存の社内システムとの連携可能性に気を配る必要があります。場合によっては高い導入効果が期待できるAIですが、単独のシステムとして導入するケースよりも、既存の社内システムとの相互連携が前提になるケースが多く見られます。新しくAIシステムを導入することによって、返って全体システムが複雑化することがないか、あるいは業務オペレーション上に支障が出ないかなどに注意することが必要です。こうしたシステムや業務といった全体設計に渡るまでフォローしてくれるAIベンダーほど価値あるパートナーだと考えられます。 十分なキャッチアップをし、経験もある 上でも少し触れたように、AI開発で用いられる技術の多くはアカデミアを中心にオープンソースとして公開されています。そのため、とくに受託開発AIやカスタムAIベンダーを選定する際に言えることとして、AIベンダーによってどのような技術を持っているかという観点よりも、アカデミアの情報をちゃんとキャッチアップしているかどうか、そして、それらの技術の取扱い能力あるかどうかという観点が重要になります。つまり、技術を「持っているか」ということよりも、「知っているか」と「使えるか」が、良いAIベンダー選定のポイントになります。 次々と新しい技術や理論が登場するAI/機械学習の世界では、新しいAIモデルやアルゴリズムを初めて用いるケースは決して珍しくありません。しっかりとアカデミア情報をキャッチアップしながら技術・業界ともに幅広い領域での導入経験をもつAIベンダーほど、この点については安心感があると考えらます。 「できます!」と言い切るベンダーは疑う 「アジャイル開発」とも言われますが、AI、とくに機械学習という技術は、従来のITシステムのように予め決められたプログラムに基づいて情報処理するタイプのテクノロジーとは違い、未知のデータを入力して予測結果を出力する技術であるため、導入前に目指す出力結果が得られるかどうかがわからない、「やってみないとわからない」という特性と常に隣り合わせにあるタイプの技術です。 そのため、導入前あるいはPoC前に「絶対にできます!」と言い切るベンダーはかなり怪しんだ方が良いということになります。「こういう設定をすればできるのではないか」という仮説を立て、それに向かって試行錯誤を共にできるベンダーとの協働がベストだと言えます。 サポート体制が充実している 最後に、​AIに限らず言えることですが、AIベンダーにAI導入や開発を相談する際は、サポート体制についてもよく確認が必要です。AIは新規性のある専門的な分野であるため、トラブル時に柔軟に対応してくれるかどうかは重要なポイントです。また、AI開発で用いられる機械学習という技術の特性上、導入後も新規のデータを再学習させてAIモデルのアップデートを図ることが必要なケースが多く想定されます。「導入して終わり」とはならないAIベンダーを見定めることが大切です。 生涯パートナーのように苦労が共にできるベンダーを 近年、AI導入に着手する企業が増加する一方で、PoCに失敗する「PoC死」のケースも増加傾向にあります。こうした背景には、上記に触れたような良いAIベンダーを選定できているかどうかが、少なからず関係しているようにも感じます。PoCの失敗とは、つまり導入前の実験段階でプロジェクトが終了してしまった、何かしらの理由で途中で諦めてしまったことを意味します。技術的な限界だとすれば仕方ない一方で、ビジネス的に意味のないものを作ってしまった、業務オペレーションに落とし込むことができなかった、評価すべき精度指標が誤っていたなどのケースも少なくなく、こうしたケースを見ると要件定義、課題の整理、ロードマップ策定など、事前の検討をしっかりと行なっていれば回避できたもののようにも顧みられます。 “やってみないとわからない”がどうしてもつきまとうAI導入・活用にあたっては、試行錯誤が必ず伴います。生涯のパートナーを探すことにも似ていますが、AIベンダーの選定においても、目的を共有し、導入にあたってさまざまに現れる障害を共に乗り越えていく気の合うパートナーを探すという視点が何より重要です。
アバター
IoBが拓く、身体とネットの新結合 2022.1.23 株式会社Laboro.AI マーケティング・ディレクター 和田 崇 概 要 2021年頃から急速に注目を集めている戦略的テクノロジーのトレンドのひとつ「IoB」。“身体や振舞いのインターネット化”を意味し、人々の状態や行動をデータとして取得することを目指すIoBとは、どのような概念で、今後どのような活用が見込まれるのでしょうか。今回のコラムでは、IoBの概要や活用例、今後の進化について考えていきます。 目 次 ・ IoBとは  ・ 「Internet of Bodies」としてのIoB  ・ 「Internet of Behaviors」としてのIoB ・ IoBとIoTの違い ・ IoBの活用例 3選  ・ ウェアラブルデバイスによる医療向け身体情報の収集  ・ 画像データからの認識・検出・識別  ・ 位置情報取得からの感染経路の特定 ・ IoBの未来、その2つのタイプ  ・ タイプ1:ウェアラブル  ・ タイプ2:体内内蔵型 ・ IoBのリスク  ・ サイバーアタック・情報漏洩  ・ デバイスの不備・故障 ・ 技術と共にビジネス側も進化させる IoBとは 人流、温度、過密度、混雑状況など、センサー技術の進化によって私たちの身の回りを取り巻くあらゆる事象がデータとして取得することができるようになってきたことは、この数年で鮮明にわかってきたことかもしれません。 IoBとは「Internet of Bodies / Behaviors」の略で、前者の「Internet of Bodies」は「身体のインターネット」、後者の「Internet of Behaviors」は「振舞いのインターネット」という意味で、人々の身体の状態や振舞いを何かしらのセンサー技術で感知し、インターネットを通じてデータとして取得・収集すること、あるいはそのための機器を指す言葉です。 IoBは、アメリカのIT調査会社であるガートナー社が、2021年の戦略的テクノロジーのトップトレンドのひとつに挙げるほど、急速に注目度を高めているテクノロジーです。この背景には、RFIDやウェアラブルセンサーなど、さまざまなセンサー技術の進化があることに加え、インターネットの通信品質の向上と普及、そして収集されたデータを解析するために用いられるAI技術の発達など、複数の技術革新が結合した結果として、IoBの実現性・有用性を急速に高めてきたことが挙げられます。 IoBの進化によって、デジタルダスト(粒度の小さいデータ)を含めた、これまで取得できなかったような新規性の高い情報をセンサーによって収集、高速インターネット通信を通じてほぼリアルタイムにセンターに集約、それらを統合的にAIが分析、そして次に取るべきアクションを予測する、こうした複数技術の総合的な進化がトリガーとなって近年、新たなソリューションやプロダクト、マーケットの創出につながっているのです。 さて、IoBの”B”には、Bodies(身体)とBehaviors(振舞い)の2つが含まれていますが、それぞれどのような意味合いを持つのでしょうか。 「Internet of Bodies」としてのIoB 「身体のインターネット化」と言うと少しSFチックな雰囲気も漂ってきますが、第一のInternet of Bodiesとは、人の身体をインターネットにつなぐことで取得されるデータあるいはその機器の意味で、とくに脈拍や心拍、睡眠サイクルなど生理的なバイオメトリクス情報の活用・取得が主に言われるところです。 こうしたデータを取得するための機器としては、体内にマイクロチップを埋め込むといった極端なデバイスもある一方で、身近に分かりやすい例としてはApple Watchに代表されるスマートウォッチを用いた身体データの収集が挙げられます。 身体状態やバイオメトリクス情報を取得するBodiesとしてのIoBは、スマートウォッチのようなウェアラブルデバイスをはじめ、新たなセンサー技術の登場によって近年開拓されてきたマーケットであり、これまで取得が難しかった新規性の高い身体データの活用を目指す取組みが次々と登場しています。 出典:itrex “What is the Internet of Bodies (IoB), and why should you care?” 「Internet of Behaviors」としてのIoB 一方、第二のInternet of Behaviorsはかなり広い概念であり、人々の行動や振舞いをデータとして取得することを意味します。上にも挙げたスマートウォッチのようなウェアラブルデバイスを活用する場合には、GPSから位置情報や移動速度などの活用可能性が考えられ、その他にも施設内に設置された監視カメラを用いた人流・動線データの収集なども挙げられます。 こうした新しいセンサーやデータ取得技術の活用はもちろんですが、実は、現在でもビジネス活用が盛んなWebサイトの閲覧履歴や行動履歴も、Behaviorsという意味ではIoBに含まれてきます。既に普及しているパソコンもある意味、データ収集・通信・分析機能が備わったセンサーであり、こちらの第2のIoBについては、決して新しい技術活用のみを指す言葉ではありません。 また、「モノのインターネット」を意味するIoTがデータ収集と通信機能を備えたデバイスやテクノロジーを意味することに対して、Behaviorsの意味としてのIoBは、IoT技術によって取得された行動データを活用することから、IoTを包含するコンセプトととしても捉えることができます。 このように同じIoBでも、新たなセンサー技術を活用して身体状態やバイオメトリクス情報の取得・活用が主として言われるBodiesとしてのIoBと、広く行動データの取得・活用を意味するBehaviorsとしてのIoBでは、人間に関するデータを収集すると言う点では同じではありますが、用いられる技術や目的、コンセプトが大きく異なることには注意が必要かもしれません。 出典:TECH FUNNEL “What Is the Internet of Behaviors? – A Guide” IoBとIoTの違い 上でも少し触れましたが、IoBと似たような言葉としてIoT(Internet of Things)がありますが、IoTは「モノのインターネット」と訳され、さまざまなモノがインターネットにつながっている状態を可能にするテクノロジー、あるいはそのためのデバイスを指す言葉です。IoTの代表的なものとしては、近年、自動運転車や内部の状況を把握した上でレシピ提案をする冷蔵庫など、新しいテクノロジーも注目されていますが、パソコンやスマートフォンなど、私たちが現段階で使い慣れている多くのプロダクトも列記としたIoTのひとつです。 IoTとIoBの違いは、データの取得・活用対象がモノであるか、人であるかという点にありますが、上記の通り、モノから取得されたデータを用いて人の行動を把握するというケースもあることから、「IoT < IoB」という包含関係にあるとも捉えることができます。 こうした包含関係がより明確になってきた背景には、ディープラーニングやニューラルネットワークなど、データ分析・予測技術としてのAI/機械学習の進化が挙げられます。IoTデバイスを通じて取得された位置情報や購買データ、デバイスの使用状況などは、そのままであれば「モノの状態」を認識したデータでしかありませんが、これらデータの時系列関係や相関などを解析することで一定の特徴や法則を見つけ出し、将来予測を可能とするAIモデルやAIアルゴリズムの実用化が進むにつれ「人の状態」としてデータが再補足され、その活用可能性が見出されたことが近年のIoBの隆盛につながっていると考えられます。 IoBの活用例 3選 次に、現段階で見ることができたIoBの活用例を紹介していきます。 ウェアラブルデバイスによる医療向け身体情報の収集 IoBでは、人々の状態や振舞いのデータを的確に収集するためにウェアラブルデバイスが使用されるケースが多くあり、中でも高い成果が期待されているのが医療分野でのウェアラブルデバイスの活用で、脈拍数・呼吸数・血中酸素飽和度・血圧など、さまざまな身体情報を計測するプロダクトが登場しています。定点的なデータ取得ではなく常時のデータ蓄積が可能となり、より正確な身体状態の計測・予測に寄与するだけでなく、ワイヤレスでインターネットに接続できることからケーブル等をつなぐ必要もないことから、患者をはじめとするデバイス装着者への負担が少ないことも、これまでに比べると大きなメリットだと言えます。 医療におけるAI活用については、以下のコラムでご紹介しています。 参考:Laboroコラム 「いのち守るためのAI。医療現場へのAI導入の壁」 出典:ユーピーアール株式会社 「ウェアラブルデバイスとは?医療におけるIoTシステムの活用方法」 画像データからの認識・検出・識別 AI技術の展開として当たり前のものにもなってきましたが、画像認識技術もIoBの一つと捉えることができます。カメラで撮影された画像・映像から人の顔を認識・識別して入退室を管理するといった顔認識ソリューションなどは多く見られるようになってきましたが、IoBという文脈においては、コロナ禍でも活用が多く見られた人物画像からの体温の認識、肌の状態からヘモグロビン量判定など、さまざまな身体情報を解析する技術が誕生しています。 画像系AIについては、以下のコラムでご紹介しています。 参考:エンジニアコラム 「ディープラーニングによる一般物体認識とビジネス応用<上>画像分類」    エンジニアコラム 「ディープラーニングによる一般物体認識とビジネス応用<下>物体検出」    Laboroコラム 「画像認識AIの世界。その仕組みと活用事例」 出典:東芝レビュー 「肌画像からの色素量推定技術」 位置情報取得からの感染経路の特定 IoBの近年での活用例としては、新型コロナウイスの感染経路を特定するための活用が挙げられます。感染者との接触確認アプリとして開発された「COCOA」は、人の行動・振舞いに関わるデータから、濃厚接触があった場合に通知するアプリとして知られています。技術としては、GPSによる位置情報ではなく、BLE(Bluetooth Low Energy)と呼ばれるデバイス同士の距離の測定ができる技術が用いられており、COCOAをインストールしているデバイス同士がお互いに距離を計測できるため、15分以上近くにいた濃厚接触者を特定できるという仕組みになっています。 出典:教育とICT Online 「新型コロナの接触確認アプリCOCOAは、どうあるべきだったのか?」 IoBの未来、その2つのタイプ 現段階でもさまざまな分野で活用が見られるIoBですが、そのデバイスには大きく2つのタイプがあります。 タイプ1:ウェアラブル IoBのタイプ1として捉えられているのがウェアラブルです。現時点でも多くのウェアラブルデバイスがIoBデバイスとして使用されており、代表的なものとしてスマートウォッチが挙げられますが、今後、Googleなどが開発を進めるスマートグラスも実用的なプロダクトが登場することが見込まれるだけでなく、衣服やファッション雑貨もIoB機能を備えたウェアラブルデバイスとして活用されていく可能性が見込まれます。 タイプ2:体内内蔵型 次のタイプとして、体内内蔵型のデバイスが考えられます。SF的な怖さも漂ってきてしまいますが、このタイプのIoBデバイスとしてはペースメーカーが挙げられ、すでに十二分に活用されているデバイスの一つです。 また人間ではないものの、フランスなどではペットの犬や猫に識別番号付きのマイクロチップを埋め込むことが義務化されており、国内でも今年6月に義務化する動きが出ています。さらにスウェーデンでは、すでに数千人の人がマイクロチップを手の甲部分に埋め込んだ上でスマートキーやモバイル決済として活用しています。これらは現段階ではGPSのセンサー機能すらも付いていないチップではありますが、今後、体内情報を感知する付加機能が搭載されることや、データ収集に向けた技術展開や法整備が検討されるであろうことは想像に難くありません。 出典:NHK 「犬と猫がペットショップから消える日」    DG Lab Haus 「ワクチン証明書を皮下装着 スウェーデン企業がマイクロチップ技術提供」 IoBのリスク 人に関する新たなデータ取得と活用が期待できるIoBですが、当然ながらそのリスクもこれまでにないものになり得ます。最後にIoBが抱えるリスクについて簡単に触れていきたいと思います。 サイバーアタック・情報漏洩 インターネットに接続する以上は、PCやスマートフォンと同じようにサイバーアタックの標的にされることは避けられません。また、人為的なミスなどによる情報漏洩のリスクも考えられます。IoBの発展や普及に際しては、サイバーセキュリティや情報漏洩対策はもちろん、法整備なども重要な課題になるはずです。 デバイスの不備・故障 どのような機器も絶対に故障しないということはありえず、IoBデバイスもそのご多分に洩れることはありません。心拍数など重要な身体データを収集するIoBデバイスは、不備や故障が重大な問題に発展する可能性もあるため、その予兆を捉えることを目的とした予測AIの開発や、その運用・サポートを万全にすることが求められます。 技術と共にビジネス側も進化させる これまでビジネスシーンで活用されてきた人に関するデータは、動きや言葉といった意識的に表れ、表面的に把握できる顕在化・明文化された情報がほとんどでした。一方でIoBによって取得されつつあるデータには脈拍や呼吸数など、無意識下で表れる潜在的な情報が含まれており、これまで取得が難しかったデータ収集の道が拓かれつつあります。 ですが、そうした無意識化のデータ取得が新たなチャレンジであることと同じように、そのデータが何を意味する情報なのかについて定義することもまた未開拓の領域です。例えば、あるシーンで脈拍が早いことが容易に把握できるようになったとしても、それが緊張を意味するのか、興奮を意味するのか、心疾患を意味するのか、こうした判断は一律にできることではありません。 IoBの核を構成する技術としては、上述の通り、センサー、インターネット、AIが挙げられます。データ取得を行うセンサー技術が進化し、それを送り届けるインターネット品質も向上、データを分析・予測するAI技術が高度化しつつありますが、その情報をどう解釈し、どうビジネスで活用するかについては、私たちはまだまだ未検討の段階にいる状況で、技術やデータを保有するだけではやはり宝の持ち腐れです。今後、IoBによって新たに取得されるであろうデータを、うまくビジネス成果へとつなげていくための検討を始めることが必要な時期に差し掛かっています。
アバター
「人工痴能」は人工知能のレベルを上げるのか、下げるのか 2021.1.10 監修 株式会社Laboro.AI マーケティングディレクター 和田 崇 概 要 AIによるオンラインサービスは、ここ数年で一気に身近なものになりました。便利な一方で、音声サービスの見当違いな受け答えが話題になったりもしていて、何かAIがきちんと処理できずにおかしな反応をした場合には、Artificial Intelligence(人工知能)に対して「Artificial Stupidity(人工痴能)」と呼ばれたりもしています。 実のところ、Artificial Stupidityという言葉は「人為的にStupidityを用いてAIを学習させる」という意味でも用いられるのですが、それについてはあまり知られていませんでした。しかしながらここにきて、アメリカの研究チームが世界初のArtificial Stupidityのプロトタイプを発表するなど、Artificial Intelligenceの枠を広げる可能性としてArtificial Stupidityが注目されているようです。 果たして、この人工痴能は人工知能のレベルを上げるのか、下げるのか。今回のコラムでは、この問いに向き合っていきたいと思います。 目 次 ・ Artificial Intelligence(人工知能)を賢くするには…  ・ Artificial Stupidity(人工痴能)のプロトタイプの発表  ・ 人工知能の越えられない壁 ・ 合理的でないことを追求する  ・ Intelligentであるほど、”バイアスの盲点”が大きくなる ・ 人工知能と自然知能  ・ 大多数にとって恩恵となるか、害となるか  ・ 人工と自然を合わせた知能の研究 ・ 知能のための痴能の活用 Artificial Intelligence(人工知能)を賢くするには… Artificial Stupidity(人工痴能)のプロトタイプの発表 暮らしの中でAIとの関わりが増え、チャットボットサービスで見当違いな回答を受けたり、音声サービスが予期せぬ場面で反応したりすることが話題に上るようになりました。英語を話す人の間では、ユーザーの不意をつき、イラっとさせたり笑わせたりするAIの反応のことは、Artificial Intelligence(人工知能)に対して「Artificial Stupidity(人工痴能)」と揶揄されています。 そんな折、マサチューセッツ工科大学のエンジニアリングチームが発表したのは、世界初の「Artificial Stupidity System」でした。 一体なぜ、ネガティブな印象の強いArtificial Stupidityに特化したプロトタイプが発表されることになったのでしょうか…。どうやら、AIを開発するプロセスにおいて立ちはだかった壁に、Artificial Stupidityが突破口となる可能性が考えられているようです。 人工知能の越えられない壁 マサチューセッツ工科大学の研究チームは当初、最高のAIを搭載したロボットの研究を行っていました。できあがったロボットは人間の言うことを聞き、タスクをこなし、感情を模倣し、どこから見ても完璧でしたが、それでもなぜか最後の難関である「チューリングテスト」を突破することができませんでした。 そもそもチューリングテストとは、1950年にアラン・チューリングという数学者によって提案された対話式のテストです。AIの知能レベルについては、現時点ではチューリングテストを用いて「知能を持っている人間のように完璧に振舞うことができるのか」をテストし、知能を測るということが行われています。 どのようにテストするのかというと、チューリングテストではまず人間を2人、AIを1つ用意します。それらを相手に、複数の人間が試験官として会話の投げかけをします。合格するにはAIが、試験官の30%以上に「対話相手が人間か機械か判別できない」と認められなければなりません。 さて、このテストに合格できない理由について時間をかけて研究チームが考え辿りついたのが、彼らのAIが“Intelligentすぎるのではないか”という疑問だったのです。結果、研究チームは完璧にまで仕上げたAIの限界を打破するため、Artificial Stupidityを探求することになりました。数ヶ月をかけてつくりあげたArtificial Stupidityのプロトタイプは、他のアンドロイドを口説き、新しい情報を取り込むことを拒むような態度を取るといいます。 合理的でないことを追求する Intelligentであるほど、”バイアスの盲点”が大きくなる そもそも人工知能とは、人間の知的機能を代行できるようにモデル化されたソフトウエア・システムのことです。人間の知的機能を司り、およそ1,000億個もの細胞がそれぞれに最大1万個の細胞と結びつき情報交換を行っている、そんな私たちの脳のメカニズムは未だ解明されておらず、著名な科学者たちは「宇宙で発見された最も複雑なもの」と言ったりもします。 ところが、この究極に複雑な人間の脳で考えるに合理的ではない、いわばStupidと呼べることをきっかけに、思いがけず科学は発展してきました。特にノーベル賞級の発見というのは、それまでの世界では科学的に認められていなかったことが絡んでいるものです。 ノーベル経済学賞を受賞したプリンストン大学名誉教授のダニエル・カーネマン氏は、そんな人間の非合理的な行動を研究した人物です。例えば、収入と幸福度の関係における、年収US$75,000(約860万円)を超えると、年収が増えたからといって幸福度は上がらないという研究結果は広く知られています。 こうした発見により「行動経済学」という新しい研究分野も発展しましたが、当時この非合理的行動に関する研究のことを知った著名な哲学者は「Stupidityの心理学など興味ない」と一蹴したといいます。 皮肉にも、その後の研究によって明らかになったのは、Intelligenceが高い人ほど、“バイアスの盲点”がより大きくなることを示唆するものでした。例えば、大きな声で「静かにしなさい」と叫んでいる人が自分の声の大きさを無視してしまうように、私たちは無意識のうちに非合理的な行動をしています。アメリカで大学進学に必要なS.A.T. スコアの点数が高い、いわゆる知能が高いとされている人ほど、こうした盲点に気づかず、勘違いを起こしやすいという研究結果になったのだそうです。 こうした風潮として思い起こされるのは東日本大震災で広く共感を呼んだビートたけし氏のコメントです。テレビ画面では死者数がどんどん更新され、その数ばかりが大きく報道されていたのを見て違和感を覚えたビートたけし氏は、この災害は「2万人が死んだ一つの事件ではない」と言いました。 「人の命は、2万分の1でも8万分の1でもない。そうじゃなくて、そこには『1人が死んだ事件が2万件あった』ってことなんだよ」と、人一人失う重みについて語り、数字で表せない悲しみを人々と分かちあいました。 人工知能と自然知能 大多数にとって恩恵となるか、害となるか 私たちが自然と物事を「わかる」知能のメカニズムは解明されていませんが、明らかになっていることは、わからなかったことが「わかる」ようになるプロセスには「分ける」という作業が含まれているということです。サッカーのわかる人、味のわかる人、人の痛みのわかる人などは、それに関する多くの知識や経験があり、わずかな違いを読み、感じ取れる人のことを指すものです。 AIの開発においても、学ぶ対象に関してどんなデータをどのように扱うかが重要であり、それによってAIが大多数に恩恵をもたらすものになるのか、害をもたらすものになるのかさえも変わってきます。 例えば、ある顔認証システムの開発では、白い肌をした人の場合、性別を誤認したのが1%であったのに対し、肌の色が黒い人の場合、エラー率が35%まで跳ね上がったというリサーチ結果が報告されました。 このサービスの開発を手がけたのは、肌の白い人の多いチームだったのだそうです。データの中でアンダーサンプリングされたグループは、その開発に従事する人が気づかない限り無かったことのようになってしまい、それによって一部の人に有益でも、多くの人に害をもたらす結果さえもたらされます。 著しい技術進化を遂げた現代のAIは、スマートフォンやスマートスピーカーの中だけでなく、医療や保険、住宅、小売、流通など多くのビジネスシーンで用いられ、何百万もの人の生活や人生を変える決断に関わり始めています。 開発に関わる企業や担当者は、ユーザーをデジタルワールドの存在としてではなく、リアルワールドに間違いなく息づく生活者として捉え、多くの人のためになることを確かめる目を持たなくてはなりません。 人工と自然を合わせた知能の研究 私たちの暮らしのあちこちでAIの導入が進む一方で、専門家の間ではAIの開発・運用のために使われるデータによって、差別を生むようなことのないように用心しなければならないという意識がますます高まっています。こうした中、AI研究の最先端では知能の本質についての議論が活発に交わされるようになりました。 エンジニアリングによる知能を人工知能と呼ぶのに対して、私たち生き物が自然と授かっている知能はNatural Intelligence(自然知能)と呼ばれます。知能の本質を求めて、研究機関では人工知能と自然知能を切り離さず、その両方から知能そのものについて解き明かそうという取り組みがスタートしています。 「人間がこれまで取り組んできたことが正解だとしたら、そこからのズレや誤り、愚かさと言われるもののなかに、新しい気づきやアイデアがある」 これは『動物と機械から離れて―AIが変える世界と人間の未来』という著作に紹介されていた、Computational Creativity(機械による創造性)などを専門に研究し、AIを用いたミュージックビデオの制作している徳井 直生(なお)氏の言葉です。 徳井氏は、数年に渡ってAI DJとコラボレーションをしてきた経験を持ちます。人間のDJとコラボレーションをするAI DJは、人間DJの選んだ曲の音の高さや大きさといった曲の物理的な特徴を用いて、曲の印象を特徴量として定量化することにより、その流れにマッチする選曲をすることができるそうです。 自身がDJとして参加した徳井氏は、その流れの中で自分ならば絶対に選ばない選曲をAI DJが持ってくることに、ハッとする瞬間が何度もあったと言います。徳井氏はAIの研究をする中で、AIよりむしろ、人間の常識にとらわれない愚かさを持つArtificial Stupidityに興味を示す世界の一流ミュージシャンと出会い、大きな影響を受けたということです。 知能のための痴能の活用 人工にしろ自然にしろ、Stupidityは知能の最骨頂に私たちを導く鍵だとも言われています。思えば普段の人間関係の中でも、一見ふざけている人間味のある人は「おもしろい人」と呼ばれ、合理的で「頭の良い人」よりも周囲に良い影響を与えていることはないでしょうか。 幕末から150年以上語られてきた落語世界の住人など、著名な人はいないかもしれませんし、ただのお調子者にも見えますが、なぜかどんな人とも心を行きかわすことに長け、実はそうした人たちが文化伝承の立役者だったりします。その一方で、 「なぜ賢い人ほど愚かなのか?」 歴史の中で度々上がるこの問いに、私たちはAIを通じて向き合い、AIを次の段階へと進めようとしています。 私たちがより多くの人にとって価値のあるAIを生み出すためには、非合理的な言動であるStupidityにいかに寛容になれるか、そしてそれらをうまく取り込み、知能として活かしていけるか、つまり、“人工痴能による人工知能を生み出せるか”が、実は重要なのかもしれません。 (監修  株式会社Laboro.AI マーケティングディレクター 和田 崇 ) <参考・引用文献> ・THE BEAVERTON “Scientists give up on artificial intelligence, begin work on artificial stupidity” ・THE NEW YORKER “Why Smart People Are Stupid” ・The Harvard Gazette “University seen as well-equipped to meet goals of ambitious institute” ・European Commission “What is real intelligence? What is natural intelligence and artificial intelligence and how are they different from each other?” ・ダニエル・ピンク著 『ハイ・コンセプト「新しいこと」を考え出す人の時代』 ・ビートたけし著 『ヒンシュクの達人』 ・ゲイド・メッツ著 『GENIUS MAKERS ジーニアスメーカーズ Google、Facebook、そして世界にAIをもたらした信念と情熱の物語』 ・管付雅信著 『動物と機械から離れて: AIが変える世界と人間の未来』
アバター
考えるな、感じろ。感情分析AIはアジャイルに 2021.11.22 株式会社Laboro.AI マーケティング・ディレクター 和田 崇 概 要 “感情を理解することは、人間特有の能力だ。”人とのコミュニケーションを通して相手の感情を読み取ることを日常的に行っている私たちからすれば、そのように考えることが当然かもしれません。ですが近年、とくに表情解析を中心に、AIが人の感情を認識・推定する技術が登場し、さまざまな活用方法が模索されています。今回のコラムでは、そもそも感情とはなにか、そしてAIによる感情分析の種類や、具体的に活用が期待されている分野についてご紹介していきたいと思います。 目 次 ・ 「感情」とはなにか ・ 意識感情と無意識感情 ・ 表情と感情 ・ AIによる感情分析の種類  ・ 表情からの感情分析  ・ 音声からの感情分析  ・ 文章からの感情分析 ・ 感情分析AIの活用  ・ 人々の幸福度を測定する感情認識AIカメラ  ・ 自動車乗員のリアルタイム感情分析  ・ 表情解析による燃え尽き症候群の予測  ・ マーケティンングリサーチでの活用 ・ 考えるな、感じろ。アジャイルに 「感情」とはなにか 日本語では、人の気持ちや雰囲気を表す言葉として「感情」という一つの用語が用いられますが、感情と密接に関わる脳を研究する脳科学(ニューロサイエンス)では、人間が抱くこうした心理的感覚を、その強さや時間的な背景から大きく4つに分けて捉えられることが一般的です。 Feeling(気持ち) :直前の体験に対して確認され、印象付けられる感覚。個人的なもので、伝記的なもの。 Emotion(情動) :Feeling(気持ち)が投影されたもので、社会的であり、環境によって表現が変化することから、真実であることもあるし、見せかけの場合もある。 Mood(気分) :長期的で、低度で、より長い時間(数分から数時間、場合によっては数日)に渡る反応。 Affect(感情) :意識に先立つ、無意識的な感覚であり、完全に言葉で認識することができず、曖昧な感覚。比較的短時間のうちに起こる脳や自律神経系、および行動の協調的変化。 私たちが日常抱く「感情」というものには、瞬間的なものもあれば、長く継続されるものもあり、そして意識的で言葉で伝記的に表せるものもあれば、無意識の中で醸成され、文章化することが難しい曖昧な感覚も含まれていることがわかります。 【参考文献】 ・Shouse, E.(2005)Feeling, Emotion, Affect., M/C Journal, 8(6), https://journal.media-culture.org.au/mcjournal/article/view/2443 ・Davidson, R. J., Scherer, K. R., Goldsmith, H. H.. (Eds.)(2002) Hand book of affective sciences. New York: Oxford University Press. ・Cerf, M. Garcia-Garcia, M.編, 福島誠監訳(2019)『コンシューマーニューロサイエンス 神経科学に基づく消費者理解とマーケティングリサーチ』共立出版 p.73 意識感情と無意識感情 Feeling(気持ち)のような意識的に示される感情と、Affect(感情)のような無意識的に表れる感情とでは、どちらが私たちにとって、あるいはビジネス応用を考えるにあたってはより重要なのでしょうか。 近年注目されているのが、後者の無意識的な感情の存在です。少し古い実験ですが、「リベットの実験」という脳科学実験があります。脳科学研究者であるリベットがこの実験で証明したこと、それは、人が意識的に感情を抱くよりも早くに、脳が活性化しているということでした。 リベットが行った実験はとてもシンプルなもので、被験者は脳の反応を測定する機器を装着させられ、時計を見ながら好きなタイミングで手首を曲げることを依頼されます。合わせて「手首を曲げよう」と決めた時間を記録するよう指示されます。脳反応が起きた時間、「曲げよう」と意思決定した時間、実際に手首を曲げた時間、それぞれを測定した結果、被験者の脳は意思決定するよりも0.3秒ほど早い段階で反応を示していたことが明らかにされました。このリベットの実験を前例に、脳が人の感情よりも先に反応するという事象は、様々な研究で証明されています。 これらの実験結果からわかること、それは、脳をはじめとする私たちの身体に表れる生体反応は、感情の前触れであるということです。脳活動はもちろんのこと、脳と紐づいて反射的に表れる表情、発汗、体温、心拍といった身体の状態を解析することは、その後に起こるAffect(感情)を認識し、予測するためのヒントを得ることにつながっているのです。 【参考文献】 ・Cerf, M. Garcia-Garcia, M.編, 福島誠監訳(2019)『コンシューマーニューロサイエンス 神経科学に基づく消費者理解とマーケティングリサーチ』共立出版 p.8 ・居永正宏(2013)「心脳問題と人間的自由 : リベットの実験とデネットの解釈について」現代生命哲学研究, 2, pp.23-36 ・Fried, I., Mukamel, R., Kreiman, G.(2011)Internally generated preactivation of single neurons in human medial frontal cortex predects volition. Neuron, 69(3), pp.548-562 ・Cref, M. & Mackay, M.(2011)Studying consciousness using direct recordings from single neurons in the human brain, In S. Dehaene & R. Christen (Eds.), Characterizing consciousness: From cognition to the clinic? Research and perspectives in neurosciences, pp.133-146. Berlin: Springer-Verlag ・Perz, O., Mukamel, R., Tankus, A., Rosenblatt, J. D., Yeshurun, Y., & Fried, I.(2015)Preconscious prediction of a driver’s decision using intracranial recordings. Jounal of Cognitive Neuroscience, 27(8), pp.1492-1502 表情と感情 近年、AI技術の革新によって、「感情AI」「感情予測AI」「感情分析AI」などの分野もよく見られるようになってきました。先のように、人の感情を推定するためには様々な生体反応を解析の対象にできる可能性があるわけですが、とくに研究が進んでいるのが表情解析に基づく感情予測です。 AIによる表情解析・感情予測が特に進んでいる背景としては、やはり見た目としてわかりやすさ(検証のしやすさ)があり、古くから2つの表情解析に関する考え方が確立していたことが挙げられます。つまり、既存の表情解析の研究が、AI開発に転用しやすかったということです。 基本感情説 一つ目の考え方は、1971年にエクマンという研究者が提唱したことに始まる「基本感情説」と呼ばれるものです。基本感情説では、人の感情は、「驚き(surprise)」 「恐れ(fear)」 「嫌悪(disgust)」 「怒り(anger)」 「喜び(joy)」 「悲しみ(sadness)」「通常(neutral)」の7感情を基本とするという前提に立つもので、表情解析ではそれぞれの特徴に従って、それぞれの感情に分類することが目指されます。(※研究が行われた年代や研究者によって基本とする感情や名称に異なりはありますが、ベースとなる少数の感情を発見することを目指すという点では変わりはありません。) 基本感情説は、感情を説明する際によく引用される理論で、多くの感情AIモデルもこの理論に基づいており、認識された情報を7分類するというソリューションが主流になっています。 【参考文献】 ・荒川歩・鈴木直人(2004)しぐさと感情の関係の探索的研究, 感情心理学研究, 10(2), pp.56-64 ・Ekman, P.(1971)Universals and cultural differences in facial expressions of emotion. Nebraska Symposium on Motivation, 19, pp.207-283. ・ Ekman, P.(1992). An argument for basic emotions. Cognition and Emotions, 6, pp.169-200. 感情円環モデル 2つ目の考え方が、感情は少数の基本的な分類に集約されるものではないという基本感情説へのアンチテーゼとして登場した「感情円環モデル」です。1980年にラッセルという研究者を中心に発展させられてきたこのモデルでは、感情は、覚醒度を表す「Arousal(覚醒)–Sleep(沈静)」軸と、感情価を表す「Pleasure(快)–Unpleasure(不快)」軸の2つの軸の強弱によって決定され、1点にプロットされます。 私たちが日頃感じる感情の複雑さを考えると、円環モデルの方がより感情を認識・予測するためには適したモデルのように感じられます。ですが、表情を認識した上で、これらの強弱を数値的に定式化することはやはり難しく、感情円環モデルを用いたAIモデルやAIソリューションはほとんど見られないのが現状です。 【参考文献】 ・Barrett, L. F., & Bliss-Moreau, E.(2009)Affect as a Psychological Primitive. Advances in Experimental Social Psychology, 41, pp.167-218. ・Barrett LF, Russell JA.(1999) Structure of current affect. Current Directions in Psychological Science., 8:10–14. ・Russell JA.(1980) A circumplex model of affect. Journal of Personality and Social Psychology.39:1161–1178. ・江川翔一・瀬島吉裕・佐藤洋一郎(2019)情動評価のためのラッセルの円環モデルに基づく感情重心推定手法の提案, 日本感性工学論文誌, 18(3), pp.187-193. AIによる感情分析の種類 昨今、技術進化が著しいAIには、表情解析をはじめ、どのような感情分析の種類があり、どのような仕組みで成り立っているのでしょうか。 表情からの感情分析 上述の通り、AIによる表情解析では7程度の基本的な表情に分類するやり方が主流になっています。そのため、眉の位置、口角の変化、目や目頭の位置など、顔面に表れる各パーツの状態をカメラから認識し、各基本感情を表す表情との類似度を判定、分類するといった分析をしていくことになります。 表情研究は既存研究も多く、感情分析AIの中でも比較的やりやすい分野の一つです。ビジネス応用としては、マーケティングリサーチでの活用が代表的で、店頭で顧客が商品を手に取った瞬間の表情、あるいはTVCMやデジタルサイネージをを見た際の表情を認識・分析するといった活路が見込まれます。 音声からの感情分析 表情だけでなく、音声も感情を表す重要なデータの一つです。音声からの感情分析では、認識された音声を自然言語処理によって意味のある言葉として変換・分析することも考えられますが、声の大きさ、抑揚の変化、息の入れ方などの特徴を分析して感情を予測するといったアプローチも考えれます。 音声感情分析の応用という視点では、コールセンターなどの電話口での活用や、面接や接客時などあらゆるコミュニケーションシーンでの活用が見込まれます。一方で、音声特有の難しさとして挙げられるのが、「音源分離」の問題です。音声データを収集するにあたっては、人の声だけを正確に収集する必要がありますが、特に接客シーンなどでは、背後に雑音・騒音が入り込むことが少なくなく、目的とする音声を抽出することに難しさが生じます。音源分離については、こちらのコラムで詳しく紹介しています。 エンジニアコラム: 声や音を聞き分ける、『音源分離』とは 文章からの感情分析 表情、音声に加えて、文章も感情が表れるデータの一つです。特に近年はインターネットやSNSの普及により、こうした文章データは取得がしやすくなってきたため、データ収集が比較的やりやすい分野であり、文章感情AIソリューションや自然言語処理を活用したAPIも多く登場しています。 しかし、文章感情分析は比較的やりやすい分野である一方、冒頭の話に基けば、心理学的・脳科学的には注意が必要な面もあります。それは、文章とは人が行動を起こした結果として作り出されるものであって、意識的な感情としての側面が強く、場合によっては社会的な目を気にして表現が歪めらたり、嘘の感情として表現されることも少なくないということです。世の中のSNSの投稿を思い浮かべればわかりやすいですが、宣伝目的の投稿、周りに迎合した文章、匿名だからこその歪んだ発言など、文章には感情以外の社会的要素が多く含まれるのが実際です。 確かに技術的には取り掛かりやすい感情分野ではあるものの、無意識的な反応として表れる表情や音声とは違い、その文章に含まれる文脈や背景などを読み取ることなくしては、真の意味での感情を捉えにくい分野だと言えます。 感情分析AIの活用 最後に、感情分析AIの活用例として、すでに実用化されているものから、将来的に実現されるであろう技術をいくつか紹介したいと思います。 人々の幸福度を測定する感情認識AIカメラ アラブ首長国連邦のドバイで実際に実用化されているのが、カメラに写った人々の表情などから幸福度を測定し、さまざまなビジネスに活かすAIです。このシステムでは人々の幸福度を測定し、システムの利用側にその結果をフィードバックします。幸福度が低下すればアラートを出し、従業員の対応を改善するといった活用方法が見込まれています。 なお、表情解析では、保存された個人情報である表情データの扱いが問題になることが少なくありませんが、このシステムでは分析に使用した画像は保存されない仕組みが搭載されているとのことです。 出典: Gulf News「Are you happy: RTA starts measuring customers’ happiness level by using AI-cameras」 自動車乗員のリアルタイム感情分析 昨今、運転中の安全確保や自動運転技術の開発に役立てる目的などで開発されているのが、自動車乗員の感情をリアルタイムで分析するAIです。例えば、車内に設置しているカメラとマイクから映像と音声を取得し、双方を分析することで乗員の感情を分析するシステムが登場しています。 このシステムでは単に感情を分析するのではなく、眠気に関するサインについても分析し、アラートを鳴らすことも可能です。顔の角度から眠気を検出するようなシンプルなシステムに比べ、AIによって多角的に分析しているため、より実用性の高い眠気防止システムだと言えます。 また先日、デンソーがあおり運転防止のための感情認識AIの研究成果を報告するど、自動車の利用シーンにおける感情分析AIの活用が活況になっています。 出典: 日経クロステック「感情認識AIで「あおり運転」防止など、30周年のデンソー先端技術研」 表情解析による燃え尽き症候群の予測 ストレス状況など心的状態を測定することも、感情分析AIの活用が見込まれる分野の一つです。これからの研究ではありますが、先日、筑波大学とテックウインドが発表したのが、表情解析に基づく燃え尽き症候群の予測に関する取り組みです。そのほか、うつ病やPTSD、認知症などに代表される気分障害や疾病の診断のサポートとして、AIを用いてその兆候を把握できるようになることは、今後、感情分析AIの活用が最も期待される分野の一つだと言えます。 しかし、こと医療現場は診療や医療判断のミスが許されません。そのため、不確実性の高いAI技術の応用は現実的に難しい側面も否定できず、現状、意思決定やそれに準ずる機能を持つAIが、医療現場に導入されているケースは非常に少ない状況だと言えます。 Laboroコラム: いのち守るためのAI。医療現場へのAI導入の壁 出典: 日本経済新聞「テックウインド、筑波大とAI感情分析による燃え尽き症候群の予測に関する共同研究契約を締結」 マーケティング・リサーチでの活用 感情分析のビジネス応用が最も見込まれるのが、マーケティング・リサーチ分野です。 TRIAL のようなAI店舗や、 b8ta といった「売らない店舗」も昨今話題になっていますが、来店客が商品を手に取った際の状態を分析し、それに基づいて最適な広告を配信する、あるいはそれらの分析データを企業に販売、企業側はそれらのデータを次の商品開発にいかすなど、単にユーザーの状態を分析するに留まらない、多方面でのビジネス展開が行われています。 また、デジタルサイネージにAIカメラを搭載し、表情から広告の効果検証を行うといった例も登場し、広告やプロモーション分野でもより高い精度での広告配信が実現され、その基礎技術として感情分析AIが用いられるようになってきました。 一方、これらの分野でとくに活用される不特定多数の表情データには個人の肖像が含まれるため、その扱いに注意が必要です。個人情報にあたる表情データそのものをクラウドに保存することは危険性が高いため、例えばエッジカメラ側で画像を削除した上、処理されたデータのみをクラウド側に送信するなど、プライバシー保護をともなったシステム開発が求められる分野です。 Laboroコラム: 答えのない、マーケティング×AIの世界への挑戦 考えるな、感じろ。アジャイルに 「考えるな、感じろ(Don’t think! Feel.)」 映画『燃えよドラゴン』でブルース・リーが発した名台詞ですが、私たち人間は、ロジカルに考えるだけでなく、感覚的あるいは本能的に何かを感じ取る能力を確かに持っているようです。人の感情とはまさにその一つであり、本来、ある人を「彼は喜んでいる」「彼女は悲しんでいる」と一義的に枠に当てはめることは不適切なことです。なぜなら、彼が感じている喜びの裏側には、それまでの経験としての楽しさもあれば、過去の記憶からくる悲しさもあり、それらが複雑に絡み合った結果として喜びが表現されているはずで、私たちはそうした彼の状態を考えることなく無意識のうちに感じ取っているからです。 こう考えると、少なくとも現在の感情分析AIは、あくまで人が考え、一義的に定めたルールに基づいて表面的に把握される状態を分類しているだけに過ぎず、人の歴史や経験、記憶といった文脈を無意識的に感じ取り、感情を読み取ることには遠く至ってはいませんし、今後しばらくはその領域に届くことは無さそうです。 しかし、だからと言って感情分析AIに意味がないということではありません。確かに、上記のような単に一義的な割り振りをするような”AI”の名が付いただけのツールでは役立たずかもしれませんが、感情という複雑な人の心理を扱うために、そもそも感情とは何か、活用シーンに応じてどのような状態を抽出したいのか、どのような判定結果が出るとビジネス的に成功と言えるのかを入念に検討し、そのためのAIモデルを、考えに考えて設計することが、感情分析AIをビジネス成果につなげていくための肝になります。 感情を分析・予測するということは、人であっても簡単なことではありません。そのためのAIモデルを開発するためには、考え、感じ、さらに考えることを繰り返し、アジャイルに開発を進めていく覚悟とパートナーが欠かせないのです。
アバター
A New Japanese-English Parallel Corpus − 新日英対訳コーパス − 2021.11.9 Laboro.AI Inc. Machine Learning Engineer Zhao Xinyi (※このコラムでは、当社が開発した機械翻訳モデルによる日本語訳を各セクションに掲載しています。翻訳文は、その性能を実感いただくことを目的に、いくつかの用語を置き換える以外は人手による修正は行なっておりません。そのため、一部文章に不自然な箇所も含みますことをご了承ください。) INTRODUCTION Parallel corpus is essential to Natural Language Processing (NLP) research, especially when it comes to translation. However, such research sometimes suffers from the lack of high-quality corpus. Hoping to make NLP researchers’ life easier, we are here to share a Japanese-English parallel corpus. To assess the quality of our corpus, NMT models were trained with the corpus and then evaluated on several datasets. The models reach quite good BLEU scores and are able to give decent translation involving text from various fields and sources. Now we’re making our corpus public to everyone. Besides that, by writing this article, we also want to share the methodology for building a parallel corpus efficiently and financially friendly. Traditionally, collecting a parallel corpus needs considerable amount of linguistic resources (corpora, dictionaries, etc.), which is difficult for those with limited budgets. We managed to find some workarounds and make the whole process more practical. In this article, we will first explain how our corpus is collected, including where the data are from and how parallel sentence pairs are mined. Then we will introduce the NMT models that were trained, followed by the evaluation results and conclusions. 対訳コーパスは、特に翻訳に関しては、自然言語処理(NLP)の研究に不可欠です。しかし、そのような研究は、質の高いコーパスの欠如に苦しむことがあります。NLP研究者の生活をより楽にするために、日英対訳コーパスを共有します。コーパスの品質を評価するため、NMTモデルをコーパスで学習し、いくつかのデータセットで評価しました。モデルは、非常に優れたBLEUスコアに達し、さまざまな分野や情報源からのテキストを含む適切な翻訳を提供できます。 また、本稿を執筆することで、効率的かつ経済的な対訳コーパス構築の方法論を共有したい。従来、対訳コーパスの収集には相当な言語資源(コーパス、辞書など)が必要であり、予算が限られている人には難しい。いくつかの回避策を見つけて、プロセス全体をより実用的なものにすることができました。本記事では、まず、コーパスの収集方法や、データの出所、並列文章ペアの採掘方法などについて解説します。次に、訓練されたNMTモデルを紹介し、評価結果と結論を述べる。 CONTENTS ・ Corpus Collecting  ・ Related works  ・ Crawling & Preprocessing  ・ Alignment  ・ Filtering ・ Training NMT ・ Evaluation ・ Download & Source Code ・ Acknowledgements Corpus Collecting Related works One of the most well-known projects for building a parallel corpus is ParaCrawl, aiming to mine sentence pairs from the web for European languages. ParaCrawl has been  proven  to be one of the most high-quality large parallel corpora. In order to achieve that, ParaCrawl team developed a set of open-source tools including Extractor for processing the data in Common Crawl, Bitextor for crawling and aligning data, and Bicleaner for filtering bilingual text pairs. Using the tools developed by ParaCrawl, JParaCrawl corpus was created by NTT as the Japanese version of ParaCrawl. Our project was inspired by the two projects mentioned above. コーパス集め 関連作品 対訳コーパス構築で最もよく知られているプロジェクトのひとつが、ヨーロッパの言語向けにウェブから文章ペアを掘り起こすParaCrawlです。ParaCrawlは 証明 され、最も高品質の大型対訳コーパスの一つです。これを実現するために、ParaCrawlチームはコモンクロールでデータを処理するためのExtractor、クロールと整列用のBitextor、バイリンガルテキストペアをフィルタリングするためのBicleanerなどのオープンソースツールのセットを開発しました。JParaCrawlは、ParaCrawlが開発したツールを用いて、NTTが日本版のParaCrawlとして作成したコーパスです。この2つのプロジェクトから着想を得ました。 Crawling & Preprocessing Our parallel corpus is built based on web-crawled data. To begin the crawling, we have to first decide the candidate domains.  Common Crawl  as a large web archive database is a good place to start for selecting the candidate domains. An ideal source domain for our purpose should include parallel webpages having the same contents in two languages. To simplify the selection of candidate domains, however, we only request a desirable language ratio between Japanese and English at this step. With the help of the  Extractor , we were able to extract Japanese and English text from Common Crawl database, and then calculate the language bytes ratio for each domain. Top 50,000 domains were finally selected with the closest Japanese to English bytes ratio to 1.22. The main limitation of using Common Crawl as the source data, however, is that it usually doesn’t have a complete copy of a website. This leads to two problems. One is that the language statistics we collected in the previous step might have bias from the actual situation. The other problem is that from a potentially ideal domain, we want to obtain as much data as possible, in other words, the entire website. This means instead of using the imcomplete copy in Common Crawl, it’s better for us to crawl the websites again for more data. From this step, we started using another tool called Bitextor. It integrates together the functions of crawling, alignment, filtering, etc, and the tools for them. By modifying the configuration files, we are able to control the pipeline and select the tools. Detailed instruction can be found on its GitHub homepage . As for the crawling, we chose Creepy among several crawlers supported by Bitextor. Creepy is very straightforward to use, and Bitextor has some Creepy-specific variables to help us control the crawling process. Specifically, we set the  crawlTimeLimit  as 24 hours,  crawlSizeLimit  as 1GB and  crawlTLD  as False. By doing this, we restrained the crawling from taking up too much resources, and obtained around 1TB data with gzip compression. The crawled data have to be preprocessed for further use. This includes extracting plain text, splitting sentences and tokenization. To better extract text and suit Japanese characters and punctuations, we modified and replaced source code  bitextor-warc2preprocess.py  and  split-sentences.perl . For tokenization, we used the original source code  tokenizer.perl  for English, and used MeCab tokenizer with NEologd dictionary for Japanese. After preprocessing, we got about 29GB of English plain text and 20GB of Japanese plain text. クローリングと前処理 弊社の対訳コーパスは、ウェブクロールデータに基づいて構築されています。クロールを始めるには、まずは候補ドメインを決定する必要があります。大規模なWebアーカイブデータベースとしての Common Crawl という大規模なWebアーカイブデータベースは、候補ドメインを選択するのに最適な場所です。理想のソースドメインは、2つの言語で同じ内容のパラレルウェブページを含むべきです。ただし、候補ドメインの選択を簡略化するため、この段階では、日本語と英語の望ましい言語比率のみをリクエストします。 Extractor の助けを借りて、Common Crawlデータベースから日本語と英語のテキストを抽出し、各ドメインの言語バイト数比を計算することができました。最終的に、日本語と英語のバイト数の割合が1.22と最も近い上位50,000ドメインが選ばれました。 しかし、Common Crawlをソースデータとして使用する主な制限は、通常、ウェブサイトの完全なコピーを持っていないことです。これは2つの問題につながります。1つは、前のステップで収集した言語統計には、実際の状況からバイアスが生じる可能性があるということです。もう一つの問題は、潜在的に理想的なドメインから、可能な限り多くのデータ、すなわちウェブサイト全体を取得したいということです。つまり、Common Crawlで不完全なコピーを使用する代わりに、より多くのデータのためにウェブサイトを再度クロールすることをお勧めします。 このステップから、Bitextorという別のツールを使い始めました。クロール、アライメント、フィルタリングなどの機能と、それらのツールを統合します。設定ファイルを変更することで、パイプラインを制御し、ツールを選択することができます。詳細な手順は GitHubホームページ にあります。 クローリングに関しては、Bitextorがサポートするクローラの中からCreepyを選びました。Creepyは非常に使いやすく、Bitextor にはCreepy特有の変数があり、クローリングプロセスを制御できます。具体的には、「crawlTimeLimit」を24時間、「crawlSizeLimit」を1GB、「crawlTLD」をFalseに設定します。これにより、クロールによる資源の取り込みを抑制し、gzip圧縮で1TB前後のデータを取得しました。 クロールされたデータは、後で使用するために前処理する必要があります。これには、プレーンテキストの抽出、文章の分割、トークナイゼーションが含まれます。テキストを抽出して日本語の文字や句読点に合うように、ソースコード「bitextor-warc2preprocess.py」と「split-sentences.perl」を変更して置き換えました。トークナイズには、オリジナルソースコードの「tokenizer.perl」を英語に使い、NEOlogd辞書付きのMeCabトークナイザーを日本語に使いました。前処理後、約29GBの英語プレーンテキストと20GBの日本語プレーンテキストを手に入れました。 Alignment Once the crawled data is ready, we can start document and segment (sentence) alignment in order to extract parallel sentence pairs. Bitextor supports two methods to do both alignments, using a dictionary or introducing an external machine translation (MT) to the system. The big obstacle we were facing was that we didn’t have any dictionary or MT available. Collecting a dictionary is apparently the more practical option here, because after all training a reliable MT is our ultimate purpose. We set off to crawl an English-Japanese dictionary from several dictionary websites, and ended up collecting 82,711 entries. It is important to select multiple sources to crawl the dictionary in order to balance the language style, because we want our final corpus to contain a little bit of everything, both academic and casual text. Fortunately, the detour ends here. With the collected dictionary, alignment can be easily done following the instruction for Bitextor. We collected about 329 million sentence pairs when sentence alignment was finished, but many of those are not correct pairs and need to be filtered out. アライメント クロールされたデータの準備ができたら、ドキュメントとセグメント(センテンス)のアライメントを開始して、平行な文のペアを抽出します。Bitextorは、辞書を使用するか、外部機械翻訳(MT)をシステムに導入するかの2つの方法をサポートしています。私たちが直面していた大きな課題は、辞書もMTもないということでした。辞書の収集は、明らかにここではより実用的なオプションです,なぜなら、信頼できるMTをトレーニングすることが究極の目的だからです。日英辞書をいくつかの辞書サイトからクロールし、最終的に82,711のエントリを集めることにしました。言語スタイルのバランスを取るために、複数のソースを選択して辞書をクロールすることが重要です。 幸いなことに、迂回はここで終わります。収集された辞書を使用すると、Bitextorの指示に従って簡単に位置合わせを行うことができます。アライメントが完了すると約3億2900万個の文章ペアを収集しましたが、それらの多くは正しいペアではなく、除外する必要があります。 Filtering On the Bitextor pipeline, Bicleaner is used to filter the sentence pairs and output the final parallel corpus. What it does is to score each pair and eliminate those whose scores are lower than a threshold we set. However, it takes some time and efforts to train a Bicleaner model. The very detailed explanation for training a Bicleaner can be found  here , according to which, we still need some extra data for the training. In general, two parallel corpora are needed, a big corpus to extract probabilistic dictionary and word frequency information, and a small but high-quality corpus as the training corpus. Note that the dictionary used in the previous alignment step cannot be used here, because it doesn’t contain the probability and word frequency information required in the training process. We crawled the big corpus from a bunch of dictionary websites with bilingual example sentences. It contains more than 1 million sentence pairs as suggested in the training instruction. As for the small but clean training corpus, we selected about 600K sentence pairs from Reijiro corpus. We also tested several types of classifier used in Bicleaner, and finally decided to adopt “random forest” classifier and 0.5 as the threshold in order to suit our needs the best. By using Bicleaner, our corpus reduced from 329 million sentence pairs to 23 million pairs. By browsing the corpus we got, we found there’s still possibility to further clean the corpus. Some of the wrong sentence pairs are easy to spot because the source URL pairs obviously mismatched, and this is caused by the mistakes in document alignment. Using a dictionary instead of an external MT for document alignment compulsorily aligns one URL with the other most possible URL, even if they contain totally different contents. To deal with this problem, we appended a strict rule-based filter at the end of the pipeline to identify correct URL pairs. The rules include 1. the URL pairs must contain at least one language identifier including “ja”, “en”, “=j”, etc; 2. the numbers in the URLs, if exist, are usually the date or post ID, and are asked to be identical in a URL pair. The size of our final parallel corpus reduced to 14 million sentence pairs after cleaning. Giving it a second thought, if we do the alignment again in the future, using this rule-based filter right after document alignment can save us some time in the later steps. フィルタリング Bitextorパイプラインでは、Bicleanerを使用して文章ペアをフィルタリングし、最終的な対訳コーパスを出力します。何をするかは、各ペアをスコア化し、設定したしきい値よりも低いスコアを排除することです。しかし、Bicleanerモデルのトレーニングには時間と労力がかかります。Bicleanerの訓練の非常に詳細な説明は、 ここ にある、これに従って、トレーニングのためにはさらにいくつかのデータが必要です。一般的に、2つの対訳コーパス、確率的辞書と単語頻度情報を抽出する大きなコーパス、および訓練コーパスとして小さくて高品質なコーパスが必要です。前のアライメントステップで使用する辞書は学習過程に必要な確率や単語頻度情報が含まれていないためここでは使えません。 大量の辞書ウェブサイトから、バイリンガルの例文をクロールしてみました。訓練の指示に示されているように、100万以上の文のペアが含まれています。また、小型でクリーンな学習コーパスは、Reijiroコーパスから約600Kの文章を選びました。また、Bicleanerで使用されている分類器をいくつか試し、最終的にはニーズに合わせて「random forest」分類器と0.5を閾値として採用することを決めました。Bicleanerを用いることで、コーパスは3億2,900万文対から2,300万対へと減少しました。 私達が得たコーパスを閲覧することによって、私達は、コーパスをさらにきれいにする可能性があることに気がつきました。ソースURLのペアが明らかに間違っているため、間違った文のペアのいくつかは見分けがつきやすいです。これは、ドキュメントのアラインメントの間違いが原因です。ドキュメントのアラインメントに外部MTではなく辞書を使用すると、たとえ完全に異なる内容が含まれていても、あるURLを他の最も可能なURLに強制的に整列させることができます。この問題に対処するために、パイプラインの最後に厳密なルールベースのフィルターを追加し、正しいURLペアを特定しました。 1. URLペアには、「ja」、「en」、「=j」など、少なくとも1つの言語識別子を含める必要があります。 2. URL内の番号は、通常、日付または投稿IDであり、URLのペアで同じであるように求められます。 最終的な対訳コーパスのサイズは、クリーニング後に1400万文ペアに縮小しました。将来、アラインメントを再び行う場合、ドキュメントのアラインメント直後にこのルールベースのフィルタを使用すると、後のステップで時間を節約できます。 Training NMT To evaluate and compare the quality of the parallel corpora, we trained several sets of NMT models. The first set of models is trained with Laboro-ParaCorpus. To explore how much the performance is influenced by add an extra corpus, especially when adding a small corpus, we tested a Laboro-ParaCorpus+ which is a combination of Laboro-ParaCorpus and an HNK daily conversation corpus. The NHK corpus is also crawled from online resources and contains only around 60K sentence pairs. In addition to that, the third set is trained with the combination of Laboro-ParaCorpus and NTT-JParaCrawl corpus. Each set includes 4 models, 1. base model, from English to Japanese 2. base model, from Japanese to English 3. big model, from English to Japanese 4. big model, from Japanese to English All the pre-trained models are later evaluated on 7 datasets. 4 of those, namely ASPEC, JESC, KFTT, IWSLT, are furthermore used for fine-tuning each model for an extra 2000 steps. We list and briefly introduce them as followings. ・ ASPEC , Asian Scientific Paper Excerpt Corpus ・ JESC , Japanese-English Subtitle Corpus containing casual language, colloquialisms, expository writing, and narrative discourse ・ KFTT , Kyoto Free Translation Task that focuses on Wikipedia articles related to Kyoto ・ IWSLT 2017 TED.tst2015  used in IWSLT 2017 Evaluation Campaign, including TED talks scripts in both languages ・ Duolinguo STAPLE  for the 2020 Duolingo Shared Task on Simultaneous Translation And Paraphrase for Language Education ・ Tatoeba  corpus, a large collection of multilingual sentences and translations that keeps being updated by voluntary contributors;  release v20190709  is used in our experiment ・ BSD , Business Scene Dialogue corpus containing Japanese-English business conversations トレーニングNMT 対訳コーパスの品質を評価し比較するために、いくつかのNMTモデルのセットを訓練しました。モデルの最初のセットはLaboro-ParaCorpusで訓練されます。追加コーパスを追加することによってパフォーマンスがどの程度影響されるかを調べるには、特に、小さなコーパスを追加する場合、私たちは、Laboro-ParaCorpusとHNK日常会話コーパスの組み合わせであるLabolo-ParaCorpus+をテストしました。NHKコーパスもオンラインリソースからクロールされ、約60Kの文章ペアしか収録されていません。さらに、第3セットは、Laboro-ParaCorpusとNTT-JParaCrawlコーパスの組み合わせで訓練されます。各セットに4モデル、 1. ベースモデル(英語から日本語) 2. ベースモデル(日本語→英語) 3. 大きなモデル(英語から日本語) 4. 大きなモデル(日本語から英語) 事前学習済みのすべてのモデルは、その後7つのデータセットで評価されます。ASPEC、JESC、KFTT、IWSLTの4つは、さらに2000ステップ追加で各モデルのファインチューニングに使用されます。以下にリストアップして簡単に紹介します。 ・ ASPEC 、アジア学術論文抜粋 ・ JESC 、日本語・英語字幕コーパス、口語・解説、ナラティブ・ディスコース ・ KFTT 、京都に関するWikipedia記事を中心にした京都フリー翻訳タスク ・ IWSLT 2017 TED.tst2015 、両言語のTEDトークスクリプトを含むIWSLT 2017評価キャンペーンで使用 ・ Duolinguo STAPLE 、2020 Duolingo Shared Task on Simultaneous Translation and Paraphrase for Language Education ・ Tatoeba コーパス、自発的な貢献者によって更新され続ける多言語文章と翻訳の膨大なコレクション;  release v20190709 が我々の実験で使用されています ・ BSD 、日英ビジネス会話を含むビジネスシーン対話コーパス Evaluation NMT models are evaluated by BLEU scores on the test datasets. Except the three sets of models mentioned above, we used models trained on NTT’s JParaCrawl as the baseline, and the results from Google Cloud Translate as a reference. In the table below, we show a simplified version of comparison based only on BLEU scores on average, so that it is easy to understand. The pre-trained (PT) models are represented by the average scores on 7 datasets, while the fine-tuned (FT) models on 4 datasets. For the detailed results for each model on each dataset, please refer to our  Github document . It is obvious to see that big models always get higher scores than base models. Except that Google Cloud Translate exceeds other pre-trained models, the models trained with the combination of 2 corpora give the best performance. As for models trained on one single corpus, the models trained on NTT-JParaCrawl perform slightly better than those trained on Laboro-ParaCorpus overall, but by adding a small and high-quality corpus to our corpus, it raised the performance to the same level as NTT’s models. Specifically which model is better really depends on the type and content of the evaluation dataset. The results show that the Laboro-ParaCorpus+ is of comparable quality with NTT-JParaCrawl corpus. With limited resources in hand, it’s still possible to create a decent parallel corpus of your own. In this article, we set out to share a self-build parallel corpus and the NMT models pre-trained with the corpus. We also dicussed the methodology for creating a parallel corpus when we only have access to limited linguistic resources. This experience is valuable for our future work, and hope what we shared is helpful for you too. 評価 NMTモデルは、テストデータセット上のBLEUスコアによって評価されます。上記の3つのモデル以外は、NTTのJParaCrawlで学習したモデルをベースラインとして使用し、Google Cloud Translateの結果を参考として使用しました。 下表では、平均してBLEUスコアのみを基準に簡略化した比較を示しており、わかりやすいようにしています。事前学習(PT)モデルは7つのデータセットの平均スコアで、4つのデータセットで微調整(FT)モデルで表されます。各データセットにおける各モデルの詳細結果については、 Githubドキュメント を参照してください。 大きなモデルがベースモデルよりも高いスコアを常に得ることは明らかです。Google Cloud Translateが他の事前訓練済みのモデルを超える場合を除き、2コーパスの組み合わせで訓練されたモデルは最高のパフォーマンスを発揮します。1つのコーパスで学習したモデルは、総じてLaboro-ParaCorpusで学習したモデルよりもNTT-JParaCrawlで学習したモデルの方が性能はやや向上しますが、コーパスに小型で高品質なコーパスを追加することにより、NTTのモデルと同等の性能が向上しました。具体的には、どのモデルがより優れているかは、評価データセットの種類と内容によって異なります。その結果、Laboro-ParaCorpus+はNTT-JParaCrawlコーパスと同等の品質であることが分かりました。限られたリソースで、独自の適切な対訳コーパスを作成することは可能です。 本記事では、自前の対訳コーパスと事前学習済みのNMTモデルを共有することにした。また、限られた言語資源しか得られない対訳コーパスの作成方法についても議論しました。この経験は将来の仕事に役立ち、私たちが共有したものがあなたにとっても役立つことを願っています。 Download & Source Code Please refer to our  GitHub Homepage . ダウンロード&ソースコード 詳しくは GitHubのホームページ をご参照ください。 Acknowledgements We sincerely appreciate the  ParaCrawl  project for developing a great set of softwares. This project would not have been possible without  Extractor ,  Bitextor , and  Bicleaner . Special thanks to the NTT  JParaCrawl  project for the methodology for adapting ParaCrawl for Japanese. 謝辞 たくさんのソフトウェアを開発してくださった ParaCrawl プロジェクトに心より感謝申し上げます。このプロジェクトは、 Extractor 、 Bitextor 、 Bicleaner がなければ実現できなかった。NTT  JParaCrawl プロジェクトによるParaCrawlの日本語適応方法に特に感謝します。
アバター
産業別 AI導入事例 コラムダイジェスト 2021.10.12 概 要 第三時AIブームに突入したと言われる近年、AI技術の活用が多くの産業で見られるようになってきました。DX実現の主要技術しても位置付けられるAIですが、具体的には各産業でどのような活用が進められているのでしょうか。これまで当コラムコーナーでは数多くのAI導入・活用事例を産業ごとに紹介していきました。今回は、その総まとめとして、各コラムのダイジェストをご紹介していきます。 目 次 ・ AI市場の動向 ・ 産業別AI導入コラムの紹介  ・ 農業×AI  ・ 製造×AI  ・ 物流×AI  ・ 金融・保険×AI  ・ 小売×AI  ・ マーケティング×AI  ・ 不動産×AI  ・ 食品×AI  ・ サービス業×AI  ・ 医療・福祉・介護×AI  ・ 建設×AI  ・ 鉄道×AI  ・ 化学×AI ・ 近年注目を集める生成AI  ・ 画像生成  ・ 文章生成  ・ 香り生成 ・ 進む、AIの産業応用 AI市場の動向 国が提唱している新しい人間中心の社会の形「Society 5.0」においてもAIの重要性が説かれていますが、ディープラーニング技術の開花を契機にAI技術の実用化が進んでいます。その技術進化はめざましく、さまざまな産業で活用方法が模索され、すでに多くのイノベーションが登場しています。 国内のAI市場規模は成長傾向にあり、IDC Japanが2021年6月に発表した「国内AIシステム市場予測」によると、2020年の国内AI市場は前年比で47.9%成長、また2020年から2025年にかけての年間平均成長率は25.5%で推移するとされ、ますますの成長が見込まれています。 出典: 内閣府「Society5.0とは」 出典: IDC Japan「国内AIシステム市場予測」 産業別 AI導入事例コラムの紹介 これまで当コラムコーナーでは、産業別に様々なコラムを掲載してきました。それぞれの簡単な内容と共にご紹介していきます。 農業×AI 農業では、農業従事者の減少、高齢化、新規就農者の不足などが課題として挙げられていますが、これらの課題解決に向け、さまざまなAIシステムやサービスが登場しています。例えば、AI搭載ドローンを用いた圃場の監視はその一つで、人の目だけでは難しい広大な圃場の管理を実現するだけでなく、最小限の農薬量で効果的な農薬散布を行うなどの活用が進められています。 Laboroコラム: 「守れ、農業。AIが描く第一次産業の進化像」 守れ、農業。AIが描く第一次産業の進化像 製造×AI 人手不足や継承者不足、品質の維持の他に、AIなど新技術を取り入れることによる国際競争力の回復も大きな課題として挙げられる製造業。予知保全や不良品選別、サプライチェーン全体の最適化など、AI技術の活用が最も進む領域の一つが、この製造業です。AIと人間の協働による生産性向上に向けた取り組みが、数多く誕生しています。 Laboroコラム: 「『製造DX』は幻想か。AI導入の今と展望」 製造現場でのリアルなAI導入の実際を描いた、こちらの当社寄稿記事もおすすめです。 ニュースイッチ: 「AIは幻想か 導入現場のリアル」 『製造DX』は幻想か。AI導入の今と展望 物流×AI 物流業界は、ドライバー不足や労働環境などの課題に対処しつつ、EC市場が拡大したことによる物流需要にも対応していく必要性に迫られています。倉庫の管理コスト削減、運送ルートの効率化など、物流業界でもさまざまなAI活用が推進され、長年の課題解決に向けた改革に取り組まれています。 Laboroコラム: 「EC需要の裏側に。物流危機を救う、AIのチカラ」 EC需要の裏側に。物流危機を救う、AIのチカラ 金融・保険×AI 長年の取引にわたるビッグデータを蓄積し、AIを活用するための下地が整っていると言われるのが金融業界です。実際に、新テクノロジーを組み合わせた「フィンテック」「インシュアテック」のひとつの手法としてAIも注目を集めており、住宅ローンの審査時間の大幅削減を実現した活用例なども生まれています。ですが、その業界特性から来るデータ活用の難しさや、求められる正確性の高さなど、特有の背景を抱える業界でもあります。 Laboroコラム: 「その道のりは、険しくもある。金融業界のAI活用」          「つなげ。保険、AI、インシュアテック」 その道のりは、険しくもある。金融業界のAI活用 小売×AI 私たち生活者に近い領域でAI活用が進むのが、小売業界です。需要予測、店舗内行動の把握・分析、在庫管理・発注業務の効率化など、幅広い業務オペレーションにAI技術が活用されて始めています。 Laboroコラム: 「POSからの脱却。小売AIの進化と可能性」 POSからの脱却。小売AIの進化と可能性 マーケティング×AI マーケティングの活動範囲は、製品、価格、流通、プロモーションと多岐にわたります。これらのマーケティング・ミックスに沿って、パーソナライズ化やダイナミック・プライシング、流通経路の最適化など、AIを活用した新たな顧客価値を提案するための取り組みが行われています。 Laboroコラム: 「答えのない、マーケティング×AIの世界への挑戦」 答えのない、マーケティング×AIの世界への挑戦 不動産×AI 人手不足や労働環境の改善のほか、人口減少や高齢化などによる需要の下落も大きな課題となっている不動産業界。業務効率化のためのAI活用だけでなく、不動産仲介AIなど、新たなサービス創出に向けても、その活路が見出され始めています。 Laboroコラム: 「AIで住まいに新しい価値を。不動産業界×AI」 AIで住まいに新しい価値を。不動産業界×AI 食品×AI 豊かな時代を迎えた現代ですが、食品業界では、その裏返しとして食品ロス問題、商品数の増加、またそれに伴う選択肢の増大などの問題が指摘されます。これらを完全に解決するものではないものの、需要予測、食品原料検査、献立のパーソナライズなど、AIを活用した挑戦が続いています。 Laboroコラム: 「新・食体験に挑む。食品AIの可能性」 新・食体験に挑む。食品AIの可能性 サービス業×AI 人と人とのコミュニケーションが重視されるサービス業では、AIやロボットなどのテクノロジーが受け入れられにくい側面もあります。一方で、トレンド予測や人手不足解消、新たなレコメンドサービスの開発による顧客価値の増大など、次世代のサービス業のあり方を形作る、多くの取り組みが見られるようになっています。 Laboroコラム: 「AIはトレンドか。アパレル業界のAI活用」 AIはトレンドか。アパレル業界のAI活用 医療・福祉・介護×AI 人の命を預かる医療や福祉、介護の現場では、AIの活用も簡単ではなく、導入事例も限定的なものが多いのが実際ですが、近年、少しずつ実用的なケースも誕生してきています。例えば、医療ではAIによる画像診断や新薬開発、介護においてはプライバシーを保護しつつ施設入居者を観察するAIや、ケアプランの作成支援を行うAIなどが登場しています。 Laboroコラム: 「いのち守るためのAI。医療現場へのAI導入の壁」          「見えてきた、介護業界のAI活用」 いのち守るためのAI。医療現場へのAI導入の壁 建設×AI 建設業は、他業種と同様、人手不足が問題となっていることに加え、現場の安全性確保を優先すると作業が非効率化してしまうという特有の課題があります。そこで、安全管理や品質管理などをAIが支援するシステムが登場、事故の危険性や作業の手戻りを防ぎながらも、安全性を担保するなど、生産性向上のためのAI技術活用による建設DXが、多方面で進められています。 Laboroコラム: 「変わる建設、変えるAI。建設DXの今とこれから」 変わる建設、変えるAI。建設DXの今とこれから 鉄道×AI 多くの人が集積し、データの宝庫とも呼ばれるのが鉄道業界です。鉄道業ではマーケティング活用のためにビッグデータやAIの活用が目指されているだけでなく、例えばAIカメラを駅のホームに設置することによる転落事故防止システムなど、安全確保に向けた活用が様々誕生しています。 Laboroコラム: 「線路は続く、未来へと。鉄道業界のAI活用」 線路は続く、未来へと。鉄道業界のAI活用 化学×AI 国内を代表する輸出産業の一つ、化学業界。近年注目を集めるのが、マテリアルズ・インフォマティクスで、新たなマテリアルの発見・生成に期待が寄せられています。そのほか実験の自動化や安全確保に向けたAI活用など、国際競争力の向上に向けた取り組みが、化学業界では進められています。 Laboroコラム: 「化学のような、AIと産業の融合。MIの新価値」 化学のような、AIと産業の融合。MIの新価値 近年注目を集める生成AI 最後に、近年のAIの進化ぶりを表すトピックスとして、生成をテーマとしたAIをご紹介したいと思います。ただし生成AIは、今後新たな価値をもたらす可能性を秘めている分野である一方、基本的にアルゴリズムに含まれるパラメーター数が膨大になるケースが多く、現段階で広く一般に実用化されまでには至っていない点には注意が必要です。 画像生成 所与の画像をデータとして新しい画像を生成するAIの技術分野は、GAN(敵対的生成ネットワーク)と呼ばれるアルゴリズムの登場以降、注目を集めていますが、近年話題となったのがOpenAIが開発した「DALL・E」(ダリ)」です。 DALL・Eは、短いテキストからその意味を読み取り、さまざまなテイストの画像を生成するモデルで、例えば、「a baby daikon radish in a tutu walking a dog(犬の散歩をしているチュチュを履いた赤ちゃん大根)」というテキストから、複数のイラストを生成するサンプルを公開しています。「赤ちゃん大根」からは「まだ小さい大根」と「大根を模した赤ちゃんのキャラクター」の2つの意味が取れますが、DALL・Eは文脈全体を読み取り、後者の画像を生成しています。 出典: OpenAI「DALL·E: Creating Images from Text」 文章生成 特定の課題を与えることで、自動で文章を生成するAIも登場しています。中でも昨今大きな衝撃を与えたのが、上と同じくOpenAIが開発した「GPT-3」です。GPT-3は、約45TBにもおよぶ膨大なテキストデータを用い、約1,750億個という膨大な数のパラメータを使用して分析した言語モデルで、圧倒的な量のデータを分析することにより、入力された単語の次にくる単語を高精度に予測、人が書いたものと同様の文章を生成できるとされています。 出典: NTTデータ先端技術「自然言語処理モデル「GPT-3」の紹介」 香り生成 画像や文章のほか、AIを活用して香りを生成する取り組みも行われています。ドイツの香料メーカー「symrise」がIBMと共同で開発したのが、香水の配合を自動で生成するAI「Philyra」です。Philyraは170万種類もの香水の配合データや、性別や年齢などでセグメントされた香りの好みのデータなどを学習し、ターゲットに合わせた香水の配合を生成するというもので、ブラジルで行われたテストマーケティングでは、調香師がオリジナルで配合した香水やPhilyraが配合し調香師が調整した香水よりも、Philyraが配合したそのままの香水が最も選ばれる結果となったことが報告されています。 出典: chem-station「AIが作った香水、ブラジルで発売」 進む、AIの産業応用 今後も成長が見込まれるAI市場。その著しい技術進歩を背景に、引き続き多種多様な産業・業界でのAIの活路が見出されていくはずです。とはいえ、「AI導入の壁」「PoCの壁」などのワードも昨今見聞きする機会が多くなりましたが、その導入は一筋縄でいくものでは決してありません。要件定義から始まり、PoC、モデル開発、システム開発、本番運用、そしてAI活用を前提にしたビジネスデザインに至るまでの各フェーズで、精緻にロードマップを敷き、トライ&エラーを繰り返していくことが必要となります。 Laboro.AIでは、すべての産業の方々をクライアントとしてお迎えし、画像・自然言語・音声・強化学習など、幅広いAI技術領域でオーダーメイド型のAI開発『カスタムAI』を事業展開しています。汎用的なパッケージAI製品では解決できないような産業特有の複雑な課題の解決をAIで目指す際には、ぜひご相談ください。
アバター
化学のような、AIと産業の融合。MIの新価値 2021.10.1 概 要 国内を代表する輸出産業の一つである化学業界では、近年、「マテリアルズ・インフォマティクス(MI)」をはじめとしたAI技術の活用が注目を集めており、研究における新たな付加価値の醸成や効率化を目指す動きが見られるようになっています。一方で、他国にシェアを奪われている領域も少なからず存在し、研究開発スピードの向上が課題にもなっているようです。 今回のコラムでは化学分野におけるAIの活用、とくにマテリアルズ・インフォマティクスを中心に、事例をまじえながらご紹介していきます。 目 次 ・ 化学業界の現状と課題 ・ 化学へのAI導入メリット  ・ マテリアルズ・インフォマティクス(MI)  ・ 実験の自動化  ・ 安全性の確保 ・ 化学×AIの活用事例  ・ 材料開発の高速化  ・ ゴム配合物性値予測システム  ・ 安全管理ソリューション ・ テクノロジーとビジネスの化学融合 化学業界の現状と課題 自動車業界に加え、日本の輸出産業を代表する化学業界。これまで多くのイノベーションを生み出し、国内だけでなく国際的経済や社会の発展に貢献してきました。化学の進化によって国内で作り出される数々のマテリアル(素材)は、国際的にも競争力を保有する一方で、蓄電池に代表される組み合わせ型製品では世界シェアを他国に拡大されてきており、マテリアル系ベンチャーもなかなか成長できていない現状が指摘されています。 こうした状況を打破するため、AIを始めとしたデジタル活用が期待されています。とくに機械学習技術を用いたマテリアル開発を加速させる「マテリアルズ・インフォマティクス」の分野が注目を集めており、効率的かつスピーディ、そして新たな製品開発に寄与することを目指した活動がさまざま進められています。 出典: 経済産業省「マテリアル革新力強化のための政府戦略に向けて」 化学へのAI導入メリット 化学分野では、その活用範囲はまだ限定的ではあるものの、マテリアル開発を始めとしたさまざまな領域でAIの活用が進められています。AIを導入することによるメリットとしては、以下のような効果が期待されます。 マテリアルズ・インフォマティクス(MI) 「情報科学」の意味を持つ「インフォマティクス」ですが、マテリアルズ・インフォマティクスでは、AI・機械学習技術の他、超高速演算が可能なスーパーコンピュータ、大規模な材料科学データベースなどが活用されます。例えば、過去の論文を学習させることで分子構造の予測するといった取り組みなど、各種マテリアルに関する情報を高度処理することを通して、研究開発の効率化・生産性向上に寄与することが期待されます。 出典: HITACHI「マテリアルズ・インフォマティクスとは」 実験の自動化 化学研究においては、新しいマテリアルを開発するための化学実験が欠かせませんが、AIを活用して実験の一部、あるいは将来的にはすべてのフェーズを自動化できるようになることが期待されています。 現時点で実用に至っているものとして自動化を実現しているケースは実験過程の一部に留まっていますが、例えば、イギリスのリバプール大学では試薬を加えるところから効果測定をするまでの一連の流れを全自動で行う実証実験が行われています。この実験では、AIを搭載したロボットが数時間にわたって安定的に稼働し、化学実験の各フェーズを全自動で行うことに成功しています。 自動化のための視点としては、大規模な化学実験を自動化するのは難しい場合が多く、まずは小規模な実験室でプラント装置を小さくまとめることから自動化の試みを始めることにより、その可能性を高めていくことも重要です。 化学実験の自動化は、効率化の面だけでなく、実験における事故防止などの安全管理面、また実験に従事する時間が限られている研究員のサポートをするこによる衛生面においても効果が期待される重要な取り組みの一つです。 出典: chem-station「自律的に化学実験するロボット科学者、研究の自動化に成功」 安全性の確保 上でも少し触れましたが、実験室やプラント工場では危険物の取扱いも多く、研究員や作業員の安全性の確保が重要になります。そのため、安全性の確保に向けたAIの活用も期待される領域です。例えば、プラント工場内に設置されたIoTセンサーやカメラ等から得られたデータをリアルタイムに分析し、異常の兆候を通知するといった活用はその一つです。また、工場設備の腐食といった損傷をカメラ画像から判定し、適切なタイミングでのメンテナンスにつなげるといった活用も考えられます。 重大事故にもつながりかねない実験現場や製造・合成現場では、AIの出力結果の信頼性を十分に担保する必要があるため、現段階での活用範囲は限定的ですが、今後安全性の確保に向けた益々の進展が期待されます。 出典: 経済産業省「石油・化学プラントのAIを活用したスマート化を促すため、ガイドラインと事例集を策定しました」 化学×AIの活用事例 マテリアルズ・インフォマティクスを中心に、化学業界でのAの活用事例をご紹介していきます。 材料開発の高速化 マテリアルズ・インフォマティクスを活用することにより、少ない実験回数で新素材の最適な組み合わせを発見できたというのが、住友化学の事例です。このケースでAIによって発見された組み合わせは、研究者が想定しなかったものであり、AIの予測性能が成果につながった事例だと言えます。 当初課題としてあったのは、これまでの実験を重要視するスタンスでは細分化したニーズに対応できなくなったという状況でした。マテリアルズ・インフォマティクスによりAIを活用した分析を行ったところ、100万以上ある比重の組み合わせから良好な組み合わせを絞ることに成功。たった20回の実験により、研究者も想定してなかった組み合わせが、新素材に最適な結果が得られたとのことです。 出典: 日経クロステック「MIで先陣を切る住友化学、材料開発で驚きの効率化」 ゴム配合物性値予測システム 横浜ゴムが2020年より実用を開始したのが、タイヤ用ゴムの配合設計をAIによって支援するシステムです。このシステムは、技術者がゴム素材の配合設計のパラメータを入力すると、AIがその配合における物性値の予測を出すというものです。 ゴム素材の配合設計は従来であれば実際に配合してみなければその物性値を知ることはできませんでしたが、AIによる予測を行うことで、実際には実験を行わずに結果を予測する仮想実験が可能となります。これにより、経験の少ない技術者でもハイスピードでゴム素材の開発ができると期待されており、高性能な製品の開発にもつながることが見込まれています。 なお、このシステムは、横浜ゴムが2020年に策定したAI利活用構想「HAICoLab(ハイコラボ)」に基づいて開発されています。HAICoLabは、単にAI技術を活用していくだけでなく、AIの得意分野である膨大なデータの分析と人間の持つ発想や閃きをかけ合わせて「協奏していく」というコンセプトで成り立っているとのことです。 出典: 横浜ゴム「横浜ゴム、AIを活用したゴムの配合物性値予測システムを独自開発」 安全管理ソリューション こちらは当社ソリューションです。直接的な化学業界でのケースではありませんが、上でも触れたように多くの危険物を扱う実験現場やプラント工場では、研究員・作業員の安全確保が重要な取り組み事項に挙げられます。 Laboro.AIでは、作業現場に設置した監視カメラや携帯デバイス等の動画映像を元に、事前に学習させた特定の対象物や行動・シーンを自動で検出し、リアルタイムに危険な状況を察知したり、これらシーンの映像だけ簡単に見返せるようにすることで、ビジネス現場での安全管理業務の自動化・効率化を実現するソリューションを『安全管理ソリューション』として、個別開発を承っています。 ご参考: Laboro.AI 『安全管理ソリューション』 テクノロジーとビジネスの化学融合 膨大なデータを学習することにより規則性やパターンを見つけ出すことを得とするAI・機械学習技術は、化学業界においてさまざまな形で活用されています。とくにマテリアルズ・インフォマティクスの活用は注目度が高く、効率化や生産性向上はもちろんのこと、新たな新素材や組み合わせを発見することへの期待も高まっています。より軽量、より頑丈、より安価と、これまで以上に優れた素材が発見されることは、私たちの身の回りのあらゆる物の構造を変化させることへとつながり、ダイレクトに生活者へのプラス影響をもたらすはずです。 化学でのAI活用、中でもマテリアルズ・インフォマティクスは、機械学習の活用分野の中でもとくに産業のドメイン知識が深く求められ、難易度の高い領域の一つです。現在のAI技術の可能性と限界を知った上で、技術を適切な形で化学の知識と融合させていくことが、AI活用においては求められます。当社では「テクノロジーとビジネスを、つなぐ」というミッションを掲げていますが、まさに化学融合のように、AI技術と産業の2つのドメインが適切に組み合わさることが、次への進化をもたらすはずです。
アバター
To Get the Best Out of a BERT Model − BERTモデルを最大限に活用する − 2021.9.27 Laboro.AI Inc. Machine Learning Engineer Zhao Xinyi (※このコラムでは、当社が開発した機械翻訳モデルによる日本語訳を各セクションに掲載しています。翻訳文は、その性能を実感いただくことを目的に、いくつかの用語を置き換える以外は人手による修正は行なっておりません。そのため、一部文章に不自然な箇所も含みますことをご了承ください。) INTRODUCTION The pre-training of a BERT model was finally done, having taken quite a long time and plenty of computing resources. You can finally take a break and relax. But wait, can you? To adapt a BERT model to a down-stream NLP task, i.e. to put it into practical use, you definitely want to take full advantage of the BERT model and optimize its performance. Therefore, there are still several things to consider during fine-tuning. But the good thing is that you’ve found this article that can save you time fine-tuning the BERT models. For the scripts and detailed implementation instruction, please refer to our GitHub document . This article starts with comparing 10 Japanese BERT models. These models are pre-trained using various pre-training hyper-parameters, implementations, and even different training corpora. We evaluate all of them on three tasks and compare the best performance we obtained. Then we will introduce the fine-tuning strategy we applied when dealing with Japanese BERT models. The strategy, although includes miscellaneous tips on implementation, mainly focuses on how to correctly function tokenizers and how to efficiently tune hyper-parameters. To demonstrate how our strategy influences the fine-tuning results, more comparisons will be made with only one factor being changed. BERTモデルの事前学習は、かなりの時間と多くのコンピューティングリソースを費やして、最終的に完了しました。やっと休憩してリラックスできるわよ。しかし、待って、できるか。BERTモデルを下流のNLPタスクに適応させるには、すなわち、それを実用化するために、BERTモデルを最大限に活用し、その性能を最適化したい。したがって、ファインチューニング中に考慮すべき点がまだいくつかあります。しかしよい事はBERTモデルをファインチューニングする時間を節約できるこの記事を見つけたことである。スクリプトと詳細な実装手順については、 GitHubのドキュメント を参照してください。 この記事では日本のBERTモデルを10種類比較から始めます。これらのモデルは、さまざまな事前学習ハイパーパラメータ、実装、さらにはさまざまなトレーニングコーパスを使用して事前学習されています。これらすべてを3つのタスクで評価し、得られた最適なパフォーマンスを比較します。次に、日本のBERTモデルを扱う際に適用したファインチューニング戦略について紹介します。この戦略には、実装に関するさまざまなヒントが含まれていますが、主にトークナイザーを正しく機能させる方法とハイパーパラメータを効率的にチューニングする方法に焦点を当てます。当社の戦略がファインチューニング結果にどのように影響するかを示すために、1つの要因のみを変更してより多くの比較が行われます。 CONTENTS ・ Our Experiment Setup ・ Performance ・ Tokenizer  ・ Segmentation Algorithms  ・ Correctly Using the Tokenizer ・ Fine-Tuning Hyper-parameters  ・ Test Every Possibility  ・ Fit Your Model  ・ Unanswerable Questions ・ Final Thoughts Our Experiment Setup Japanese BERT models involved in this article are listed as follows. NAME SIZE TOKENIZER TRAINED BY LINK Laboro-large-unigram large unigram Laboro.AI Inc. link Laboro-large-BPE large Mecab(Jumandict) + BPE Laboro.AI Inc. link Laboro-base-unigram base unigram Laboro.AI Inc. link Laboro-base-BPE base Mecab(Jumandict) + BPE Laboro.AI Inc. link UKyoto-large large Mecab(Jumanpp) + BPE Kurohashi-Chu-Murawaki Lab link UKyoto-base base Mecab(Jumanpp) + BPE Kurohashi-Chu-Murawaki Lab link NICT-BPE Mecab(Jumandict) + BPE NICT link NICT-noBPE base Mecab(Jumandict) NICT link UTohoku-32k-WWM base Mecab(Neologd) + BPE Inui Lab link bert-wiki-ja base unigram Yohei Kikuta link As for the implementation, two main-stream ways include ● using the original code provided by Google based on TensorFlow ● using Transformers developed by Hugging Face based on PyTorch Besides the fact that the deep learning frameworks are different, another main difference is that the original Google code has better support for pre-training using TPU, which can vastly speedup the pre-training compared to GPU. On the other hand, with all the built-in modules, Transformers comes in very handy with fine-tuning and evaluation. Fortunately, you can easily  convert a Tensorflow checkpoint to a PyTorch checkpoint , so it’s possible to take advantage of both. In our case, all the models were pre-trained with TPU based on Google’s source code, and then they were converted into PyTorch checkpoints and evaluated using Transformers. All models are tested on 3 tasks, two of which were already introduced in our previous articles  in Japanese  and  in English . You should take a look if you want more details, since we’ll only briefly introduce them here. LDCC is a news classification task. DDQA is a QA task in SQuAD v1.1 format, which means all the questions are answerable. In contrast, RCQA is a QA task in SQuAD v2.0 format. Comparing to SQuAD v1.1, in order to better simulate the actual situation that the articles might not include the what you’re looking for, SQuAD v2.0 added questions that cannot be answered. 私たちの実験セットアップ この記事に登場する日本のBERTモデルは、以下の通りです。 実装に関しては、主に2つの方法があります。 ●TensorFlowをベースにGoogleが提供しているオリジナルコードを使用 ●PyTorchをベースにHugging Faceで開発したTransformersを使用 ディープラーニングフレームワークが異なるという事実に加えて、もう一つの大きな違いは、オリジナルのGoogleコードはTPUを使用した事前学習のサポートが優れていることです。GPUと比較して、事前学習を大幅に高速化できます。一方、すべてのビルトインモジュールを使用すると、Transformersはファインチューニングと評価に非常に便利です。幸いなことに、 TensorflowチェックポイントをPyTorchチェックポイントに簡単に変換できる ので、両方を利用することができます。今回のケースでは、Googleのソースコードに基づいてすべてのモデルをTPUで事前学習し、PyTorchチェックポイントに変換してTransformersで評価しました。 すべてのモデルは3つのタスクでテストされ、そのうちの2つは以前の記事で 日本語 と 英語 で紹介されています。ここでは簡単に紹介しますので、詳しく知りたい方はそちらをご覧ください。LDCCはニュース分類タスクです。DDQAはSQuAD v1.1形式のQAタスクです。一方、RCQAはSQuAD v2.0形式のQAタスクです。SQuAD v1.1と比較して、記事に探しているものが含まれていない実際の状況をよりよくシミュレートするため、SQuAD v2.0では回答できない質問が追加されました。 Performance Before talking about the fine-tuning strategy, let me list the best performance we obtained for each model. We tuned the hyper-parameters and then selected the best result for each model on each task. Take note that the two models pre-trained by Kurohashi-Chu-Murawaki Lab of Kyoto University have a max sequence length of 128, while all the other models use 512. Accordingly, the max_seq_len in fine-tuning is set the same as the length used in pre-training. ● For LDCC task, LaboroBERT-base-BPE model gives the best performance, followed by the other three LaboroBERT models, and NICT-BPE model is barely as good as LaboroBERT-base-unigram model. ● While for the other two QA tasks, NICT-BPE model has the highest score, followed by the NICT-noBPE and UKyoto-large model. Laboro-large-BPE model also performs well on DDQA task. パフォーマンス ファインチューニング戦略について話す前に、各モデルで得られた最高のパフォーマンスをリストアップします。ハイパーパラメータを調整し、各タスクで各モデルに最適な結果を選択します。なお、京大黒橋・褚・村脇研究室で事前学習を受けた2つのモデルは最大配列長128本、その他のモデルは最大配列長512本です。したがって、ファインチューニングにおける max_seq_len は、事前学習で使用する長さと同じに設定されます。 ●LDCC タスクでは、LaboroBERT-base-BPE モデルが最高のパフォーマンスを発揮し、その後に他の3つのLaboroBERTモデルが続きます。NICT-BPEモデルはLaboroBERT-base-unigramモデルとほとんど変わらない。 ●その他2つのQAについてはNICT-BPEモデルが最高得点、NICT-noBPEモデル、UKyoto-largeモデルが続きます。 DDQAタスクでも、Laboro-large-BPEモデルは優れたパフォーマンスを発揮します。 Tokenizer Segmentation Algorithms While most English BERT models adopt WordPiece, i.e. BPE tokenizer, Japanese models require more efforts on tokenization. It doesn’t have any whitespace to imply the word boundary due to the nature of the language. There are mainly two segmentation algorithms used in Japanese BERT models, ● unigram ● MeCab + BPE In the second situation, MeCab serves as the pre-tokenizer, and BPE serves as the subword tokenizer. We pre-trained two BERT models using the same corpus and hyper-parameters but different tokenizers. As for the implementation,  sentencepiece  is applied on both of our models, because it supports unigram and BPE at the same time. We are curious to see which model is better on which task, so we put their performance together in the graph above and made a comparison. ● The model using unigram tokenizer performs better on sentence classification (LDCC) task ● The model using BPE tokenizer performs better on DDQA task. This result makes sense. With both word and subword tokenization, BPE tokenizer tends to split a sentence into finer pieces. By doing this, the searching for starting and ending indices for the answer can be more accurate. ● For QA task with unanswerable questions as in SQuAD v2.0, unigram and BPE give very similar performance. This is probably because SQuAD v2.0 is a combination of classification and QA tasks instead of a simple QA task. ● For other models based on Japanese Wikipedia data, although they are not pre-trained with the exact same hyper-parameters, the same conclusions can be made when comparing  bert-wiki-ja  model using unigram tokenizer to other models using BPE tokenizers. トークナイザー セグメンテーションアルゴリズム ほとんどの英語のBERTモデルはWordPiece、すなわちBPEトークナイザーを採用していますが、日本語のモデルはトークン化により多くの努力が必要です。言語の性質上、単語境界を暗示する空白はありません。日本語のBERTモデルには主に2つのセグメンテーションアルゴリズムがあり、 ● unigram ● MeCab + BPE 2番目の状況では、MeCabがプリトークナイザー(pre-tokenizer)として、BPEがサブワードトークナイザー(subword tokenizer)として機能します。 同じコーパスとハイパーパラメータを使って2つのBERTモデルを事前学習しましたが、トークナイザーは異なります。実装に関しては、unigramとBPEを同時にサポートしているため、どちらのモデルにも sentencepiece が適用される。 どのモデルがどのタスクに優れているのか知りたいので、それらを上記のグラフにまとめて比較しました。 ● unigramトークナイザーを使ったモデルは、文分類(LDCC)タスクよりもパフォーマンスが優れています。 ● BPEトークナイザーを使用したモデルは、DDQAタスクでのパフォーマンスが向上します。この結果は理にかなっています。単語とサブワードの両方のトークナイザーで、BPEトークナイザーは文章をより細かく分割する傾向があります。これを行うことで、答えの開始インデックスと終了インデックスの検索がより正確になります。 ● SQuAD v2.0のような答えの出ない質問をするQAタスクでは、unigramとBPEは非常によく似たパフォーマンスを発揮します。 SQuAD v2.0は単純なQAタスクではなく、分類タスクとQAタスクの組み合わせであるからです。 ● 日本語Wikipediaのデータに基づく他のモデルでは、全く同じハイパーパラメータで事前学習はされていませんが、ユニグラムトークナイザーを使った bert-wiki-ja モデルとBPEトークナイザーを使った他のモデルを比較すると、同じ結論を出すことができます。 Correctly Using the Tokenizer To get the best out of a BERT model, you’ve got to use the tokenizer correctly. This seems needless to emphasize, but in fact, there are several points that are easily overlooked.The evaluation scripts are originally designed for English models, so be careful when adapting them for Japanese. In the tokenizer configuration, use_lower_case should always be set as False. If not, the Dakuten and Handakuten will disappear. Also, tokenize_chinese_chars should be set as False. The tokenize_chinese_chars function purposely adds whitespace around any CJK character, which might be convenient for other languages but not for Japanese. The CJK Unicode block only includes Chinese characters, so turning on the function would mess up the Japanese text. In order to make sure all the parameters are well set, I would suggest dumping everything in a  config_tokenizer.json  file. And don’t forget to doublecheck if the  config_tokenizer.json  is included when you download a model from online sources. Another thing that can be confusing is which tokenizer to use in Transformers,  BertTokenizer  or  BertJapaneseTokenizer . The  BertTokenizer  consists of two steps, ● basic tokenizer, in which the default is  tokenize_chinese_chars=true ● wordpiece tokenizer while the  BertJapaneseTokenizer  consists of two steps different from  BertTokenizer , ● word tokenizer with 2 options   ○ basic tokenizer, in which the default is  tokenize_chinese_chars=false   ○ mecab tokenizer ● subword tokenizer with 2 options   ○ wordpiece tokenizer same as the one in  BertTokenizer   ○ character tokenizer When  tokenize_chinese_chars=false , using the combination of basic tokenizer and wordpiece tokenizer from either  BertTokenizer  or  BertJapaneseTokenizer  stays exactly the same. Let’s see how much harm it can do to mistakenly configure the tokenizer. The graph below demonstrates the drop of the performance when setting the  tokenize_chinese_chars  wrongly as True (TCC=True), comparing to correctly setting it as False (TCC=False). In all of our experiments, the drop always happens no matter which model is evaluated on which task. Correctly configuring the tokenizer is the very crucial first step in fine-tuning. Any tiny mistakes can cause the performance to be worse than it’s supposed to be. So make sure you’re not missing anything in this step! トークナイザーを正しく使う BERTモデルを最大限に活用するには、トークナイザーを正しく使用する必要があります。これは強調する必要はないように思えますが、実際は見落とされやすい点がいくつかあります。評価スクリプトはもともと英語のモデル用に作られていますので、日本語に適応する際には注意が必要です。 トークナイザーの設定では、 use_lower_case は常にFalse に設定する必要があります。そうでない場合は、濁点と半濁点は消えます。また、 tokenize_chinese_chars はFalseに設定する必要があります。関数 tokenize_chinese_chars はCJK文字の周囲に意図的に空白を追加します。CJK Unicodeブロックには漢字しか含まれていないため、この機能をオンにすると、日本語テキストが散らかってしまいます。 すべてのパラメータが適切に設定されていることを確認するために、私は config_tokenizer.json ファイルにすべてをダンプすることを推奨します。また、オンラインソースからモデルをダウンロードする際には、必ず config_tokenizer.json が含まれているかどうかを再度確認してください。 Transformersで使うトークナイザー、 BertTokenizer や BertJapaneseTokenizer もわかりづらいです。 BertTokenizer は2つのステップで構成され、 ● デフォルトは tokenize_chinese_chars=true である基本的なトークナイザー(basic tokenizer) ● 単語分割トークナイザー(wordpiece tokenizer) BertJapaneseTokenizer は BertTokenizer と異なる2つのステップで構成されており、 ● 2つのオプションを持つ単語トークナイザー   ○ デフォルトは tokenize_chinese_chars=false である基本的なトークナイザー(basic tokenizer)   ○ mecab トークナイザー(mecab tokenizer) ● 2つのオプションを持つサブワードトークナイザー   ○ BertTokenizer と同じ単語分割トークナイザー(wordpiece tokenizer)   ○ 文字トークナイザー(character tokenizer) tokenize_chinese_chars=false の場合、basic tokenizerとwordpiece tokenizerの組み合わせは  BertTokenizer または BertJapaneseTokenizer のいずれも全く同じです。 トークナイザーを誤って設定してしまうと、どれだけ害が及ぶか見てみましょう。以下のグラフは、 tokenize_chinese_chars がFalse(TCC=False)として正しく設定した場合に比べ、True(TCC=True)に設定した場合のパフォーマンス低下を示しています。すべての実験で、どのモデルがどのタスクで評価されても、落下は必ず起こります。トークナイザーを正しく設定することはファインチューニングの最初のステップです。小さなミスを犯すと、想定以上にパフォーマンスが悪くなる可能性があります。そうこのステップに何も欠けていないことを確かめなさい! Fine-Tuning Hyper-parameters In general, hyper-parameters for fine-tuning should stay the same as those in pre-training, for example, the max sequence length. However, there are several exceptions that should be adjusted to fit the fine-tuning dataset: ● learning rate ● batch size ● number of training epoch In this section, we’ll discuss how to optimize the above hyper-parameters, as well as showing how max sequence length can influence the performance. In addition, in QA tasks with unanswerable questions, one parameter called  null_score_diff_threshold  should also be adjusted to fit the model. It’s technically not a hyper-parameter because it controls the evaluation process instead of the learning process. We would still like to include it here since it is an argument when you run the command. ファインチューニングのハイパーパラメータ 一般的に、ファインチューニング用のハイパーパラメータは、例えば最大配列長など、事前学習用のパラメータと同じに保つ必要があります。ただし、ファインチューニングデータセットに合わせて調整する必要がある例外はいくつかあります。 ● 学習率 ● バッチサイズ ● 学習エポック数 このセクションでは、上述のハイパーパラメータを最適化する方法と、最大配列長がパフォーマンスにどのように影響するかについて説明します。 さらに、答えの出ないQAタスクでは、 null_score_diff_threshold という1つのパラメータもモデルに合わせて調整する必要があります。これは技術的にはハイパーパラメータではありません。なぜなら、学習過程ではなく評価プロセスを制御しているからです。コマンド実行時の引数なので、ここでは含めたいところです。 Test Every Possibility As mentioned in Appendix A.3,  Devlin et al., 2019 , for the 3 hyper-parameters we do want to tune, their optimized values fall in these ranges for all tasks most of the time: ● batch size: 16, 32 ● learning rate: 5e-5, 3e-5, 2e-5 ● number of training epochs: 2, 3, 4 The fine-tuning usually doesn’t take too much time, so it wouldn’t hurt to simply try every possibility for your model. However, in our experiment, there are 10 models to evaluate. To get the best results, we exhaustively tested every learning rate while constantly set batch size as 16 and epochs as 3. You may be wondering if there is any pattern for the performance to change along with the hyper-parameters, so that we don’t really have to try every potential value, but let’s take a look at the graph below. The graph shows the accuracy change for LDCC task when using different learning rates, namely at 2e-5, 3e-5, and 5e-5. Unfortunately, no obvious pattern that suits every model can be found. Although it seems to go against your instinct, exhaustively trying every possibility is indeed the shortcut for tuning the hyper-parameters. あらゆる可能性をテストする 付録A.3,  Devlin et al. , 2019 で述べたように、調整したい3つのハイパーパラメータについて、それらの最適化値はほとんどの場合、これらの範囲に収まります。 ● バッチサイズ: 16、32 ● 学習率: 5e-5、3e-5、2e-5 ● 学習エポック数: 2, 3, 4 ファインチューニングは通常あまり時間をかけない、従ってあなたのモデルのためのあらゆる可能性を単に試みるために傷つかない。しかし、我々の実験では、評価すべきモデルが10種類あります。最良の結果を得るために、我々は常にバッチサイズを16、エポックを3に設定しながら、すべての学習率を徹底的にテストしました。パフォーマンスがハイパーパラメータとともに変化するパターンがあるかどうか疑問に思うかもしれません。しかし、下のグラフを見てみましょう。 このグラフは、異なる学習率(2e-5、3e-5、5e-5)を使用した場合のLDCCタスクの精度変化を示しています。残念ながら、どのモデルにも合う明白なパターンは見つかりません。それはあなたの本能に逆らっているようであるが、徹底的にあらゆる可能性を試みることは実際にハイパーパラメータを調節する近道である。 Fit Your Model While it is suggested using the same max sequence length in fine-tuning as in pre-training, we tried shorter length for some models on the 3 tasks to see how much worse the performance will become. We used 128 as the shorter length for LDCC task, and 384 for the other two QA tasks. There’s a big drop for the LDCC accuracy when the max sequence length is shorter, however, the performance for QA tasks is barely influenced by it. It does take more time and computing resources to fine-tune and evaluate when  max_seq_length  is longer. Therefore, it might not be a bad idea to shorten the  max_seq_length  for QA tasks when there’s no sufficient resources. モデルに適合する 事前学習と同じ最大配列長でファインチューニングすることを推奨していますが、3つのタスクでより短い配列長を試して、パフォーマンスがどれほど悪くなるかを調べました。LDCCタスクの短縮長は128、QAタスクの短縮長は384です。 最大配列長が短い場合、LDCC精度には大きな低下がありますが、 しかし、QAタスクのパフォーマンスは、ほとんど影響を受けません。 max_seq_length がより長い場合、ファインチューニングに多くの時間と計算資源がかかります。したがって、十分なリソースがない場合、QAタスクの max_seq_length を短くすることは悪くないかもしれません。 Unanswerable Questions For QA tasks with unanswerable questions, adjusting null_score_diff_threshold can further improve the performance. Judging if the answer exists is actually a classification task. It is done by comparing the score of the most possible non-null answer to the score of not having an answer. In mathematical language, when s non-null  > s null  + τ, it predicts a non-null answer. The  τ  serves as a threshold, and according to Devlin et al., 2019, the threshold that maximizes the F1 for the dev set should be selected. When evaluating on the dev set using Transformers, it automatically calculates the  best_f1_thresh . So don’t panic even if the performance is not ideal. Apply this threshold to the test set and usually, although it’s not always the case, the performance gets better. As shown in the graph below, for all the models we tested, applying  null_score_diff_threshold  improves the EM and F1. Classifying if a question is answerable is crucial for tasks like SQuAD v2.0 or RCQA, however, in the actual evaluation, most efforts are put in finding the start and end position of the answer. While there’s not much information for the classification,  null_score_diff_threshold  is one of the few parameters we can seize and utilize. 答えの出ない質問 質問の答えの出ないQAタスクでは、 null_score_diff_threshold を調整するとパフォーマンスがさらに向上します。答えが存在するかどうかを判断することは、実際には分類タスクです。それは答えを持っていないことのスコアと最も可能なnullでない答えのスコアを比較することによってされる。数学言語では、s non-null  > s null  + τ の場合、nullでない回答を予測する。 τ は閾値であり、2019年にDevlinらにより、dev setのF1を最大化する閾値が選択されるべきである。 Transformersでdev setを評価した場合、自動的に best_f1_thresh を計算します。だから、パフォーマンスが理想的ではなくてもパニックになりません。テストセットにこのしきい値を適用し、通常、常にそうではありませんが、パフォーマンスが向上します。 以下のグラフのように、テストしたすべてのモデルで、 null_score_diff_threshold を適用することで、EMとF1が向上します。SQuAD v2.0 や RCQA などのタスクでは、質問に回答できるかどうかの分類が重要です。しかし、実際の評価では、ほとんどの努力は答えの開始位置と終了位置を見つけることです。分類のための情報はあまりありませんが、 null_score_diff_threshold は取得して利用できる数少ない引数の1つです。 Final Thoughts From the strategy for fine-tuning, we can also summarize some valuable advice for pre-training. For example, the max sequence length usually follows the rule the longer the better, and the type of tokenizer tends to influence the performance on certain tasks. Fine-tuning a BERT model is tricky and needs a lot of patience. There is always a reason when the results are lower than expected, and the reason is probably already mentioned in this article. Find the reason and fix it, and you are back on track. 最終的な思考 ファインチューニングのための戦略から、事前学習のためのいくつかの貴重なアドバイスを要約することもできます。たとえば、最大配列長は通常、ルールが長ければ長いほど、トークナイザーの種類は特定のタスクのパフォーマンスに影響する傾向があります。 BERTモデルのファインチューニングは難しく、忍耐が必要です。結果が予想より低い理由が常にあり、理由はおそらくこの記事で既に述べられている。理由を見つけて修正すれば、軌道に戻ってきます。
アバター
新・食体験に挑む。食品AIの可能性 2021.9.7 概 要 飽食の時代。こと国内においては食べることについては困ることもなくなり、豊かな食生活を送れるような時代を迎えました。ですが食品業界には、豊かだからこその課題も少なからず存在しています。現代の食品業界が抱える課題、そしてそれら課題に対するAI活用の可能性を今回のコラムでは探っていきたいと思います。 目 次 ・ 食品業界の現在の課題  ・ 食品ロス問題  ・ 商品数の増加  ・ 消費者にとっての選択肢の増大 ・ 食品業界でのAI活用事例  ・ 献立のパーソナライズ&レコメンド  ・ 需要予測  ・ 食品原料検査  ・ 食品原料の選別 ・ 豊かな時代こそのAI活用を 食品業界の現在の課題 私たち消費者にとっても身近な食品業界だからこそニュースでも見聞きすることが多い内容ではありますが、食品事業を展開する企業にとっては、豊かなこの時代ならではの課題が複数存在しています。 食品ロス問題 SDGsの目標12「つくる責任とつかう責任」で食品ロスが取り上げられていることもあり、食品業界の多くの企業にとって関心の高い内容かと思いますが、近年、食品ロス問題に注目が集まるようになっています。 総務省人口推計によると、平成30年度における国民1人あたりの食品ロス量は年間約47kgにも上り、1日にすると茶碗1杯分のご飯に相当する130gを私たちは廃棄していると言われています。家庭系と事業系に分けられる食品ロスのうち、事業系食品ロスは54%を占めており、外食産業なども含めた食品業界全体の課題であることが分かります。 出典: 農林水産省「食品ロスとは」 商品数の増加 近年、顧客ニーズが多様化し、年齢や性別だけでなく地域や季節などにも合わせた細かいシーズナリティに合わせるなど、マーケティング活動が緻密になっていくにつれ、企業間の新商品開発競争は激化・細分化の一途です。従来の少品種を大量生産する戦略から、多彩な商品を少量で展開する多品種少量生産が主流となっていますが、多品種少量生産は顧客ニーズに合わせた商品開発が可能というメリットがある一方で、新商品を次々と開発しなければならず、製品ライフサイクルが短期化し、原料調達や製造フローがより複雑にもなり、管理コストが増大することが考えられます。 消費者にとっての選択肢の増大 『選択の科学』という書籍が以前話題になりましたが、消費者にとっての選択肢が増えることは良い面だけでなく、負の側面があることにも注目すべきかもしれません。 インターネットから気軽に商品情報やレシピを取得できる時代になり、朝の献立一つをとっても様々な選択肢から考えられる時代になってきました。一方で、膨大な食料品やレシピの中からどれを選択すれば良いのか迷う、あるいは体作りに良いレシピを学んでも結局どのように毎日の献立を計算すれば良いのか方法が多すぎて分からないなど、選択肢の多さがストレスを与える要因になる可能性も否定できません。いかにストレスの少ない食生活・食体験を提供するか、こうした一般家庭における食に関する悩みも、食品業界にとっての課題の一つだと考えられます。 食品業界でのAI活用事例 上にあげた全ての課題を完全に解決するものではありませんが、近年、食品業界でもAIの活用が進み、いくつかの方面で成果が出始めています。直接的な影響が少ないものも含みますが、代表的なAI活用事例を以下にご紹介していきます。 献立のパーソナライズ&レコメンド 味の素が消費者向けに開発しベータ版を提供しているのが、トップアスリート向けに培われてきた栄養計算やサポート知見を一般のアスリートにも提供することをコンセプトにした、自動献立提案AIアプリ「勝ち飯®AI」です。 トップアスリートが実践しているような食事の提供は、小中学生のような一般アスリートを持つ保護者にって簡単なものではありません。「子どもの頑張りをサポートしたい」という思いを持ってインターネットなどで献立を調べても、栄養計算が難しく、どう献立を組み立てるかわからないといった声は少なくありません。 勝ち飯®AIでは、「ビクトリープロジェクト®︎」として味の素で取り組まれてきたトップアスリート向けの食事サポートや栄養計算基準をアルゴリズム化。ユーザーが性別・体重などの基礎情報のほか、競技種目・目標体重、日々の食事記録などを登録することで、一人一人に最適化された献立を10日分提案するということを実現しています。 出典: PR TIMES「味の素㈱がアスリート向け献立提案AIアプリ「勝ち飯®AI」β版を開発 ユーザテストを開始」 (※画像はイメージです。実際の内容を表すものではありません。) 需要予測 どの商品がどの程度売れるのかという需要予測の正確性が増せば、食品ロス問題の解決に加え、生産性の向上も期待できます。「AI需要予測」を謳ったAIプロダクトも多く見られるようになってきましたが、一方で、そもそも“需要”というもの定義することが難しい上、例えば売上や天候といった限られたデータのみから需要を導き出してしまうと偏った予測の原因にもなりかねません。 ある豆腐メーカーもこうした需要予測の難しさに悩まされていました。この豆腐メーカーでは、日本気象協会が発表する「豆腐指数」を参考にしながら、人による微調整も含めて製造を進めたところ、作りすぎた量はたった0.06%、年間1,000万円もの無駄の削減に成功したと言います。日本気象協会が発表する「豆腐指数」は、販売数や過去の気温の変化などはもちろん、湿度や風の量などに加えて、AIがTwitter上の体感気温に関する投稿を分析することを通して、豆腐がどの程度売れるかの指数を算出するというものとのことです。 出典: NHK「食品の需要予測はAIで」 (※画像はイメージです。実際の内容を表すものではありません。) 食品原料検査 食品原料の検査は食品業界においても重要な業務ですが、これまでは機械による検査の精度が低く、信頼性も低いとされていました。少し古い事例となりますが、食品大手であるキユーピーでも、それまで1日100万個以上のダイスカットポテトの検品を人の目で行っていたことから、さまざまな企業の協力を得ながらAIによる良品学習型検査装置を開発し、検査制度100%を実現したと言います。 ここでは、AIの中でも特に高い精度での処理が期待できるディープラーニング技術が使用されています。また、不良品を取り除くのではなく、良品を検出するというアプローチにより、高い精度で安心・安全を提供できるようになったとしています。 出典: ITmedia「キユーピーがAI導入、1日100万個以上のポテトをさばく「ディープラーニング」の威力」 (※画像はイメージです。実際の内容を表すものではありません。) 食品原料の選別 農作物の多くは等級によって選別され、それぞれ梱包して出荷されていきますが、その選別作業にはベテランの長年の勘が必要なケースもあります。 ある個人農家では、Googleが公開している機械学習ライブラリ「TensorFlow」を用いてキュウリの画像を大量に学習させ、キュウリを9つの等級に分けるシステムを開発・活用しています。その選別の精度は8割と高く、ベテランの目を頼らずとも自動で振り分けまで行うことが目指されていますが、振り分けまで自動で行うとキュウリの新鮮さを表すイボが機械で取れてしまうとの課題もあり、選定はAIが行い、実際の振り分けは人間が行うというフローで運用されているとのことです。 出典: SMART AGRI「キュウリ農家によるAI自動選別機の最新版【窪田新之助のスマート農業コラム】」 (※画像はイメージです。実際の内容を表すものではありません。) 食品業界そのものだけでなく、収穫・製造された食品を販売する小売業界でも、様々な形でAIの活用が進められています。とくに小売業界では、需要予測や発注業務の効率化、顧客の行動分析などにAIによる成果が報告されています。 Laboro.AIコラム 「POSからの脱却。小売AIの進化と可能性」 豊かな時代こそのAI活用を 数多くの食品・食料品が簡単に手に入るようになり、私たち消費者の選択肢の幅も非常に広くなりました。その一方で、食品ロス問題や商品数の増加、ストレスの増大など、現代特有の課題も食品業界では表出化してきています。消費者の新・食生活、新・食体験を提供していくにあたってAIの活用は重要テーマの一つですが、AIは基本的に単機能であり、全てを解決する万能なAIが開発されることは今後もあり得ません。一つ一つのビジネス上の課題を明確に捉え、それに合わせてAIという技術をどう活用していくか、真剣に向き合う段階に入ってきたのかもしれません。
アバター