“木を見て森を見る”ように。「キーポイント検出」を解説 2020年10月7日 機械学習エンジニア 濱本 雅史 概 要 画像に写っている人などの対象物の特徴点を検出する「キーポイント検出」は、画像解析の領域でも主要なトピックの一つです。オープンソースで公開されているモデルも多くあるほか、ビジネスシーンでも人体等の骨格検出や姿勢推定に利用されるなど多くの事例が生まれています。 このコラムでは、キーポイント検出の概要と、そこで用いられる代表的な手法について最新の研究も踏まえてご紹介していきたいと思います。 目 次 ・ キーポイント検出とは ・ キーポイント検出のビジネス応用例 ・ キーポイント検出の全体像 ・ キーポイント検出の2つのアプローチ ・ Top-Downアプローチ ・ Bottom-Upアプローチ ・ Top-Downアプローチの代表的な手法 ・ DeepPose ・ Mask R-CNN ・ Cascaded Pyramid Network(CPN) ・ SimpleBaseline ・ HRNet ・ Bottom-Upアプローチの代表的な手法 ・ OpenPose ・ PoseNet(PersonLab) ・ Associative Embedding ・ PifPaf ・ HigherHRNet ・ まとめ ・ 参考文献 キーポイント検出とは キーポイント検出(keypoint detection)は、応用範囲によっては姿勢推定(pose estimation)とも呼ばれ、入力された画像から複数の座標点(keypoint)を出力し、その全体像を捉える技術です。 言うなれば「木(点)を見て、森(全体)を見る」ことを得意とする技術ですが、検出のイメージとしてよく人の骨格がカラフルな線で示されることがあります。ですが、キーポイント検出技術そのものは点を出力するモデルのため、これらの線は、実は視認性を上げるための工夫としてモデルとは別に表示されています。 またキーポイント検出では、目や肩、手といった人のパーツを検出するにあたっては、その周囲のパターンを見れば推測できるはずという仮定がベースになっており、「肩と肘はつながっている」というような点同士の接続情報は、通常使用されません。 キーポイント検出のイメージ これが意味するところは、人体の検出のみに使用できると思われがちなキーポイント検出ですが、物体の点の特徴がわかれば、人体以外への応用もできるということです。実際にごく一部ではあるものの、人体以外への活用例もみられるようになってきています。 (人体以外のキーポイント検出については、こちらのコラム『 対象は人だけじゃない。「非人体キーポイント検出」の可能性と実例 』でご紹介しています。) キーポイント検出のビジネス応用例 キーポイント検出は、様々な用途でビジネスシーンで活用されています。例えば、 ・運輸業 → 運転者の異常検知 ・スポーツ、医療、教育等 → 人体の動作解析 ・アミューズメント →バーチャルキャラクターへの動作マッピング ・安全保障 → 異常行動の検知 また、国内のAI開発企業も、キーポイント検出技術を活用した以下をはじめとする様々な研究開発を行っています。 ・ 競走馬の姿勢推定・歩行動作差分の比較技術 ・サッカーのシーン推定と選手の姿勢推定 ・野球特化の姿勢推定アプリケーション キーポイント検出の全体像 キーポイント検出は、「画像から特徴点を検出する技術」と言えますが、そもそも何を検出ターゲットにするのかでタスクが異なります。人の顔のみに対象を絞り、細かく特徴点を検出する顔のランドマーク検出(facial landmark detection)や、顔も含んだ体全体の特徴点による姿勢推定(pose estimation)などです。以下からは、姿勢推定に絞って解説していきます。 キーポイント検出は、2Dと3Dでもタスクが分かれます。2Dの場合は、推定したい点の\((x, y)\)座標を推定しますが、3Dの場合は\((x, y, z)\)の3点の座標を推定することが必要になります。当然3Dの方が難易度が高い一方で、近年は3Dキーポイント検出に関する研究が盛んに行われるようになっています。 3D姿勢推定のイメージ (出典: In the Wild Human Pose Estimation Using Explicit 2D Features and Intermediate 3D Representations ) さらに、推定対象となる人数でも、一人のみの検出(Single-Person)か、複数人(Multi-Person)の検出かが異なります。 Multi-Person検出のイメージ (出典:Youtube, Recurrent Spatio-Temporal Affinity Fields (STAF) ) また、最終的な出力方法についても2つのアプローチがあります。座標を直接出力する回帰、またピクセル単位でスコア(確率)を与えるヒートマップです。最近のメジャーな手法の多くはヒートマップで行われています。 ヒートマップからのキーポイント検出のイメージ (出典: Vehicle Pose and Shape Estimation through Multiple Monocular Vision ) キーポイント検出の2つのアプローチ 上で紹介した様々なタスクのうち、ディープラーニングをベースにした複数対象の検出には大きく2つのアプローチがあります。 Top-Downアプローチ Top-Downアプローチは、まず画像中の対象物を検出してから、その後に対象物ごとの座標点を推論する手法です。 Multi-PersonからSingle-Personに問題を落とすやり方で、Faster R-CNNなどの既存の物体検出手法を利用することが基本です。 後述するBottom-Upアプローチに対して、人物部分の切り出しと拡大縮小を行えるため、人物の大小の影響を受けづらく精度が出やすい手法です。一方で検出人数が増えると検出速度が低下する上、人が密集していると重なりの影響で物体検出自体に苦戦するというデメリットがあります。 Bottom-Upアプローチ 一方のBottom-Upアプローチは、画像中の座標点を“対象物の違いを考えずに”全部検出し、その後に座標点同士をグルーピングし、ここの対象物の座標点として出力する手法です。 Top-Downアプローチのように物体検出を行わないため、人数に影響されず比較的高速に行える点にメリットがありますが、人物の大小に影響を受けやすいというデメリットがあり、特に画像中に小さく写っている人物の検出が難関になるケースが少なくありません。 高速であるため、リアルタイムでの検出が求められる場合にはBottom-Upアプローチが有効ですが、検出対象が一つしかない場合には、返ってTop-Downアプローチよりも遅くなる場合もあることが報告されています( 参考文献⑥ )。そのほか、グルーピング(クラスタリング)というTop-Downアプローチにはない問題を解く必要があるなど、それぞれのシーンに応じて使い分けることが必要になります。 次からは、Top-DownアプローチとBottom-UPアプローチのそれぞれについて、代表的な手法を紹介していきたいと思います。 Top-Downアプローチの代表的な手法 DeepPose DeepPose( 参考文献① )は、キーポイント検出にディープラーニングを適用した最初の手法です。その手順は、最初に画像全体からおおまかな関節点を予測し、その後に各点の周辺を切り出して再度検出し・・・と多段で精密化(refinement)を行い、検出された点は回帰として出力されます。ディープラーニングを用いているものの、精度はそれ以前の手法と比べてそれほど大きく改善はしていません。 (出典: 参考文献① ) Mask R-CNN Mask R-CNN( 参考文献② )は物体検出分野でよく知られる手法ですが、maskを推論する代わりに、各座標点のヒートマップを推論することでキーポイント検出を実現します。世界的にも比較実験などでよく用いられる手法ですが、Top-Downアプローチの中では最下位ランクに位置付けられることもあり、現在ではそれほど高精度な手法とは言えません。 Mask R-CNNによるキーポイント検出のアーキテクチャとイメージ (出典: Deep Learning for Instance-level Object Understanding ) Cascaded Pyramid Network(CPN) ここ1〜2年のTop-Downアプローチの論文で必ずと言っていいほどベンチマークとして出てくるのが、このCascaded Pyramid Network( 参考文献③ )という手法です。CPNは、物体検出におけるFeature Pyramid Networkを前段(GlobalNet)で行い、後段(RefineNet)でその特徴量を組み合わせて推論することで、高い精度を実現した手法です。 (出典: 参考文献③ ) SimpleBaseline 名前からはネットワークには見えませんが、このSimpleBaseline( 参考文献④ )もれっきとしたTop-Downアプローチの手法の一つです。ネットワークとしては非常にシンプルで、単に畳み込み(convolution)と逆畳み込み(deconvolution)をしただけですが、結果的に既存の手法を上回る結果を残している手法です。(※厳密にはバックボーンネットワークの種類や畳込み/逆畳み込みの数によります。) HRNet コンピュータービジョンの世界的なカンファレンスCVPR2019で採択された論文で提案されたのが、HRNet( 参考文献⑤ )です。 これまでの手法は低解像度(ResNetの1/32)の特徴マップから高解像度に復元するネットワーク構成が主流でしたが、HRNetでは高解像度の特徴マップをベースにしたネットワークが提案されました。 具体的には、最初に2回畳み込みを行い、入力を1/4の解像度のstemにしますが、以降はこの1/4解像度を保ち続けるネットワークパスをベースにするというものです。 HRNet自体は姿勢推定に限定されるものではなく、画像分類(image clasification)、物体検出(object detection)、セマンティックセグメンテーション(semantic segmentation)も可能なネットワークです。 (出典: 参考文献⑤ ) Bottom-Upアプローチの代表的な手法 OpenPose Bottom-Upアプローチの一つ目の手法としてご紹介するのが、OpenPose( 参考文献⑥ )です。この手法は、処理速度が入力画像中の人物の数に依存せず、非常に高速にキーポイント検出ができる特徴があります。 多人数のリアルタイム2D姿勢推定ソフトウェアとして初めてオープンソースとして公開されたとされています。(非商用のみ無料) PoseNet(PersonLab) 次に紹介するPoseNet( 参考文献⑦ )は、論文としてはPersonLabという名前で提案されている手法で、姿勢推定とインスタンスセグメンテーション(instance segmentation)を同時に行うことが可能です。 TensorflowのJavascript用フレームワークであるTensorFlow.js公式のモデルの一つとして公開されており、Webカメラからの画像を即座にブラウザ上で解析してリアルタイム表示できるというデモが公開されています。 (出典: Tensorflow ) Associative Embedding Associative Embedding( 参考文献⑧ )は、機械学習のトップカンファレンスNeurIPS2017で提案された手法です。 ネットワークの出力として、通常利用する各関節点らしさのヒートマップに加え、グルーピングに利用するタグ値を与える埋め込みヒートマップ (embedding heatmap)を別チャネルとして出力します。 実装上は既存のBottom-Upモデルの出力ヒートマップのチャネルを2倍し、タグ値を計算するための損失関数を追加するだけとシンプルですが、実験結果ではSOTAを達成しています。なお、One-Stageの物体検出で2019年にSOTAを達成したCornerNetもこのAssociative Embeddingに影響された手法です。 (出典: 参考文献⑧ ) PifPaf CVPR2019で発表されたPifPaf( 参考文献⑨ )は、コラムのはじめに通常使用されないとお伝えした点同士の接続情報を使用する例外的な手法です。Part Intensity Fields(PIF:キーポイント情報)とPart Association Field(PAF:接続情報)の2種類の情報を同時に並列計算することで高速・高精度を達成した手法です。 特徴マップの各セルにおいて計算されるPAFの接続情報は、接続している関節点のペア毎に、各関節点方向へのベクトル\((x, y)\)と幅\(b\)、 およびその確信度の計7つの値(7チャネル)で表現されます。PIFで得られる各関節点に対してこのPAFによる接続情報を使って連結対象を見つけることで、最終的な結果が得られます。 公式実装(OpenPifPaf)が公開されており、PoseNet同様にWebカメラとブラウザで動くリアルタイムデモがあります。 HigherHRNet 今年の6月に開催されたCVPR2020で報告されたばかりの手法が、HRNetを改良したHigherHRNet( 参考文献⑩ )です。 HihgerHRNetは、HRNetをバックボーンとし、Bottom-Up用の出力をチャネル・ネットワークを追加したものです。 HRNetでは最終的な特徴マップの解像度が入力画像の1/4でしたが、 HigherHRNetではさらに逆畳み込みをした1/2の解像度の特徴マップも生成します(ここが“Higher”なる部分)。この2種類の解像度の特徴マップから得られるヒートマップを集約することで、Bottom-Upアプローチの課題だった画像中の小さいサイズの人物に対する検出も、高精度に推論できることを狙っています。 論文では、HRNetの出力特徴マップに、Associative Embeddingと同様に関節点らしさのヒートマップとタグ値の埋め込みヒートマップを追加しただけのものを、ベースラインのBottom-Up HRNetとして比較実験しており、これだけでも良い精度を示しており、少なくともOpenPoseには完勝しています。 これまでのBottom-Upアプローチの手法よりも高精度な結果(SOTA)を達成しており、とくにCrowdPoseデータセットという、既存のベンチマークデータセットより多人数にフォーカスしたデータセットについてはTop-Down手法にも優っています。 (出典: 参考文献⑩ からの抜粋に筆者加筆) まとめ このコラムではキーポイント検出と呼ばれる技術について、その概要と代表的なアプローチと手法をご紹介してきました。キーポイント検出の技術は引き続き様々な手法が検討されていて、より精緻な検出に向けて日々進化しており、様々なシーンでの活用が今後も見込まれます。 また、冒頭にも書きましたが、主に人体に限って用いられがちなキーポイント検出ですが、実際には車や機械をはじめ、様々な対象の検出への応用も期待されます。人体以外のキーポイント検出については、機会を改めてご紹介したいと思います。 参考文献 ① DeepPose: Human Pose Estimation via Deep Neural Networks ② Mask R-CNN ③ Cascaded Pyramid Network for Multi-Person Pose Estimation ④ Simple Baselines for Human Pose Estimation and Tracking ⑤ Deep High-Resolution Representation Learning for Human Pose Estimation ⑥ OpenPose: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields ⑦ PersonLab: Person Pose Estimation and Instance Segmentation with a Bottom-Up, Part-Based, Geometric Embedding Model ⑧ Associative Embedding: End-to-End Learning for Joint Detection and Grouping ⑨ PifPaf: Composite Fields for Human Pose Estimation ⑩ HigherHRNet: Scale-Aware Representation Learning for Bottom-Up Human Pose Estimation コラム執筆者 機械学習エンジニア 濱本 雅史 筑波大学大学院 システム情報工学研究科 博士後期課程修了。博士(工学)。在学中にデータマイニング・テキストマイニングの研究に従事。2008年よりエンジニアとして自然言語処理の研究開発を6年半経験。2015年よりBPM/EAIミドルウェアの製品導入コンサルタントを3年半経験。2018年10月よりLaboro.AIに参画。日本データベース学会 正会員。 その他の執筆コラム ・ 対象は人だけじゃない。「非人体キーポイント検出」の可能性と実例
最新HRテックはココまできた。AI研究のいまを探る 2020.9.8 機械学習エンジニア 山下 宙元 (現在はペンシルバニア州立大学 博士課程 在籍) 概 要 採用活動に退職予測、キャリア形成に至るまで、人材領域でのデータ活用がここ数年で改めて注目されはじめ、日本でのビジネス導入・活用事例も多く見られるようになってきました。 このコラムでは、HRテックと呼ばれる領域において、どのようなAI研究事例があるのかを直近5年以内の情報系のトップカンファレンス採択論文からピックアップしながら解説し、HRテックの最新動向をチェックしていきたいと思います。 目 次 ・ 「HRテック」とは ・ HRテックの最新研究 ・ ① スキル推定 ・ ② 企業分析 ・ ③ 退職予測 ・ ④ キャリア予測 ・ まとめ ・ 参考文献 「HRテック」とは 「HRテック」は、Human Resources Technologyの略称で、文字通り“人材領域における技術およびその活用”を意味します。人材データをメインに使用して分析を行うことから、People AnalyticsやTalent Analyticsと呼ばれることもあります。 人材領域で取り組むべきタスクには、採用活動にはじまり、パフォーマンス予測や従業員のウェルビーイング向上、退職予測など、多岐に渡るトピックがあります。以下は、HRタスクの例を図にしたもので、新規採用など外部に向けたタスクである「外部人事」と、社内に対する「内部人事」、またそのタスクの実行者として「企業・人事部」「求職者・従業者」の視点からマトリックスにしています。 HRタスクの例(筆者作成) わかりやすさを優先してシンプルなマトリックスで分けていますが、それぞれのタスクが相互に関係していることも、もちろんあります。従来は、採用活動ひとつとっても経験や勘による意思決定が当たり前に行われていましたが、昨今の急速なデータ増加や分析ツールの進化により、上記の様々な分野でデータを根拠とした活用事例が多く見られるようになってきました。 こういった多種多様な人材領域の課題をデータやテクノロジーによって解決していくこと、またはその技術そのものを「HRテック」と呼びます。 HRテックの最新研究 以降では、とくに最新の研究事例を追うことを目的に、マトリックスの4つのブロックからそれぞれひとつずつピックアップし、 ① スキル推定 ② 企業分析 ③ 退職予測 ④ キャリア予測 の4テーマに関する最新AI研究を紹介していきます。 今回はデータマイニング・WEB・AIの世界的トップカンファレンスである ・KDD(ACM SIGKDD International Conference on Knowledge Discovery and Data Mining) ・WWW(The Web Conference ※以前はInternational World Wide Web Conference) ・AAAI(Association for the Advancement of Artificial Intelligence) に採択された論文のうち、HRテックに関連する研究を直近5年以内のものに絞ってピックアップしました。 ① スキル推定 研究の概要 まず、2019年のKDDでLinkedInが発表した研究 “ Social Skill Validation at Linkedin ” (参考文献①)をご紹介します。 LinkedInのプラットフォーム上でユーザーは、キャリアやスキルセットを自己申告ベースで登録することができますが、すべてのユーザーがスキルを記入するわけでなく、また常に最新のスキルが記入されているわけでもありません。このスキルデータの不足を補うために、6億人以上いるユニークユーザー(UU)の力を借りて、他者評価によりスキルセットや専門性を収集しようというフレームワークが、”Social Skill Validation”です。 具体的には下図のようなプロモーションをユーザーに提示してスキル評価をさせます。評価のための選択肢の提示はロジスティック回帰とXGBoostにより行い、客観性を担保できるスキル評価を目指しています。 今回得られた他者評価ベースのスキルデータの有効性を検証するために、実際に転職済のユーザーのデータを使用してジョブディスクリプションに書かれているスキルセットを元に正解データを定義したところ、2016年に提案していた協調フィルタリングベースのみのスキル予測よりも10%高いAUC(Area Under the Curve:判別能力を示す指標)となることが報告されています(具体的なAUCは明示されていません)。 (出典: 参考文献① ) ポイント Social Skill Validationは、スキルデータの欠如を予測だけで補うのではなく、人の手で補うというアイデアがポイントです。これはUU数が6億人以上いるLinkedInならではのフレームワークとも言えます。 さらに人がどのように他者評価するのかという傾向も垣間見ることができ、例えば上司が部下に比べて必ずしもポジティブな評価を受けているわけではないこともわかりました。これは計算社会科学の観点からも面白い結果かもしれません。 活用の可能性と難易度 今回提案されたフレームワークのように、群衆の力によるデータ拡張は自社プラットフォームに存在するUU数が膨大に多ければ応用可能だと思われます。裏を返せば、このようなデータ拡張手法はリソースもユーザー数も大きい、限られたサービスだからこそスケールすることに留意する必要があり、人手による精度向上とそこにかかるコストとのバランスを考えて導入を検討することが重要です。 ② 企業分析 研究の概要 続いて、2020年のWWWでのBaiduによる研究、” Large-Scale Talent Flow Embedding for Company Competitive Analysis “(参考文献②)で、 人材の流動データ(Talent Flow)を使用して企業をembedding(埋め込み)する手法を提案しています。 提案モデル (出典: 参考文献② ) 具体的にはLinkedInなどの大規模レジュメデータを使用して、ユーザーが「企業u→企業vに転職した」という転職ネットワークを作成します。これはノードを企業、エッジを人材の流れ、移動人数を重みとみなすことで有向グラフで表現でき、Personalized PageRank (PPR) proximityによって競合度合いが計算されます。なおPPRとはグラフデータのノードの関連性を表す際に使用される手法で、詳細は こちら(参考文献③) をご参照ください。 提案するTalent Flow Embedding (TFE)では企業uの人材が他社へ引き込みこまれるベクトルと、企業uが他社から人材を引き込むベクトルの2次元で表現するattraction vectorsを作成することで、企業を表現します。PPR proximityの分布とランダムウォークで近似した分布のKLダイバージェンスを最小化することにより本モデルを構築します。そして有効性検証のためリンク予測により定量評価を、可視化により定性評価を行いました。 リンク予測の結果 (出典: 参考文献② ) ポイント これまでの競合分析は企業側のデータを使用した古典的アプローチのものが多かった一方、この研究ではユーザー側のデータを利用してグラフベースの表現をするという点がポイントです。提案手法はリンク予測においてAUC0.9以上という高精度となっており、さらにケーススタディではGoogleの競合企業を可視化したり、ベクトルをクラスタリングすることにより、定性的にも納得の行く結果となりました。 GoogleとFacebookの競合20位(出典: 参考文献② ) クラスタリング結果(出典: 参考文献② ) 活用の可能性と難易度 Graph Embeddingで会社を分散表現するという面白いアイデアですが、同じような転職パターンが複数回必要であることが前提となるため、このデータ収集がもっとも大変です。本研究においても800回以下の登場回数の企業は前処理段階で除外されており、最終的に使用されたデータ数は企業数が15,244、転職数が7,066,978となっています。 また今回ベンチマークとして使用されているnode2vec・DeepwalkでもAUCは0.8以上になっており、クイックに実装するならシンプルにnode2vecを使用するのも手かもしれません。ユーザーの会社移動データから企業の分散表現を獲得するという研究事例は、他にもLinkedInからも発表されており こちらの研究(参考文献④) も参考になります。 ③ 退職予測 研究の概要 2019年のAAAIでBaiduが発表した” Exploiting the contagious effect for employee turnover prediction “(参考文献⑤)です。従業員の退職予測をテーマとした研究は、これまでにも様々な試みがなされていますが、本研究では従業員の退職は残りの社員の退職にも影響を与えるというアイデアのもと、直近で誰が退職し、その人とはどういう関係性だったのかなどの特徴量を退職予測に使うことに挑戦しています。 退職の伝染例(青:通常、赤:離職、黄:伝染) (出典: 参考文献⑤ ) サンプルデータ(出典: 参考文献⑤ ) 結論として、従業員が退職すると、残った同僚の退職にも影響を与えてしまうことが明らかになっています。基礎分析では91%の社員が、同僚または上司の退職に影響を受けているという結果となり、上司が退職した場合と同僚が退職した場合では影響を及ぼす日数が異なることもわかりました。 この研究では、contagious effect heterogeneous neural network (CEHNN)という手法を提案し、退職予測を行っています。これは、従業員の基本情報、職場環境変化、同僚の離職といった3種類の特徴量を統合した異種混合なRNNです。またそれぞれの特徴量を考慮するためにアテンション機構がついています。本モデルを使用することで、Precision:0.871、Recall:0.816という高精度での退職予測を実現しています。 提案手法の概要(出典: 参考文献⑤ ) 入力特徴量リスト(出典: 参考文献⑤ ) ポイント これまでの研究や活用事例では、退職自体にフォーカスし、従業員のパフォーマンス・満足度や環境変化などから、どのタイミングでの退職可能性があるかを探るものは存在していましたが、従業員の離職による他社員への伝染効果を考慮した予測は行われていませんでした。本研究は、その特徴を盛り込んだ上で退職予測を行っている点がポイントです。 またケーススタディでは、個人レベルだけでなく、組織レベルでも従業員が退職に寄与する特徴を見つけているのも面白いポイントです。今回のデータセットでは、他社員の退職・環境変化・従業員プロフィール(部署・職位など)の退職への寄与率はそれぞれ61%、30%、9%でした。社員の離職がいかに組織に大きな影響を及ぼすかということがわかります。伝染モデルの研究はSNSでの情報拡散など、様々な先行研究があるため、今後も新たなモデルへの応用が期待されます。 活用の可能性と難易度 本研究では伝染効果から退職予測を行っており、従業員の退職が予期できるだけでも導入の価値はあると思います。これに加えて誰が辞めるともっとも伝染力があるか(重要度)などがわかれば退職を引き止めるべきキーパーソンが見えたり、伝染しやすいペアやグループが見えれば組織配置などにも活用できる可能性もありそうです。 また今回提案されたモデル以外にもベースラインに使用しているロジスティック回帰やGradient Boostingグラディエントブースティングでも0.8程度のF値を記録しているため、実際に導入する場合はシンプルなモデルで社内の退職予測ができることも見込まれます。 ④ キャリア予測 研究の概要 2016年のAAAIでシンガポール国立大学が発表した研究” Fortune Teller: Predicting Your Career Path “(参考文献⑥)では、Twitter、Facebook、LinkedInという複数のソーシャルメディアデータを使って、将来のキャリアパスを予測するという、当時において初のタスク(著者曰く)が提案されました。 これまで紹介していた事例はどれも企業による発表で、LinkedInまたはBaiduがすでに持っているデータセットを使用していましたが、この研究ではポートフォリオサイトからデータセットを作成しています。またキャリアパスは著者らにより定義をしています。 キャリアステージ定義(出典: 参考文献⑥ ) 手法としてはまずTwitter、Facebook、Linkedinからデモグラ・LIWC・ユーザートピックの3種類の特徴量セットを作成します。LIWCは心理学的な特徴量で、ツイートなどのテキストに登場する単語と心理的な特徴量を紐づけて、ユーザーの性格や社会的特徴を表すことができます。ユーザートピックに関しては、LDA(Latent Dirichlet Allocation:潜在的ディリクレ配分法)によりTwitter、Facebook、Linkedinそれぞれのトピックを作成しています。そしてこれらの特徴量でマルチタスク学習を行うことにより著者定義のキャリアパスを予測しています。 正解データの作成(出典: 参考文献⑥ ) ポイント キャリアパスに関する研究はこれまで心理学・教育学・経済学・ビジネスドメインのものが主流でしたが、コンピュータサイエンス視点で予測を行い、トップカンファレンスへ投稿した、当時としては新しい研究であったのがポイントです。 またTwitterなどでソフトウェアエンジニアは技術についてよく話題にしていたり、CEOは会社経営やビジネスの話題をしているだろうという仮定のもと、複数のソーシャルメディアを使用してキャリアを予測するというアイデアは興味深いものです。 活用の可能性と難易度 本モデルをそのまま使用する場合、複数のソーシャルメディアデータを使用することが前提となりますが、実運用に向けてすべてのSNSデータを集めるのは手間がかかるため、ひとつのソーシャルメディアに絞るなどして部分的に活用するのが現実的でしょう。 また、下の表にあるように精度が6~7割程度であったことを踏まえると、人の判断も組み合わせたハイブリッドな設計にすることも検討できます。さらに、他事例で紹介したような同僚の退職やスキルセットデータなどを組み合わせて応用することで、より高い精度でのキャリア予測が期待できます。 予測結果(出典: 参考文献⑥ ) まとめ このコラムでは、HRテック領域においての最新のAI研究事例を追うことを目的として、直近5年以内の情報系のトップカンファレンス採択論文の中から4つの事例をご紹介しました。 採用活動、パフォーマンス予測、退職予測など多種多様なタスクが存在する人材領域データ活用ですが、昨今のデジタライゼーションや働き方の多様化・人材の流動性の向上などから、HRテックの研究はもちろんのこと、企業への導入・活用も今後ますます盛り上がりを見せていくはずです。 また、この領域での研究事例はアメリカや中国を中心として企業から発表されるものも多く、企業内にある人材データ活用が重視されていることが垣間見えます。今回紹介した論文リストは以下に掲載しておりますので、興味がある方はぜひ原著もご覧になってみてください。 参考文献 ① Social Skill Validation at Linkedin ② Large-Scale Talent Flow Embedding for Company Competitive Analysis ③ Scaling Personalized Web Search ④ How LinkedIn Economic Graph Bonds Information and Product: Applications in LinkedIn Salary ⑤ Exploiting the contagious effect for employee turnover prediction ⑥ Fortune Teller: Predicting Your Career Path
AIで「やりたいこと」とデータは、両輪で議論する 2020.8.19 代表取締役CTO 藤原 弘将 概 要 AIを業務導入する際には、その業務の目的をしっかりと把握し、目的に適したデータを用いることが重要です。では、目的とズレがあるデータを使用してしまうとどのようなことが起きてしまうのでしょうか。また、データがない場合にはどう対応すれば良いのでしょうか。実例を交えながら考えていきます。 (*本コラムは、日刊工業新聞の連載『AI・ロボット転機予報part2』へ寄稿した内容を再編集したものです。) 目 次 ・ AIは差別的? ・ 適切な訓練データの重要性 ・ 課題設定の見直しも AIは差別的? 「AIは差別的だ」というニュースが何度か世間を賑わせたことがあります。その一つの例が、2016年にマイクロソフトが公開したAIチャットボット『Tay』です。Tayは、Twitterなどを通じて一般ユーザーと会話をし、さらにその会話の履歴から学習して成長するという試みでした。ですが、一部ユーザーの差別的な発言も学習してしまい、Tay自身も同じような発言を繰り返すことになってしまいました。 もう一つの例は、2018年、米国アマゾンが開発したAIによる履歴書審査ツールです。これは、過去の応募者のデータを学習して、エンジニアへの新規応募者の履歴書をランク付けするものでした。しかし、エンジニア職の過去の応募の多くが男性だったため、女性の応募は評価を落とされるという問題が発生し、このAIツールの正式導入は見送られることになりました。 適切な訓練データの重要性 どちらの例も、AIが本来満たすべき要件(差別的な発言をしないなど)を、学習に使用した訓練データで考慮していなかった事ことに起因して起きたものです。 AIの構成要素となるディープラーニングは、ある入力を別の出力に変換するための関数を学習する手法です。先の例で言えば、入力した履歴書の項目を応募者の格付けのためのスコアに変換して出力するということです。この変換の仕方は、集められた訓練データを真似するように学習されます。つまり、ディープラーニングは、本質的に学習するデータの真似をするもので、学習データ自体に何らしかのバイアスが混ざっていると、当然それをそのまま表現してしまいます。 企業の業務をAIで代替することを考える場合、その業務の目的をきちんと把握し、やりたいことに合致したデータを訓練データとして用いる事が重要です。「やりたいこと」の目的とデータは両輪で議論することが必要で、適切な学習データがないからといって目的とズレのあるデータを無理矢理使ってしまうと、たとえ入出力の形式が正しくても、本来の目的は達成できなくなってしまいます。 課題設定の見直しも 実例を紹介しましょう。ある企業では、商品の需要予測をそれまで人手で行なっていましたが、予測品質にバラツキがあり、これを高い水準で統一したいという目的でAIの導入を検討しました。ですが、需要予測で難しさを伴うのが、売上データは手に入る一方、例えば欠品時に本来どれだけ売れていたかも含めた需要そのもののデータは現実として手に入りにくいという点です。そこでこの企業では、それまでの人手による予測結果を訓練データとして使おうとしました。もちろん、これは形式的な入出力として問題の無いデータです。しかし、当初の人手による予測の不確実性を減らそうという出発点に立ち返ると、そもそも誤りを含んでいる人手の予測結果を劣化コピーしても当然目的は達成できません。結果としてこのプロジェクトは、予想より精度が出ないという理由で中止を余儀なくされました。 目的に合致したデータが無い場合には、本来であれば、データの作り方をきちんと見直す必要があります。それも難しい場合には、この例で言えば、需要予測というそもそもの課題設定自体を見直すことが必要になるでしょう。 コラム執筆者 代表取締役CTO 藤原 弘将 京都大学大学院修了 博士(情報学)。2007年、産業技術総合研究所にパーマネント型の研究員として入所。機械学習を用いた音声/音楽の自動理解の研究に従事。開発した特許技術を様々な企業にライセンス提供し、ライセンス先企業の技術顧問も務める。2012年、ボストンコンサルティンググループに入社。ビッグデータ活用領域を中心に多数業界・テーマのプロジェクトに従事。AI系のスタートアップ企業を経て、2016年に株式会社Laboro.AIを創業。代表取締役CTOとして技術開発をリード。 その他の執筆コラム ・ AI精度に不可欠な評価基準の検討 ・ “AI”のギャップが、ビジネスへの導入を妨げる ・ AIは不完全。本当に必要な「AI人材」の役割とは ・ ディープラーニングによる一般物体認識とビジネス応用<上>画像分類 ・ ディープラーニングによる一般物体認識とビジネス応用<下>物体検出
ビジネスパーソンが読んでおきたい、AI関連オススメ本7冊 2020.8.4 シニアソリューションデザイナ 寺田 響 概 要 これからAIの導入や開発を検討されるビジネス担当者の中には「まずは最低限の知識を持っておきたい」「AIや機械学習で何ができるのか知りたい」という方も多いのではないでしょうか?今回は、AI開発を始めるにあたって参考になりそうな書籍を、ソリューションデザイナの観点から独断と偏見でご紹介します! (2020年7月以前に出版された書籍をご紹介しています。) 目 次 ・ 「AIの勉強をしたいんだけど、何かいい本ない?」 ・ 「AIや機械学習技術の基礎を知りたい!」人にオススメ ①『図解即戦力 機械学習&ディープラーニングのしくみと技術がこれ1冊でしっかりわかる教科書』 ②『仕事ではじめる機械学習』 ・ 「AIプロジェクトの進め方が知りたい!」人にオススメ ③『失敗しない データ分析・AIのビジネス導入: プロジェクト進行から組織づくりまで』 ④『課題解決とサービス実装のためのAIプロジェクト実践読本 〜第4次産業革命時代のビジネスと開発の進め方〜』 ・ 「AIのビジネス導入事例が知りたい!」人にオススメ ⑤『ディープラーニング活用の教科書 実践編』 ⑥『文系AI人材になる ― 統計・プログラム知識は不要』 ⑦『業界別!AI活用地図 8業界36業種の導入事例が一目でわかる』 ・ まとめ 「AIの勉強をしたいんだけど、何かいい本ない?」 Laboro.AIシニアソリューションデザイナの寺田です。私は普段、機械学習技術を使ったプロジェクトを検討されている企業様と一緒に、AIを使った企画の検討や実際に開発する際のプロジェクトマネジメント業務などを行なっています。AIプロジェクトを行うにあたって、とくに機械学習やデータサイエンスのご経験があまりない企業担当者の方からいただく質問が、 「 AIの勉強をしたいんだけど、何かいい本ない? 」 です。最近ではAIや機械学習に関する書籍も数多く出版されるようになってきていますが、書籍によっては難しい数式の解説が中心だったり、Pythonのコーディングの知識が前提になっているものも少なくありません。そこで今回は、私が個人的にお薦めしている 知識ゼロからでも読みやすいAIや機械学習に関する入門書 を計7冊ご紹介させていただきます。(あくまで私、寺田個人が過去に目を通した書籍でのオススメ!に限られることはご了承ください。) 書籍は、これまでに私が受けたご相談・ご関心の傾向から、次の3つの「知りたい!」にパート分けしてご紹介していきます。 ・ AIや機械学習技術の基礎を知りたい! ・ AIプロジェクトの進め方が知りたい! ・ AIのビジネス導入事例が知りたい! 「AIや機械学習技術の基礎を知りたい!」人にオススメ まず「AIや機械学習がどんなもので、どんなことができるのかが知りたい」、あるいはWebの記事などを読んでいて「画像認識と言えばCNNが定番だけど、それってどんな原理なの?」「確率的勾配降下法って何で、何に使う技術なの?」のような疑問を持たれた方にオススメな入門書のご紹介です。 ①『図解即戦力 機械学習&ディープラーニングのしくみと技術がこれ1冊でしっかりわかる教科書』 はじめにご紹介するのは、『 図解即 戦力 機械学習&ディープラーニングのしくみと技術がこれ1冊でしっかりわかる教科書 』です。 『図解即戦力 機械学習&ディープラーニングのしくみと技術がこれ1冊でしっかりわかる教科書』 株式会社アイデミー 山口達輝|松田洋之著、技術評論社 こちらは、株式会社アイデミーさんというAI人材の育成のためのラーニングサービスなども提供される企業の方が書かれたもので、 初心者の方が読んでも非常にわかりやすい内容 になっています。機械学習の原理原則から、アンサンブル学習、GANなど最近ニュースなどでもよく目にするようになった技術の仕組みが網羅的に解説されているので、「まずは技術を幅広く理解したい」「機械学習でできることの概要を整理したい」といったニーズをお持ちの方にオススメの書籍です。 気になった技術や、疑問に思った点を他の書籍やWebで調べて知識をアップデートしていく(あるいはベンダーに質問してみる)、という使い方が望ましいのではないかと思います。 ②『仕事ではじめる機械学習』 もう一冊、システム開発経験がある方にはおなじみのOREILLYの 『 仕事ではじめる機械学習 』という本をご紹介したいと思います。 『仕事ではじめる機械学習』 有賀康顕|中山心太|西林孝著、オライリージャパン ①に比べると初心者にはやや難しいと思われる内容も多く、歯ごたえは段違いにあるのですが、「システムに機械学習を組み込む際に知っておきたいこと」や「AIシステムの効果検証の考え方」など、 意外と世の中のAI本で触れられないポイントが丁寧に解説 されており、より実務寄りの視点で知見を得られたい方にオススメです。 ちなみに、この本の第1章は「機械学習プロジェクトのはじめかた」というタイトルなのですが、冒頭の方に「機械学習をしなくて良い方法を考える」というパートがあり驚きます。ですが、これからAI導入に取り組まれる方は、ぜひこの部分だけでも理解いただけたら、より有意義なAIプロジェクトが検討できるのではないかと思います。 「AIプロジェクトの進め方が知りたい!」人にオススメ AI開発と一言で言っても、既存のマネージドサービスを使う場合とオリジナルのカスタムAIを作る場合などがあり、一まとめに語れる訳ではありませんが、ここでは一般的なビジネス用途のAI開発のステップの理解に役立つ書籍をご紹介します。 ③『失敗しない データ分析・AIのビジネス導入: プロジェクト進行から組織づくりまで』 まず、データ分析やAI開発を行う株式会社ブレインパッドさんが書かれた『 失敗しないデータ分析・AIのビジネス導入 』です。 『失敗しない データ分析・AIのビジネス導入: プロジェクト進行から組織づくりまで』 株式会社ブレインパッド他著、森北出版 「PoCって何ぞや」というところから理解されたい方はもちろん、「外部パートナーの使い方」なんていう章もあり、 AIプロジェクト全体がどのような流れで進んでいくのかをわかりやすく理解できる かと思います。 ④『課題解決とサービス実装のためのAIプロジェクト実践読本 〜第4次産業革命時代のビジネスと開発の進め方〜』 もう一冊、こちらもAIベンダーである株式会社オプティムさんが監修された『 課題解決とサービス実装のためのAIプロジェクト実践読本 』です。 『課題解決とサービス実装のためのAIプロジェクト実践読本 ~第4次産業革命時代のビジネスと開発の進め方~』 山本大祐著|株式会社オプティム監修、マイナビ出版 「契約モデルの違い」や「知的財産権の考え方」など、極めて実務的かつ非常に重要な視点まで説明されており、 予め知っておくとベンダーとの交渉がやりやすくなるであろう知識 が多く語られています。 余談ですが、AI開発界隈では契約時の交渉が難航するということをよく耳にします。「準委任契約って何だ?」「成果物の考え方は?」など、ITシステムの契約とは異なる点が非常に多いため、迷われた際はSTORIA法律事務所さんが公開されている解説記事『 「AI・データの利用に関する契約ガイドライン」に学ぶAI開発契約の8つのポイント 』が参考になりますので、合わせてご紹介しておきたいと思います。 「AIのビジネス導入事例が知りたい!」人にオススメ 最後に、機械学習のビジネス導入事例を幅広く紹介している本をご紹介します。私たち自身もAIのビジネス活用について講演をさせていただく機会などが多々あるのですが、一番興味を持って参加いただくのが、事例に関するものだったりします。 ⑤『ディープラーニング活用の教科書 実践編』 まず有名なところで、日経クロストレンド編・日本ディープラーニング 協会が監修した『 ディープラーニング活用の教科書 実践編 』です。 『ディープラーニング活用の教科書 実践編』 日経クロストレンド編集|日本ディープラーニング協会監修、日経BP これに登場する事例はディープラーニング技術を使ったものが大半ですが、数多くの事例が扱われています。技術論ではなく、 技術が現場でどのように使われているかといった話が中心 に語られているので、どのような活用アイデアが考えられるのかのヒントを得る上で参考になります。 一方、これは私の勝手な持論ですが、ビジネスにAIを導入することを考える上で、 他社の事例を過度に意識しすぎない ことは、重要な観点です。というのも、同業他社であっても保有しているデータの量や質に大なり小なり差はありますし、作ったAIをどう運用しているかという実務上で重要な点は、事例紹介の中で表に出てくることはそれほどありません。 ですので、事例はあくまで自分の頭を整理したり、アイデアを出すための参考にしていただき、本質的には一番上に載せたような技術理解にチャレンジしていただくことが、 失敗しないAIプロジェクト を目指す上では重要だと感じます。 ⑥『文系AI人材になる ― 統計・プログラム知識は不要』 そういった意味で、最近は技術解説と様々な事例の紹介がセットで語られている書籍も増えてきています。例えば、こちらの『 文系AI人材になる ― 統計・プログラム知識は不要 』です。 『文系AI人材になる― 統計・プログラム知識は不要』 野口竜司著、東洋経済新報 こちらでは、 統計・プログラミング知識が一切ないことを前提 に機械学習技術の概要が紹介された上で、実社会で活用されているAIの事例を類型化して多数紹介しています。機械学習に関する突っ込んだ説明よりは、考え方やいかにビジネスシーンの中に機械学習を組み込んでいくかが中心に解説されていますので、どんなことができるのか広く情報を集めたいと思われている方にはオススメの一冊です。 ⑦『業界別!AI活用地図 8業界36業種の導入事例が一目でわかる』 同業他社が何をやっているか知りたい際など、調査目的で事例を調べられたい方には、『 業界別!AI活用地図 8業界36業種の導入事例が一目でわかる 』もオススメです。 『業界別!AI活用地図 8業界36業種の導入事例が一目でわかる』 本橋洋介著、翔泳社 業界別の事例を集めた書籍は他にも出版されていますので、最新の書籍を見かけたら目を通してみるというのはアリかもしれません。実際、私自身もこの書籍を通して、どの企業がどのベンダーと、どのような取り組みを進めているかの情報を得ることができました。 また、新規に機械学習を使ったプロジェクトを検討する際には、「どんなテーマがAI化に資するのだろう」「どんなアイデアが実現可能なのだろう」ということも押さえた方がいいでしょう。そういった意味では、同業他社の取組み意外でも参考になるケースがありますので、幅広く様々な情報に目を通すのが良いと思います。 まとめ 近年のAIブームもあって、ビジネスパーソン向けAI書籍は非常に多く出版されています。今回ご紹介したもの以外にも優れた本がいくつもあると思いますので、ぜひ色々と情報収集してみてはいかがでしょうか。上記では物足りないと感じられた方は、学術的な論文や学会報告などに手を伸ばしてみるのも良いかもしれません! また、コロナウイルス感染拡大を背景に、機械学習技術に関する学習コンテンツをオンラインで公開するベンダーも増えてきています。Laboro.AIでも 公式Youtubeチャンネル で、『AIプロジェクトの失敗パターンとは?』『データが少ない場合の機械学習手法とは?』『AI・機械学習の適切な技術の選び方 –画像認識の例−』といった普段聞けないような情報を解説する3つの動画を公開しています。ご興味がある方はぜひ、 こちらから ご覧になってみてください! (最後に繰り返しとなりますが、このコラムでご紹介した書籍は担当者が主観で選んだものです。何卒ご了承ください。) コラム執筆者 シニアソリューションデザイナ 寺田 響 慶應義塾大学文学部卒業。大学卒業後、大手日系企業においてデータを活用したマーケティングや新規サービスの開発、事業企画などに従事。その後、リクルートグループに移り、様々な事業ドメインのビッグデータ×機械学習技術を用いた施策の立案・開発を担当。2018年からLaboro.AIに参画し、製造業や建設業などを中心に多数のプロジェクトを担当。 その他のおすすめコンテンツ ・ 機械学習とディープラーニング(深層学習)の違いとは? ・ AI導入現場から。企業が抱える検討課題の実際とは ・ 機械学機械学習とディープラーニング(深層学習)の違いとは? ・ 事例から知る!機械学習の基礎と活用5ジャンル ・ AI導入によるメリットやデメリットとは?課題やポイントも含めご紹介 ・ AI開発の基礎!概要から開発の流れ、必要なものを解説 ・ カスタムAI開発について
トマト画像物体検出データセット『Laboro Tomato』を公開 2020.7.15 CTO 藤原 弘将 機械学習エンジニア ロマン・トリグベンコ 概 要 Laboro.AIはこの度、トマトの画像物体検出データセット『Laboro Tomato』を公開いたしました。以下では、開発・公開に至った背景や内容、期待される用途などについてご紹介いたします。 目 次 ・ 農業の現状とAI活用 ・ Laboro Tomatoについて ・ アノテーションの基準について ・ データセットの構成 ・ Laboro Tomatoの可能性 ・ Laboro Tomatoのダウンロードについて ・ ライセンス ・ ご利用にあたっての注意事項 ・ ダウンロード・詳細 ・ 公開・更新情報 農業の現状とAI活用 農林水産省の統計 によれば、2017年の国内の農業総産出額は9兆円、1984年のピーク時から減少傾向にあるとはいえ、やはり農業が日本の一大産業であることには間違いありません。ですが、農業を支える従事者は年々2〜3%ずつ減少する傾向にあり、その優れたスキルやノウハウ、匠の技とも言える技術をいかに次世代の担い手へと伝承していくかが重要な課題になっています。 その一方、49歳以下の若手の新規就農者の数は4年連続で2万人を超えるペースで増加しており、若い世代ならではの新しいアイデアや最新技術を導入し農業をアップデートしようという動きが出てきていることも事実です。また、政府も「スマート農業」に向けた各種の取り組みを進め、こうした動きを後押ししています。 その最新技術の中心的な役割を担っているのが、AI(機械学習技術)やそれを用いたIoTで、様々な形での活用が始まっています。 例えば、 ・ドローンによる農薬散布 ・画像からの葉色の解析 ・農作物の自動収穫 ・病害予測 ・収穫予測 などの技術活用が、 メディアでも多く取り上げ られるようになってきました。 Laboro Tomatoについて 私たちLaboro.AIも、こうした新しい技術を用いた革新的な動きを少しでも支援させていただくため、その第一歩として農業トマトの画像検出用データセット『Laboro Tomato』を作成し、公開させていただくことといたしました。 この画像データセットは、物体検出技術のなかでも精緻な検出を実現するインスタンスセグメンテーション(instance segmentation:画像をピクセル単位で分割し、対象の個体ごとの領域を抽出する技術)での利用を想定して開発しており、サイズに応じた2カテゴリーごとに、成熟度に応じたアノテーションを行なっています。このデータセットによって成熟度予測や収穫予測をはじめとした画像AI領域で活用いただけることを見込んでいます。 なお、GitHub上ではLaboro Tomatoを用いたpre-trainedモデルも公開しています。 アノテーション画像のサンプル アノテーションの基準について それぞれのトマト画像は、サイズに応じた2カテゴリー(通常サイズのトマト・ミニトマト)に分類し、それぞれ以下3種の成熟度に応じたアノテーションを行なっています。 ・成熟(fully ripened) :全体的に赤みがあり収穫が可能なもの(暖色の割合が90%以上) ・半熟(half ripened) :一部に緑色の部分があり、成熟までにまだ時間を要するもの(暖色割合が30〜89%) ・緑熟(green) :部分的に赤みがある場合もあるが、全体的に緑もしくは白いもの(暖色の割合が0〜29%) ※上記の%基準は、アノテーション作業者により判断されています。 成熟度別の画像サンプル データセットの構成 データセットは、計804枚の画像データから成っています。具体的には以下のとおりです。 画像枚数:804枚 クラス数:6(トマトのサイズに応じた2クラス × 成熟度に応じた3クラス) クラス名:① b_fully_ripened (通常サイズのトマト・成熟) ② b_half_ripened (通常サイズのトマト・半熟) ③ b_green (通常サイズのトマト・緑熟) ④ l_fully_ripened (ミニトマト・成熟) ⑤ l_half_ripened (ミニトマト・半熟) ⑥ l_green (ミニトマト・緑熟) 解像度:3,024×4,032px、3,120×4,160px サイズ・成熟度別の画像サンプル Laboro Tomatoの可能性 今般公開させていただいた画像データセットLaboro Tomatoは、様々なテクノロジーと融合することにより、生産現場で次のようなシーンを実現する可能性を持っています。 ・成熟度を元にした収穫予測 ・成熟トマトのみの自動収穫 ・劣化・陳腐化したトマトの特定や自動間引き ・特定の成熟期のトマトのみへの農薬散布 ・成熟状態に応じた温室内の温度管理 ・食品メーカーの生産ライン上での品質管理 など Laboro.AIでは、それぞれの生産現場や製造現場の課題に合わせた活用方法を一緒に考えさせていただくため、オーダーメイドによるAI開発「 カスタムAI 」を提供しております。AIビジネス活用をご検討の方は、ぜひご相談ください。 Laboro Tomatoのダウンロードについて ライセンス Laboro Tomatoおよびpre-trainedモデルは、国際的な著作権ライセンスであるクリエイティブコモンズの CC BY-NC 4.0 (Attribution-NonCommercial 4.0 International)の下、 非商用目的に限り無料で公開 しています。商用目的での利用にご関心をお持ちの方は、 お問い合わせフォーム よりご連絡ください。 ご利用にあたってに注意事項 当画像データセットおよびpre-trainedモデルは、機械学習技術を用いている性質上、誤った結果を出力する場合があります。ご利用に伴って生じた損失や損害等、いかなる場合においても弊社では一切責任を負いませんので十分ご理解・ご注意の上、自己責任の下でご利用をお願いいたします。 詳細・ダウンロード ダウンロードおよび詳細については、 こちら(GitHub) よりご確認ください。 公開・更新情報 ・2020年7月14日 Laboro Tomatoを公開しました。 謝辞 ベースラインモデルの学習にあたっては、株式会社NTTPCコミュニケーションズ様のInnovation Labの計算資源を使用させて頂きました。 撮影ご協力 井出トマトファーム 様(神奈川県 藤沢市) 参考・引用 農林水産省 平成30年度 食料・農業・農村白書 Ledge.ai 【農業AI注目企業9選】人工知能で農家の働き方改革は実現するか?
“AI”のギャップが、ビジネスへの導入を妨げる 2020.6.22 代表取締役CTO 藤原 弘将 概 要 “AI”と聞いて、「人の代わりになるもの」と思う人もいれば、「限られたことだけできるもの」と思う人がいるように、そのイメージは人によって異なっているのが現状です。こうした認識の一致がないまま社内で“AI”プロジェクトが進んでしまえば、その結果がどうなるかは明らかです。AIをどう捉え、どう使うか、基本的ながら重要な点を考えていきます。 (*本コラムは、日刊工業新聞の連載『AI・ロボット転機予報part2』へ寄稿した内容を再編集したものです。) 目 次 ・ “AI”という言葉の認識違い ・ AIは単機能で捉える ・ カスタマイズ発想で組み合わせる ・ 単機能さを俯瞰して、共有する “AI”という言葉の認識違い ビジネスの文脈で“AI”という言葉が使われる時、それが何を指しているかという認識にギャップを感じることが少なくありません。2012年以降、ディープラーニングが一気に注目を集めるようになってからとくに聞かれるようになった「AIは万能なもの」「AIが仕事を奪う」という極端なイメージは減ってきているようです。ですが、今なおAI技術ができることについては、過大なイメージを持たれている方が多いようにも感じます。 ビジネスにAIを導入するとなった場合、社内外のステークホルダー間でこの“AI”という言葉が意味するところの認識が合っていないと、同床異夢になってしまい、AI導入の成功率は下がってしまいます。 AIは単機能で捉える 少なくともビジネス活用という文脈では、AIは単機能の様々な技術の集合体と捉えるべきものです。そしてその単機能の度合いは、例えば、音声をテキストに変える技術(音声認識)や、画像を見て何が写っているかを判定する(画像識別)といったレベルで、一般的に想定される範囲よりずっと狭いのが実際です。各技術ができることは非常にシンプルで、単体では必ずしも現実のビジネス課題が解決できるとは限りません。 もう少し具体的な例で確認してみましょう。例えばfacebookなどで写真をアップロードすると、写っている人が誰かを示すタグが自動的に付けられる機能があります。これはユーザー体験という視点から見ると一つの機能ですが、技術的には複数の単機能AIが組み合わさっています。写真の中で顔がどこにあるかを探すAI(顔検出)と、顔で目や鼻などのパーツを探すAI(キーポイント検出)、顔同士を比べて同じ人かどうかを判断するAI(顔照合)の3つから構成されるのが一般的で、それぞれは個別の学習データを使って個別に構築されます。 カスタマイズ発想で組み合わせる 人間の感覚では一見シンプルそうなことでも、AIで代替しようとすると予想外に複雑な構成になってしまう場合もあれば、逆に複雑そうに見えても実はシンプルな構成のAIシステムで実現できる場合もあります。つまり、ユーザー目線でのAIができることと、技術的な観点でどのような技術をどう組み合わせて実現するかにはギャップがあるということです。 この前提に基づくと、ビジネスにAIを導入する場合には、AI技術を「選定する」という発想ではなく、AIソリューションを「カスタマイズする」という発想、言い換えれば、どんな技術をどう組み合わせて解くのかを創造的に考えることが重要になってきます。 もちろん、パッケージAI製品など汎用性を売りに発売されているようなソリューションで解決できる課題であれば、それを導入するのが近道です。ですが、解くべき課題が企業にとって重要性が高いもの、競争力に関わるものなど、企業の本業・コア業務に近づくほど、汎用的なパッケージAIでは対応できるケースは少なくなり、カスタマイズが必要になってきます。 単機能さを俯瞰して、共有する AIをカスタマイズするためには、解決すべき課題の深い理解に加えて、AI技術に関する全体像を捉えられる知識も必要になります。これは、エンジニアや研究者のレベルで技術的詳細を理解すべきということではありません。単機能のAI技術が、どんな入出力でどの程度の精度が達成されているかを広く俯瞰的に把握するということです。 この理解がステークホルダー間で正しく共有できれば、AI導入の成功確率が格段に上がるはずです。 コラム執筆者 代表取締役CTO 藤原 弘将 京都大学大学院修了 博士(情報学)。2007年、産業技術総合研究所にパーマネント型の研究員として入所。機械学習を用いた音声/音楽の自動理解の研究に従事。開発した特許技術を様々な企業にライセンス提供し、ライセンス先企業の技術顧問も務める。2012年、ボストンコンサルティンググループに入社。ビッグデータ活用領域を中心に多数業界・テーマのプロジェクトに従事。AI系のスタートアップ企業を経て、2016年に株式会社Laboro.AIを創業。代表取締役CTOとして技術開発をリード。 その他の執筆コラム ・ AI精度に不可欠な評価基準の検討 ・ AIで「やりたいこと」とデータは、両輪で議論する ・ AIは不完全。本当に必要な「AI人材」の役割とは ・ ディープラーニングによる一般物体認識とビジネス応用<上>画像分類 ・ ディープラーニングによる一般物体認識とビジネス応用<下>物体検出