KDDI Digital Divergence Groupのプロフェッショナルが語る、データ利活用や画像分析AI開発現場で直面した課題解決の方法
アーカイブ動画
データ処理・分析の「難しさ」と「あるある」
株式会社フライウィール
プロダクト開発本部 ディレクター 前田 達志氏
最初に登壇したのは、フライウィールのプロダクト開発本部ディレクター前田達志氏だ。フライウィールは、グローバルレベルの経験を活かしたデータエンジニアリング専門のスタートアップである。セッションは「データ処理・分析の『つらさ』『あるある』から見たビジネスデータの取り扱いの難しさ」をテーマに語られた。
まず前田氏は、データ処理・分析のつらさ、あるあるを語る前に、日本企業におけるビジネスデータ活用の状況について解説した。IPA(情報処理推進機構)が2024年6月に発表した「DX動向2024」によると、DXへの取り組みで成果が出たと答えた日本企業は64.3%まで増加しているが、「米国にはまだ追いついていない」と、前田氏は語る。
また、DXの取り組みの項目別成果状況を見てみると、アナログ物理データのデジタル化や業務の効率化による生産性向上は米国との差は小さい。
だがその一方で、いわゆるデジタル技術でビジネスモデルやサービスを変えていくという価値創出、全体の業務プロセスのデジタル化などは、「米国と大きな差がある」と前田氏は説明する。
IT専門調査会社のGartnerが2023年10月に発表した「日本におけるデータ活用の実情」によると、「十分に成果が出ていると答えた企業は3%」と報告されている。
さまざまな企業のデータ活用の支援をしているフライウィールでは、データ処理にまつわる「つらさ」や「あるある」が蓄積されている。その1つは、多くの企業から預かったデータは「そのまま分析などに使えることは、ほとんどないこと」だと言い切る。
例えば基幹システムのデータを活用する際に、よく使われるのがCSVファイルである。
「CSVはExcelなどにインポートしやすく、対応ツールが多いところは便利ですが、方言があったり、カラムの値の中に改行コードがあるものに対応できなかったり、また型がないため、値がない(null)、Arrayなどの構造が表現しづらいなどの不便な点があります」(前田氏)
また、データの種類が多いことも課題として挙げられた。
「特に大企業のプロジェクトを支援しているとデータの種類が多く、場合によっては数百種類のデータが連携されていることもあります」(前田氏)
このような状態だと、どうしても必要な情報にたどり着くまで、かなりの時間がかかる。中には必要な情報と組み合わせるために多くのID変換が必要になったり、複数のマッピングテーブルをつなぎ合わせたりして、ようやく欲しい情報が得られるというケースもある。
データの種類が多くなる理由の一つが、リスク分散だ。「セキュリティ対策であえてサービスごとに違うID体系を使うこともあるため」と、前田氏。また、広告配信系などは複数システムを経由することが一般的で、どうしてもデータの種類が増えてしまうという。
そのほかにもExcelファイルや二重圧縮ファイル、巨大な圧縮ファイル、固定長ファイルなど、扱いづらいファイルがあるが、「これらは地道に対応していくしかない」と前田氏は語る。
次に前田氏が挙げたのは、開発用データがなくて困ることだ。仕様書のみで開発するよりデータを使いながら開発する方が効率的だが、開発用データがないからといって、実際のデータを使うことは難しい場合もある。
「個人情報を含むデータはその代表例」と、前田氏は指摘する。このような場合の対応策としては、ダミーデータを作成するか、実際のデータの一部をハッシュ化などで変換する必要がある。
ダミーデータの作成は、生成AIを活用しているという。データ定義書をLLMに読ませ、CSVファイルを生成するのである。またダミーデータ以外にも、テーブル定義書からのDDLクエリやdbtのYAMLファイルを生成することもできる。
「プロンプトを工夫すれば、よりリアルな合成データ生成などできると思います」(前田氏)
さらに、データのバリデーション(妥当性の確認)もいろいろな形があるので、「それをどうやって組み込むかは大切な要素」と、前田氏は言う。
例えば、Excelファイルは人が作成や修正をするので、表記揺れや半角スペースが入っていたり、数値が指数表記になっていたりする。中身が値ではなくて数式になっているなど、想定外の入力が入ってくる可能性があるからだ。
Excelファイルの場合は一旦、すべてのセルを文字列として読み、バリデーションをかける。その後、正規化してロードするという組み込み型がある。
「バリデーションで重要になるのは、『結果をデータ提供元に伝えること』です」(前田氏)
フライウィールでは、自動的にメッセージを送信するように、Slackチャンネルで情報を共有するなどの仕組みを取り入れているという。
「問題点をわかりやすく伝えるのは大変なことなので、この辺については工夫が必要になります」(前田氏)
続いて語られたのは、「データ管理が人力になっていること」だ。同社が支援した企業の中には、商品マスターなどのExcelファイルを各営業担当者がローカルPCで管理しており、唯一の情報源としてのデータが存在しなかった。
しかも、見積もりは各自のExcelファイルから作成しており、商品情報が変更されるたびに各自のExcelファイルを更新していたという。「見積価格の決定は各営業担当者の秘伝のタレ状態になっていた」と、前田氏は明かす。
■成果につながるデータ活用とは
このような状況を解決するため、前田氏たちは現場担当者にヒアリングを行った。その上で、データ管理を一元化したデータ基盤と、現場メンバーがExcelで実施していた業務を代替するWebアプリを構築。見積もりや注文対応の属人化を排して業務効率化を実現した。
データ処理にまつわる「つらさ」や「あるある」からもわかるように、成果につながるデータ活用ができない背景には、組織ごとに異なる複数のシステム、セキュリティやプライバシーの要件がある。
さらに、本番データを開発や検証に利用できない、システム化されていない業務がある、など、ビジネスデータの取り扱いの難しさがあるというわけだ。とはいえ、データ活用で全社的に十分な成果を得るためには、これらの難しさに立ち向かっていくしかない。
その方法の1つが、やり方のテンプレートを作る、ライブラリにする、LLMなど新しいテクノロジーを活用するなど、つらさを乗り越える地道な効率化をすることだ。
2つ目は、現場や業務を理解することだ。3つ目はデータを集めてつなげること。データ基盤ができれば、活用は加速するからだ。
「データを集めてつなげる際にポイントとなるのが、データとアプリケーションを分けて考えること。そうするとデータの再利用がしやすくなる」と、前田氏はアドバイスし、セッションを締めた。
画像分析 AI の開発で実際に直面した課題とアプローチ
アイレット株式会社
アジャイル事業部 開発エンジニア兼スクラムマスター 玉衛 淳輝氏
続いて登壇したのは、アイレットの開発エンジニア兼スクラムマスター玉衛淳輝氏だ。アイレットは、国内を代表するクラウドインテグレーターで、画像解析や生成AIなどさまざまなAI分野に挑戦しており、Google Cloud生成AIソリューション支援パートナー、AWSのプレミアコンサルティングパートナーに認定されている。
玉衛氏のセッションタイトルは「画像分析 AI の開発で実際に直面した課題とアプローチ」。その事例として紹介されたのが、大林組と、KDDIスマートドローンの2社との共同開発による「空撮画像からの工事進捗解析」プロジェクトだ。
同プロジェクトの目的は、ドローンが撮影した画像を基に、工事の進捗を機械学習で自動解析することである。
その背景には労働人口の減少があるという。
「このような仕組みであれば、建設現場など人間が立ち入りにくい環境でも容易に安全に管理でき、全体を俯瞰した進捗の可視化が可能になります。
例えば、道路工事に活用すれば、何割までできているのかなどを検出することもできます。一気に建設業界での活用の可能性が広がるプロジェクトです」(玉衛氏)
実際のプロジェクトでは、空撮画像からの工事進捗解析をAmazon SageMaker上でAIモデル構築し、訓練データを用いてトレーニングした上で、側溝などの建築物を認識させ、あらかじめ立てた計画に対し、どこまで進捗したかを解析させた。それが次の写真だ。
「結果として、特定の物体の検出に対して、一般的な訓練済みモデルよりも高い精度の検出ができました。また、天気の変化や撮影位置の変化に対しても、柔軟に対応可能な物体検出が行えるようになりました」(玉衛氏)
モデルの選定手法についても紹介された。物体検出に選定した手法は、DNN(ディープニューラルネットワーク:深層学習)を使ったFasterRCNNというアルゴリズムだ。マスク領域の検出については、FasterRCNNとは異なるDNNモデルを選定した。
■ドローン撮影画像の解析にDNNを採用した理由、成果と課題
なぜ、DNNを選定したのか。玉衛氏は、その理由について、ドローンでの撮影地点は同一の保証はなく、数cmはずれることがあるからだと解説した。
それだけではない。ダムや建設現場など、長期的かつ屋外のプロジェクトは、天気や季節によって撮影画像の色相の変化が顕著に表れるという。
「その前提をもとに消去法で方法を限定し、DNNを採択しました」(玉衛氏)
マスク領域の検出用のモデルを選定した理由については、空撮画像の解像度が細かくバリエーションに富んだ物であり、物体のサイズの違いを解釈可能なモデルを採用する必要があったからだ。
Semantic Segmentationに対応したモデルが少なく、Unetも比較対象としたが、異なるモデルを選出した。
実装時の課題についても紹介された。まずは検出上の課題だ。これは「精度の問題」と、玉衛氏は語る。一般的に公開されている物体検出モデルでは、空撮での検出にマッチしておらず、対応できなかったのだ。
次の課題は、画像上で検出対象を覆う物体があることだ。さらに類似の見た目のものは、その物体の周囲やAIモデル次第ではあるが検出が難しくなるという課題があった。
これらの課題に対応するアプローチとしては、訓練画像を用意して検出を行うことである。類似の見た目を検出対象としてまとめるか、別対象とすべきかを計算式から考慮し、ラベルの取捨選択を行う。
次に、物体の上に物体が乗ったオブジェクトも検出が必要な場合があるため、ピクセル間をある程度補完するロジックを別で組むことを行った。
今回のプロジェクトでは、側溝の上に赤いカラーコーンがあると、側溝の検出が難しかったという。
「解像度を落とすと、カラーコーンによって分けられた部分が気にならなくなります。そうした強引なロジックを使って対応しました」(玉衛氏)
また、撮影時刻や時期、天気などによって、撮影写真に影が多いと検出精度が変化するという課題に対しては、データに色相の違うデータを追加する形で、オーギュメンテーション(データ拡張)を行った。
柔軟に対応することを可能にするアプローチ、もしくは事前処理として、影を消すAIを別途用意するなどのアプローチがある。
「AIが前処理をしてその画像からAIが検出するというマニアックな方法もあります」(玉衛氏)
大規模サイズの画像を扱う際の課題は、端の部分ほど歪みの影響が出やすいことだ。この課題へのアプローチとしては、玉衛氏は以下のように語っている。
「歪みの影響を強く受けすぎた端の画像を切り捨てることです。そして、切り捨てても良いか、お客さんと話をして、確認を取ることも大事です。私たちは毎週、定例でミーティング時間を設け、ビジネス要件の共有をしていました」(玉衛氏)
次に画像の解像度と、訓練可能な画像サイズを両方想定に入れ、画像の分割したサイズと検出する画像のサイズを許容可能なサイズとして検討する。固定した上で訓練するのである。
実装工数の課題の一つは、訓練データはラベル分けが少し異なったり、ラベル付けのミスがあるだけで検出精度への影響が大きくなったりするケースがあることだ。また、物体検出とSemantic Segmentationでは、訓練データの作成コストが大きく異なることも課題となる。
この課題へのアプローチとしては、まずは検出対象の精査を行うこと。そして、まれにしか画像に表示されないモノは、ラベル付けを行わないことだ。さらに、もう一つのアプローチとして有用なのが、以下だという。
「訓練データを少なくするため、転移学習を用いたり、ある程度根拠や直感に基づいた訓練データの拡張を行ったりすることです。転移学習は訓練を減らすのに便利なので、ぜひ、皆さん調べてやってみてください」(玉衛氏)
DNN以外にも考えた活用方法としては、差分解析や類似度比較、色相比較などだという。
「例えば、差分比較は非常に敏感に差分を取得するので、数cmずれるドローンには使えない。類似度比較も、光や季節の変化をすべて変化点として取得してしまうのでドローンには使えない。色相比較も雪が降ったり、夏の日差しによって色相が変わったりすることがあるので、厳しい判断になりました」(玉衛氏)
アイレットでは「AI画像解析による、ビジネスの発展」というサービスサイトを用意している。「興味のある方はぜひ、チェックしてほしい」と語り、セッションを締めた。
多数の質問が寄せられたQ&Aタイム
最後のQ&Aセッションでは、今回登壇した二人に参加者からさまざまな質問が投げかけられた。いくつか紹介したい。
Q.データ利活用のイメージがない状態で溜まっている大量データを活用する際に、顧客とのコミュニケーションにおいて気をつけたこと・ノウハウ・活用の糸口の見つけ方について
前田:まずは可視化することです。例えば機械学習のモデルが組めそうなデータであれば、こういう予測ができるなど、活用のイメージを持ってもらいます。その際、気をつけたことはスモールウィン(小さな成功)が得られるようなものにすること。次に繋がらないと、予算が取れないからです。
Q.AIなどの分野は、やってみないとわからないことも多く、案件をビジネスとして請け負うにはリスクもあると思うが、受注段階や設計段階で気をつけていることは?
玉衛:ベースの約束をしつつ、やってみないと分からない範囲を2つのステージに分けて、提案をすることです。難易度は高いが、やれる工夫としてはそれぐらいですね。定例で定期的に打ち合わせをして、ビジネス要件の調査と機械学習の精度を共有する。いずれにしてもお客さまに対して誠意が大事になります。
Q.AGI(人工汎用知能)や、汎用的ではない何かに特化した生成AIはどう生き残っていくと思うか
前田:データの処理で言うと、取り込んだり、活用したり、ユーザーの課題に対して質問に対して生成AIで返すことは、データの処理にも活用されるようになると思います。変換するところになると、ドメイン知識が必要になる。もう少しジェネリックなものが出てくると、対応できるのではと期待をしています。
玉衛:AI開発の大多数は汎用的なものへのアプローチになっているので、マニアックなところに手を出すことは一つの生き残りの手かもしれません。画像分析に関しては、AGIはまだ強くないので、もう少し時間がかかると思います。