日立ハイテクのデータサイエンティストが語る、材料開発とデータサイエンスの世界「マテリアルズインフォマティクス(MI)」とは
アーカイブ動画
なぜ、日立ハイテクがマテリアルズ・インフォマティクスを手掛けるのか
株式会社日立ハイテク
サプライチェーンプラットフォーム統括本部 SCレジリエンス推進本部
マテリアルソリューション部 部長 桃井 義弘氏
最初に登壇した桃井氏は、日立ハイテクの会社紹介と同社マテリアルソリューション部がなぜマテリアルズインフォマティクス(MI)を手掛けるのかを語った。
日立ハイテクは、エレクトロニクスの専門商社である日製産業と、日立製作所の計測器グループ、半導体製造装置グループが統合して2001年に設立された。「計測・分析・解析」をコア技術とし、電子顕微鏡や分析装置を開発している。DNAシーケンサーにおいては、長年世界トップシェアを誇る。
マテリアルソリューション部は前身からの歴史も含めると、これまで50年以上にわたり、樹脂などのマテリアルトレーディングをグローバルで展開。取引先は6000社以上にもおよび、関係性も深い。顧客との強いネットワークに、グループである日立製作所が持つMIソリューションを掛け合わせ、顧客の課題を解決するソリューションを創生している。
日立ハイテクでは、MIを使うことで、新素材の開発における課題を解決に導くソリューションを提供している。
例えば、最小の原材料で生成物を最大化するソリューションなど、MIによる成果や効果事例も出てきている。
さらにMIは、社会が抱える様々な課題解決にも重要な役割を持ち、共に寄与し、社会的意義の高い取り組みでもあると、桃井氏は語っている。
「どのような条件でものづくりを行えばよいのか。最小限のコストを実現する条件とは何なのか。カーボンニュートラルや脱炭素社会の実現に向けて、社会が抱える課題回解決、DXやGXとの関連も含め、MIは必要不可欠だと言えるでしょう」(桃井氏)
桃井氏は、上下関係を気にすることなく気軽に意見を出し合えるフラットな環境であり、仕事が自由に行えるなど、日立ハイテクの魅力についても触れた。リモートワーク、フレックス制度といった福利厚生も充実しており、多様な人材が様々な働き方をしているという。
「自己啓発を応援する環境があり、スキルアップのための各種セミナーなども充実しています。1on1も浸透しており、キャリアアップについて話し合う機会も多く持てます。会社、社員が共に成長できる環境が整っていると思います」(桃井氏)
データサイエンティストが見るマテリアルズ・インフォマティクス(MI)とは
株式会社日立製作所
公共システム事業部 公共基盤ソリューション本部
デジタルソリューション推進部 技師 高原 渉氏
続いて登壇したのは、データサイエンティストとして様々なデータに触れ、多様な顧客との協創活動に取り組んでいる高原渉氏である。大学院で材料工学を専攻した後、メーカーでMIを活用した材料開発業務を経て、日立製作所に入社した高原氏。データ分析が趣味であるという。
データ分析コンペ「Kaggle」にも参加し、テーブル・画像・テキストデータそれぞれのタスクで入賞。Kaggle Expertの称号も持つ。さらには、AIに関する資格として日本で最高峰とも言われる、日本ディープラーニング協会E資格も保有している。
高原氏はまず、これまでの材料研究の変遷に触れた。パラダイムは大きく4段階あり、2000年に起きた第四パラダイムがポイントである。
このパラダイムにより機械学習・統計学習による帰納的手法が生まれ、データ科学の実用化が進んだ。
「従来の研究開発は知識と経験をベースに行っていました。一方、MIは知識・経験に加え、データ科学を組み合わせていきます。ポイントはMIは知識・経験、データ科学のどちらか片方では駄目で2つを組み合わせたアプローチであるということだと思います。」(高原氏)
MIを実施するには、「ビジネス力(ドメイン知識)」「データサイエンス力」「データエンジニアリング力」という3要素のスキルが必要だ。ビジネス力は、顧客の課題を見つけ出し、解決する力と言えるだろう。その実現には、対象となる材料分野などのドメイン知識も必要となってくる。
MIは有機材料、無機材料、両者をかけあわあせたコンポジット材料など、多岐に渡る分野で適用可能であり、対象となるデータもテーブルデータ、化合物データ、画像データ、テキストデータと幅広い。このような幅広い領域の様々なデータを適切に扱い、課題解決に導くところは、データサイエンティストの腕の見せどころであると、高原氏は強調している。
コア技術は「順解析」「逆解析「画像解析」「テキストマイニング」など
MIを進めていく上で、コアとなる分析技術・手法には以下が挙げられる。
- 前処理
- 順解析
- 逆解析
- 記述式化
- バーチャルスクリーニング
- 画像解析
- テキストマイニング
上記のコア技術について、それぞれ解説が行われた。
●前処理
欠損値処理、エンコーディング処理といった各種の前処理を行うことで、少数データとなりがちな材料データを余すことなく利用することができる。
●MI分析のコア技術-順解析-
順解析のポイントは、材料特性の予測精度と解釈性を両立して材料設計指針に資する情報を提供することである。
「予測値-実測値のプロットを作成し、挙動を確認した後に、説明変数の重要度を算出し、それぞれの説明変数が対象の目的変数に与える寄与の正負やそのインパクトから材料設計指針に資するようなデータをAIから取得することが重要です。」(高原氏)
また、予測・実測値のグラフを見ると一見良さそうな結果だが、実は信頼性が低いケースもある。そのためAD(Applicability Domain)スコアなども参考にして、アルゴリズムによる挙動の違いを総合的に判断することが重要となる。
●MI分析のコア技術-逆解析-
順解析を行った後に行うのが逆解析だ。AIを用いてどのような配合がよいのかを導出する。数理最適化や、昨今注目されているベイズ最適化などを用いて、複数の目的変数の多目的最適化にも対応する。
トレードオフになりがちな材料物性を同手法を用いることで、パレート解(トレードオフのパラメータをうまくバランスさせた解)を算出する。また、逆解析時には材料の組成などの制約条件を加味することも、重要となる。
●記述子化
化合物情報をAIが読み取れる形に変換すること、いわゆる記述子化もマテリアルズ・インフォマティクスでは重要だ。高原氏は代表的な記述子作成ライブラリであるRDKitなどを紹介した。実務においては、記述子化の技術を使い、化合物タスクをテーブルデータタスクに変換して解く場合がある。
●MI分析のコア技術-バーチャルスクリーニング-
バーチャルスクリーニングでは、まず手持ちの化合物データを前述の記述子化技術を用いてAIモデルを構築する。その後、構築したAIモデルを使用して、オープンデータベースからある一定の閾値を決めてスクリーニングを行う場合と、手持ちの化合物データをフラグメント化してそれを再構成することで新規生成した化合物群からスクリーニングを行う場合とがある。
●画像解析技術
各種の画像解析技術がどのようなシーンで活用されているのかを示したものが、以下の一覧表だ。SEMは走査電子顕微鏡、TEMは透過電子顕微鏡、POMは偏光顕微鏡法の略である。 「ディープラーニングが注目されがちですが、機械学習を使用しないいわゆる古典的な画像処理技術も含めて、画像やタスクに応じて多種多様な画像解析技術を使い分けることが重要です。」(高原氏)
画像解析の一例としてセグメンテーションの事例も紹介された。業務熟練者と近い精度で、各成分の領域の検出ができた事例だ。工数削減や作業効率化が期待できる。
●テキストマイニング技術
テキストマイニング技術は、論文、特許、社内技術資料などの文献からテキスト情報・グラフ情報・テーブル情報を抽出・構造化し、統合情報に整理することで、様々なデータ分析場面に適用することができる。MIに活用可能な機械可読な形で蓄積、活用というワードがテキストマイニングでは重要となる。 高原氏は最後に次のように述べ、セッションを締めた。
「MIではテーブルデータ、化合物データ、画像データ、テキストデータなど、様々なデータを扱うため、多様なデータへの対応スキルが身につきます。新規材料の開発や工数削減に寄与するなど、ものづくりに繋がる点も魅力です。」(高原氏)
MIソリューション×実験装置で起こせるシナジーとは
株式会社日立ハイテク
サプライチェーンプラットフォーム統括本部 SCレジリエンス推進本部
マテリアルソリューション部 技師 面林 康太氏
続いては、データサイエンティストならびに課題解決コンサルタントとして活躍する、面林 康太氏が登壇した。面林氏は、日立製作所で企業のR&D向けアプリケーションの設計・開発ならびにデータ分析を担当した後、現在は日立ハイテクに出向している。
まず面林氏は、MIに活用できる親和性の高いデータは、どのような装置から取得されているのか。日立ハイテクの装置をもとに、データの属性や活用技術も重ねて説明した。
以下図の左側、熱分析装置、分光光度計からは、主にExcelで管理できるテーブルデータが取得されるため、順解析や逆解析といったアプローチで取り組む。一方、右側2つの装置、SEM、TEMといった顕微鏡からは画像データが取得されるため、画像解析の技術や手法を用いる。
日立ハイテクでは、これらの装置から得たデータを顧客課題の解決に活用するために、具体的なソリューション提供とシステム構築による、「データをMIで活用するDX支援」を行っている。
収集・蓄積・活用のフェーズを経て、顧客が得た分析結果をもとに、日立ハイテクが課題解決の支援を行う。顧客自身が分析を行う「分析環境」ソリューションと装置との連携は現在も開発が進んでおり、「いずれはデータの取得からMIを活用した課題解決まで、一気通貫で行いたい」と、面林氏は語っている。
事例紹介:「画像分類」「成分検出」「異常検出」領域の課題を解決
画像解析に絞った事例も紹介された。画像を解析することによる顧客に提供できる価値は、大きく次の3つである。
- 二値化処理が難しい画像でもAIにより高精度な成分検出が可能
- 材料性能に寄与する潜在的な組織構造の特徴量を抽出
- 組織構造の特徴量を用いた相関モデルの構築により、性能を満たすプロセス条件の最適化が行える
日立ハイテクでは、材料開発工程の様々なフェーズにおいて、多くの領域で画像解析技術を用いた価値を提供できる。その中から、面林氏は以下3つの事例を紹介した。
●画像分類
1つ目は、POMから出力されたエポキシ樹脂画像に関する事例だ。以前は画像の分類を目視で行っていたため、分類のばらつきが大きく効率的とはいえなかった。また、材料組織構造の定量評価手法が確立されていないという課題もあった。
課題解決に際しては、他カテゴリのエポキシ樹脂の画像を教師画像、これから判別したい画像用意。この教師画像をベースに画像分類モデルを構築することで、良否判定やカテゴリ分類が可能になった。従来の定性評価を定量的に評価することもできる。
「最終的には構築した分類モデルに画像をインプットすれば、分類結果と定量評価の値を特徴量として、テーブルデータとしてリスト化することができました」(面林氏)
●成分検出
2つ目は、TEMから出力された複合剤の画像を用いた事例だ。画像の成分差分が小さかったため、観察条件の違いにより画質のばらつきが大きく、成分の検出が難しいという課題があった。
そこで、別の材料や別の装置で取得した画像を、教師データとして用意するアプローチを実施。そして、色付けのアノテーションを実施。AIによる判別を試みたが、当初はうまくいかなかった。
「教師画像が1セットしかなく、解析に苦労しました。そこで、オーグメンテーション処理を行うことで、課題を解決しました」(面林氏)
オーグメント処理は画像の分割や輝度調整調を行うことで、教師画像を増やす手法だ。結果として、精度の高いモデルを構築することができた。
セマンティックセグメンテーションという技術も活用することで、アノテーションされた成分を、ピクセルごとに識別することも可能となった。
最終的に少量の教師データから、汎用性の高いセグメンテーションモデルの構築を実現。成分検出の作業効率化に寄与した。
●異常検知
3つ目は、光学顕微鏡が取得したレンズ部品の画像データからは、製品状態の異常度合いの定量評価ができないという事例だ。
レンズ部品の画像、レンズ部品の傷の部分を色塗りアノテーションした画像を教師画像、これから判別したい入力画像を用意。当初は製品状態に関する異物の特徴量が不明確で、識別が難しいという懸念があったため、セマンティックセグメンテーションやテクスチャ解析といった手法を選択した。
特徴量が未知の場合でも、アノテーションの成分量を特徴量としてリスト化。目的の製品状態を表す、特徴量を定量的に評価できるようになった。
このように顧客課題に貢献できることが、データサイエンティストの楽しさだと語る面林氏。最後に今後の展望を述べ、セッションを締めた。
「国内においてMIは、まだ成長フェーズ。しかし今後はマーケットもさらに拡大するでしょう。MIが発展することで、材料開発など研究開発の飛躍的な加速に繋がることを期待しています。その先にある、日本産業の発展に貢献していきたいと思います」(面林氏)
【Q&A】参加者からの質問に登壇者が回答
セッション後は、MIチームのリーダーである野川祐弥氏も加わり、参加者からの質問に、登壇者が回答した。
Q.自身の子どもにも、MIのデータサイエンティストになることを望むか
面林:2歳の息子がいますが、成長したときにはデータのり活用利活用が当たり前の社会になっていることでしょう。そのためデータをしっかりと見極めたり、分析することのできるスキルは、生きていく上で必要になっているのではないかと。データサイエンティストになるかどうかは息子が決めることですが(笑)。
高原:私も2歳の息子がいます。Kaggleの書籍をペラペラとめくって遊んでいるので、データサイエンティストの素養があるのではないかと期待しています。
野川:7歳の息子がいます。なれるかどうかは別ですが、注目されている職業でもあるので、なってもらいたいと思っています。私のような営業職でもデータドリブンな仕事の進め方が必要になっているので、素養は身につけてもらいたいですね。
Q.日立製作所、日立ハイテクのMIにおける強みとは?
野川:大きく3つあると考えています。1つ目は幅広い領域のお客様の課題に向き合ってきた歴史があること。2つ目はデータの源泉となる各種分析装置を有していること。3つ目は日立グループとしてIT、OT両方のアセットを持っていることで、MIに留まることなく様々なDXソリューションを提供できる点です。
高原:DXも含め、トータルソリューションの提供ができる環境があることです。
面林:テーブルデータに限らず、テキスト、画像データなどを掛け合わせたMIを提供している点です。
Q.将来MIに携わりたい学生にアドバイスしてほしい
面林:突出した知識やスキルが1つでもあると、社会や会社に入ってから活かせるので、いま大学で学んでいることを極めてほしいと思います。
高原:データサイエンスを学ぶ学部や授業も増えており、最近、データサイエンス界隈はホットな領域だと感じています。また、Kaggleなどには良質なコードがアップされているので、参考にするのもいいと思います。
Q.画像処理など、MIの学習でおすすめの教材は?
高原:明治大学でデータサイエンス関連の研究など取り組まれている、金子弘昌先生の著書が参考になります。画像処理に関しては深層学習だけでなく、OpenCVなど古典的な画像処理など、幅広いアプローチスキルを身につけることをお勧めします。
Q.MI分野でよく使われる機械学習や深層学習の手法は?
面林:「ガウシアンプロセス(Gaussian Process)」、「ランダムフォレスト(Random Forest)」、「サポートベクターマシン(Support Vector Machine)」など、世の中にある一般的なアルゴリズムを使っています。ただパラメータはお客様の課題に合わせて変更し、分析しています。
Q.材料開発のドメイン知識はどのように身につければいいのか
高原:私自身は大学での専攻が材料工学ですし、社内にも材料開発のドメイン知識を持つメンバーがいます。私たちはそういったメンバーの知見を活かしたり、サポートを受けながら身につけています。