2024/02/09(金)19:00 〜 20:00

第6回 Data-Centric AI勉強会

オンライン

イベント内容

イベント概要

AI開発における「データ」に着目した取り組みについて、世界的な動向や、様々な人・組織の知見・ノウハウなどを共有するための勉強会です。具体的なテーマとしては、例えばデータ収集の工夫、データ品質の評価・改善、アノテーションの効率化など様々なものが考えられます。データに主眼を置いたものを幅広く対象とします。

今回はLINEヤフー横尾様、東工大服部様から2件の発表です！

SNS等におけるハッシュタグは #dcai_jp でお願いいたします。

今後のData-Centric AI勉強会でのご発表を希望される方は以下のフォームよりお申し込みください。
Data-Centric AI勉強会発表申し込みフォーム

タイムテーブル

時間	講演者	内容
19:00-19:05	運営	オープニング
19:05-19:30	横尾修平	大規模画像テキストペアデータのフィルタリング手法の紹介
19:30-19:55	服部翔	東工大Swallowプロジェクトにおける大規模日本語Webコーパスの構築
19:55-20:00	運営	クロージング

発表内容

大規模画像テキストペアデータのフィルタリング手法の紹介

基盤モデルのための事前学習用のデータは「量」にフォーカスされがちですが、昨今では「質」の部分にも注目が集まっています。特に昨年開催されたDataCompは、データの質にフォーカスしたData-centricなコンペ設計となっており、データフィルタリングのノウハウが多数共有されました。本発表ではDataCompでの事例を中心に、最近の大規模画像テキストペアデータのためのフィルタリング手法について紹介します。

発表者横尾修平様 (@lyakaap)

新卒でDeNAに入社後、2022年9月にLINEヤフー株式会社に中途入社し、現在は基盤モデルのデータ収集業務に従事。Kaggle Grandmaster。

東工大Swallowプロジェクトにおける大規模日本語Webコーパスの構築

東工大岡崎研究室と横田研究室が研究・開発を行った大規模言語モデル『Swallow』の学習にあたり独自に構築した『Swallowコーパス』は、現時点で商用利用が可能な日本語の言語モデルの学習コーパスの中で最大となっています。本発表では、その概要や具体的なコーパス構築手順について紹介します。

発表者服部翔様 (@ayase_lab)

東京工業大学情報理工学院情報工学系知能情報コース岡崎研究室修士1年