第6回 Data-Centric AI勉強会
イベント内容
イベント概要
AI開発における「データ」に着目した取り組みについて、世界的な動向や、様々な人・組織の知見・ノウハウなどを共有するための勉強会です。具体的なテーマとしては、例えばデータ収集の工夫、データ品質の評価・改善、アノテーションの効率化など様々なものが考えられます。データに主眼を置いたものを幅広く対象とします。
今回はLINEヤフー 横尾様、東工大 服部様から2件の発表です!
SNS等におけるハッシュタグは #dcai_jp でお願いいたします。
今後のData-Centric AI勉強会でのご発表を希望される方は以下のフォームよりお申し込みください。
Data-Centric AI勉強会発表申し込みフォーム
タイムテーブル
時間 | 講演者 | 内容 |
---|---|---|
19:00-19:05 | 運営 | オープニング |
19:05-19:30 | 横尾 修平 | 大規模画像テキストペアデータのフィルタリング手法の紹介 |
19:30-19:55 | 服部 翔 | 東工大Swallowプロジェクトにおける大規模日本語Webコーパスの構築 |
19:55-20:00 | 運営 | クロージング |
発表内容
大規模画像テキストペアデータのフィルタリング手法の紹介
基盤モデルのための事前学習用のデータは「量」にフォーカスされがちですが、昨今では「質」の部分にも注目が集まっています。特に昨年開催されたDataCompは、データの質にフォーカスしたData-centricなコンペ設計となっており、データフィルタリングのノウハウが多数共有されました。本発表ではDataCompでの事例を中心に、最近の大規模画像テキストペアデータのためのフィルタリング手法について紹介します。
発表者 横尾 修平 様 (@lyakaap)
新卒でDeNAに入社後、2022年9月にLINEヤフー株式会社に中途入社し、現在は基盤モデルのデータ収集業務に従事。Kaggle Grandmaster。
東工大Swallowプロジェクトにおける大規模日本語Webコーパスの構築
東工大岡崎研究室と横田研究室が研究・開発を行った大規模言語モデル『Swallow』の学習にあたり独自に構築した『Swallowコーパス』は、現時点で商用利用が可能な日本語の言語モデルの学習コーパスの中で最大となっています。本発表では、その概要や具体的なコーパス構築手順について紹介します。
発表者 服部 翔 様 (@ayase_lab)
東京工業大学情報理工学院 情報工学系知能情報コース 岡崎研究室 修士1年
会場
オンライン (YouTube Live) で開催いたします。質疑応答はSlidoにて行います。YouTube Live及びSlidoのURLは開催前日に参加者の方にお知らせします。
※後日アーカイブ公開を予定しています。
配信スポンサー
注意事項
※ 掲載タイミングや更新頻度によっては、情報提供元ページの内容と差異が発生しますので予めご了承ください。
※ 最新情報の確認や参加申込手続き、イベントに関するお問い合わせ等は情報提供元ページにてお願いします。
新規会員登録
このイベントに申し込むには会員登録が必要です。
アカウント登録済みの方はログインしてください。
※ ソーシャルアカウントで登録するとログインが簡単に行えます。
※ 連携したソーシャルアカウントは、会員登録完了後にいつでも変更できます。