第6回 Data-Centric AI勉強会

2024/02/09(金)19:00 〜 20:00 開催
ブックマーク

イベント内容

イベント概要

AI開発における「データ」に着目した取り組みについて、世界的な動向や、様々な人・組織の知見・ノウハウなどを共有するための勉強会です。具体的なテーマとしては、例えばデータ収集の工夫、データ品質の評価・改善、アノテーションの効率化など様々なものが考えられます。データに主眼を置いたものを幅広く対象とします。

今回はLINEヤフー 横尾様、東工大 服部様から2件の発表です!

SNS等におけるハッシュタグは #dcai_jp でお願いいたします。

今後のData-Centric AI勉強会でのご発表を希望される方は以下のフォームよりお申し込みください。
Data-Centric AI勉強会発表申し込みフォーム

タイムテーブル

時間 講演者 内容
19:00-19:05 運営 オープニング
19:05-19:30 横尾 修平 大規模画像テキストペアデータのフィルタリング手法の紹介
19:30-19:55 服部 翔 東工大Swallowプロジェクトにおける大規模日本語Webコーパスの構築
19:55-20:00 運営 クロージング

発表内容

大規模画像テキストペアデータのフィルタリング手法の紹介

基盤モデルのための事前学習用のデータは「量」にフォーカスされがちですが、昨今では「質」の部分にも注目が集まっています。特に昨年開催されたDataCompは、データの質にフォーカスしたData-centricなコンペ設計となっており、データフィルタリングのノウハウが多数共有されました。本発表ではDataCompでの事例を中心に、最近の大規模画像テキストペアデータのためのフィルタリング手法について紹介します。

発表者 横尾 修平 様 (@lyakaap)

新卒でDeNAに入社後、2022年9月にLINEヤフー株式会社に中途入社し、現在は基盤モデルのデータ収集業務に従事。Kaggle Grandmaster。

東工大Swallowプロジェクトにおける大規模日本語Webコーパスの構築

東工大岡崎研究室と横田研究室が研究・開発を行った大規模言語モデル『Swallow』の学習にあたり独自に構築した『Swallowコーパス』は、現時点で商用利用が可能な日本語の言語モデルの学習コーパスの中で最大となっています。本発表では、その概要や具体的なコーパス構築手順について紹介します。

発表者 服部 翔 様 (@ayase_lab)

東京工業大学情報理工学院 情報工学系知能情報コース 岡崎研究室 修士1年

会場

オンライン (YouTube Live) で開催いたします。質疑応答はSlidoにて行います。YouTube Live及びSlidoのURLは開催前日に参加者の方にお知らせします。

※後日アーカイブ公開を予定しています。

配信スポンサー

GO株式会社様


          

注意事項

※ こちらのイベント情報は、外部サイトから取得した情報を掲載しています。
※ 掲載タイミングや更新頻度によっては、情報提供元ページの内容と差異が発生しますので予めご了承ください。
※ 最新情報の確認や参加申込手続き、イベントに関するお問い合わせ等は情報提供元ページにてお願いします。
情報提供元ページ(connpass)へ

新規会員登録

このイベントに申し込むには会員登録が必要です。
アカウント登録済みの方はログインしてください。



※ ソーシャルアカウントで登録するとログインが簡単に行えます。

※ 連携したソーシャルアカウントは、会員登録完了後にいつでも変更できます。

関連するイベント