TECH PLAY

2024/02/09(金)19:00 〜 20:00
Bookmark Icon

第6回 Data-Centric AI勉強会

オンライン

イベント内容

イベント概要

AI開発における「データ」に着目した取り組みについて、世界的な動向や、様々な人・組織の知見・ノウハウなどを共有するための勉強会です。具体的なテーマとしては、例えばデータ収集の工夫、データ品質の評価・改善、アノテーションの効率化など様々なものが考えられます。データに主眼を置いたものを幅広く対象とします。

今回はLINEヤフー 横尾様、東工大 服部様から2件の発表です!

SNS等におけるハッシュタグは #dcai_jp でお願いいたします。

今後のData-Centric AI勉強会でのご発表を希望される方は以下のフォームよりお申し込みください。
Data-Centric AI勉強会発表申し込みフォーム

タイムテーブル

時間講演者内容
19:00-19:05運営オープニング
19:05-19:30横尾 修平大規模画像テキストペアデータのフィルタリング手法の紹介
19:30-19:55服部 翔東工大Swallowプロジェクトにおける大規模日本語Webコーパスの構築
19:55-20:00運営クロージング

発表内容

大規模画像テキストペアデータのフィルタリング手法の紹介

基盤モデルのための事前学習用のデータは「量」にフォーカスされがちですが、昨今では「質」の部分にも注目が集まっています。特に昨年開催されたDataCompは、データの質にフォーカスしたData-centricなコンペ設計となっており、データフィルタリングのノウハウが多数共有されました。本発表ではDataCompでの事例を中心に、最近の大規模画像テキストペアデータのためのフィルタリング手法について紹介します。

発表者 横尾 修平 様 (@lyakaap)

新卒でDeNAに入社後、2022年9月にLINEヤフー株式会社に中途入社し、現在は基盤モデルのデータ収集業務に従事。Kaggle Grandmaster。

東工大Swallowプロジェクトにおける大規模日本語Webコーパスの構築

東工大岡崎研究室と横田研究室が研究・開発を行った大規模言語モデル『Swallow』の学習にあたり独自に構築した『Swallowコーパス』は、現時点で商用利用が可能な日本語の言語モデルの学習コーパスの中で最大となっています。本発表では、その概要や具体的なコーパス構築手順について紹介します。

発表者 服部 翔 様 (@ayase_lab)

東京工業大学情報理工学院 情報工学系知能情報コース 岡崎研究室 修士1年

会場

オンライン (YouTube Live) で開催いたします。質疑応答はSlidoにて行います。YouTube Live及びSlidoのURLは開催前日に参加者の方にお知らせします。

※後日アーカイブ公開を予定しています。

配信スポンサー

GO株式会社様


          

注意事項

※ こちらのイベント情報は、外部サイトから取得した情報を掲載しています。

※ 掲載タイミングや更新頻度によっては、情報提供元ページの内容と差異が発生しますので予めご了承ください。

※ 最新情報の確認や参加申込手続き、イベントに関するお問い合わせ等は情報提供元ページにてお願いします。

connpass