日本語LLMチューニングデータ最前線 - W&B ミートアップ #12 in 東京
イベント内容
イベント概要
今回のWeights & Biasesミートアップは、LLMのファインチューニング(特に指示チューニング)に用いるデータにフォーカスを当てます。2023年初めに日本語LLM開発が一段と活発になってから1年が経過し、LLMのビジネスタスクへの適用を考える際のモデルの選択肢も随分と増えてきました。また、会社によっては社内開発した基盤モデルが各事業部門に引き渡されて活用を模索しているという段階も多いのではないでしょうか?その際には基盤モデルはそのままではビジネス適用できる形にはなっていないため、指示チューニングを始めとしたファインチューニングが必須になってきます。
今回は日本語LLMコミュニティにおいて初期から個人としてこの分野に多大な貢献をされてきたkunishouさんこと國吉 翔平様と「ichikara-instruction」の開発者である理化学研究所の関根先生の日本を代表するお二人にご登壇頂きます。
スポンサーからのお願い
- 講演開催中にお弁当形式の軽食と、懇親会でのお飲み物の提供を予定しておりますが、数には限りがありご参加者全員に行き渡らない場合もございます。
タイムテーブル
時間 | 内容 | スピーカー |
---|---|---|
18:00 ~ 18:30 | 受付 | |
18:30 ~ 18:40 | オープニング:今回のミートアップの主旨 | シバタアキラ |
18:40 ~ 19:20 | 「大規模言語モデル開発のための日本語 Instruction データセット作成の取り組み」 | 國吉 翔平さん |
19:20 ~ 19:30 | 休憩 | |
19:30 ~ 20:10 | 「LLM構築におけるインストラクションの効果と人間とGPT-4による評価で観察されたもの」 | 関根 聡 先生 |
20:10 ~ 20:25 | 「WandBによるInstruction Tuningモデルの評価自動化」 | 山本 祐也 |
20:25 ~ | 懇親会 | ご参加は任意で |
スピーカー
國吉 翔平(@kam0shika / @kun1em0n) – データアナリスト
横浜国立大学大学院 環境情報学府を修了後、通信会社に入社。通信ユーザーの需要予測や通信インフラの劣化予測等の業務に従事。その後、大手ITテック企業に転職し、現在はデータアナリストとして広告サービスの分析を担当。本業の傍ら、個人での活動として日本語 LLM 向けのデータセット作成に取り組んでいる。
「大規模言語モデル開発のための日本語 Instruction Tuning データセット作成の取り組み」
大規模言語モデル(LLM)の開発において、Instruction Tuning(指示調整)は重要な要素のひとつです。しかし、世の中にある日本語の指示調整データセットの数は少なく、日本語LLMを開発する大きな障壁となっています。この問題に対処するため、これまで英語データセットの日本語への翻訳や、独自に指示データを集めるなど、日本語データセットの拡充に向け様々な取り組みを行ってきました。本講演では、指示調整データセット作成を中心としたこれまでの活動内容や今後の展望についてご紹介いたします。
関根 聡 M3, 理化学研究所革新知能統合研究センター・言語情報アクセスチームチームリーダー
理化学研究所革新知能統合研究センター・言語情報アクセスチームチームリーダー。2024年4月からは情報学研究所LLM研究開発センター特任教授を兼任。1992年英国マンチェスター大学計算言語学部修士号。1998年ニューヨーク大学コンピューターサイエンス学部博士号取得後、1998年助教授、2007年准教授。パナソニック、ソニー、楽天などでの研究職を歴任。合同会社ランゲージ・クラフト創設。株式会社いちからにも参加。複数の企業の技術顧問も兼任。専門は自然言語処理。特に情報抽出、固有表現抽出、知識構築の研究に従事。
「LLM構築におけるインストラクションの効果と人間とGPT-4による評価で観察されたもの」
GPTをはじめとする大規模言語モデル(LLM)が幅広い層から利用され、日本独自のLLMモデル構築にも興味が集まっている。我々はそのためのインストラクション「ichikara-instruction」を構築し、その効果を報告する。また、このインストラクションを利用して構築したLLMの出力に対し、人間による評価とGPT4を利用した評価を実施した。その比較分析とそこから観察されたものについて紹介する。発表時点では約1万のインストラクションが完成し、研究目的にも公開されており、それを利用した実験から判明している事についても紹介する予定である。
会場
WeWork 東京スクエアガーデン
住所: 104-0031 東京都中央区京橋3-1-1 東京スクエアガーデン 14F
(以前のイベントの様子)
アクセス
- 東京メトロ 銀座線 京橋駅(出口3)(駅直結)
- 東京メトロ 有楽町線 銀座一丁目駅(出口7) 徒歩2分
- 都営浅草線 宝町駅(A4出口) 徒歩2分
京橋駅直結のビル。3階にあがるとオフィスエントランスがございます。 3階からエレベーターで14階までお越しください。 会場へのアクセス方法の詳細はこちらに:http://wandb.me/tokyo-office
主催・運営
このイベントはWeights & Biases Japan によって運営されています。
本イベントの開催には、WeWork様に多大なご協力をいただいております。
このミートアップに登録することで、Weights & Biasesの製品、サービス、イベントに関するマーケティングコミュニケーションを受け取ることがあります。W&Bは、お客様の個人情報をプライバシーポリシーに従ってのみ使用し、これらのコミュニケーションはいつでも解除することができます。
このミートアップ中に写真や動画が撮影されます。これらはW&Bによってマーケティングや宣伝用に、出版物、ウェブサイト、ソーシャルメディアで使用されることがあります。何か懸念がある場合や、撮影や録画されたくない場合は、お問い合わせください。
注意事項
※ 掲載タイミングや更新頻度によっては、情報提供元ページの内容と差異が発生しますので予めご了承ください。
※ 最新情報の確認や参加申込手続き、イベントに関するお問い合わせ等は情報提供元ページにてお願いします。
新規会員登録
このイベントに申し込むには会員登録が必要です。
アカウント登録済みの方はログインしてください。
※ ソーシャルアカウントで登録するとログインが簡単に行えます。
※ 連携したソーシャルアカウントは、会員登録完了後にいつでも変更できます。