LLMモデルの評価方法 - W&B 東京ミートアップ #8

2023/11/15(水)18:30 〜 21:00 開催
ブックマーク

イベント内容

イベント概要

今回のW&Bミートアップでは、LLMの評価にフォーカスを当てます。W&Bの周辺では日本最大級のLLMリーダーボード、Nejumi.aiを運営していく中で、LLM評価についてさまざまなディスカッションを行ってきましたが、基盤モデルおよびファインチューニング手法の進化を背景に、LLM評価のあり方についての議論にはまだまだ決着を見ることがありません。 特に、10月半ばにリリースされたLLM-jpのモデルにおいては、JGLUEなどの評価データセットに合わせたファインチューニングを行うことによって、小さなモデルでもGPT-4に迫る精度が報告され、汎用的LLMモデルの精度評価にはこれまでよりもさらに幅広い視点が必要であることを示しました。

今回のミートアップでは、Nejumi.aiをはじめ、LLMの性能評価に幅広く活用されているJGLUEデータセットの著者のお一人でもある、早稲田大学の河原先生と、LLM-jpの評価ツール開発を担当されているNamgi Hanさんをお招きし、LLM評価におけるデータセットと評価システムの最前線を学び、ディスカッションしたいと思っています。

スポンサーからのお願い

  • 講演開催中にお弁当形式の軽食と、懇親会でのお飲み物の提供を予定しておりますが、数には限りがありご参加者全員に行き渡らない場合もございます。

タイムテーブル

時間 内容 スピーカー
18:00 ~ 18:30 受付
18:30 ~ 18:35 オープニング:今回のミートアップの主旨 シバタアキラ
18:35 ~ 19:35 「JGLUEの構築そして日本語LLM評価のこれから」 河原大輔先生
19:40 ~ 20:40 「llm-jp-eval:日本語大規模言語モデルの自動評価ツールの開発に向けて」 Namgi Hanさん
20:45 ~ 懇親会 ご参加は任意で

スピーカー

河原大輔, 早稲田大学基幹理工学部情報通信学科教授

Kawahara-san

2002年京都大学大学院博士課程単位取得認定退学.東京大学大学院情報理工学系研究科学術研究支援員,独立行政法人情報通信研究機構主任研究員,京都大学大学院情報学研究科准教授を経て,2020年より早稲田大学基幹理工学部情報通信学科教授.自然言語処理,知識獲得の研究に従事.

「JGLUEの構築そして日本語LLM評価のこれから」

  • 私が構築に携わったJGLUEの話
  • jasterの簡単な紹介
  • 開発中のJGLUE v2の話
  • 今後のLLM評価のあり方

Namgi Han, 東京大学大学院情報理工学係研究科コンピューター学専攻特任研究員

Han-san

2021年、総合研究大学院大学複合科学研究科情報学専攻で、言語モデルと言語知識の間の関係性を分析した研究で博士号を取得。韓国の蔚山科学技術大学校の博士後研究員を経て、現在は東京大学大学院情報理工学係研究科コンピューター学専攻で、「自然言語の非線形性の計算論モデル」というプロジェクトの特任研究員として在職中。主に言語モデルが人間の言語をどう学習しているかの分析に興味があり、その延長として大規模言語モデルの評価手法・結果分析の研究にも参加している。

「llm-jp-eval:日本語大規模言語モデルの自動評価ツールの開発に向けて」

様々な日本語大規模言語モデルが公開されていますが、それらをどう評価するべきかに対する問題はまだ議論が続いています。本講演では、最近公開されたLLM-jp(LLM勉強会)の大規模言語モデル(LLM-jp-13B)の自動評価ツールとして開発されているllm-jp-evalを紹介します。llm-jp-evalは公開されている日本語の自然言語処理のタスクを言語モデルの生成結果のみで自動評価するツールであり、オープンソースとして公開しています。また、LLM-jp-13Bの公開プロセスでの経験に基づいた言語モデルの評価に対する学び、改善事項も共有します。

会場

WeWork 東京スクエアガーデン

住所: 104-0031 東京都中央区京橋3-1-1 東京スクエアガーデン 14F

これまでのイベントの様子 (以前のイベントの様子)

アクセス

  • 東京メトロ 銀座線 京橋駅(出口3)(駅直結)
  • 東京メトロ 有楽町線 銀座一丁目駅(出口7) 徒歩2分
  • 都営浅草線 宝町駅(A4出口) 徒歩2分

京橋駅直結のビル。3階にあがるとオフィスエントランスがございます。 3階からエレベーターで14階までお越しください。 会場へのアクセス方法の詳細はこちらに:http://wandb.me/tokyo-office

主催・運営

このイベントはWeights & Biases Japan によって運営されています。

WBLogo

本イベントの開催には、WeWork様に多大なご協力をいただいております。

このミートアップに登録することで、Weights & Biasesの製品、サービス、イベントに関するマーケティングコミュニケーションを受け取ることがあります。W&Bは、お客様の個人情報をプライバシーポリシーに従ってのみ使用し、これらのコミュニケーションはいつでも解除することができます。

このミートアップ中に写真や動画が撮影されます。これらはW&Bによってマーケティングや宣伝用に、出版物、ウェブサイト、ソーシャルメディアで使用されることがあります。何か懸念がある場合や、撮影や録画されたくない場合は、お問い合わせください。

注意事項

※ こちらのイベント情報は、外部サイトから取得した情報を掲載しています。
※ 掲載タイミングや更新頻度によっては、情報提供元ページの内容と差異が発生しますので予めご了承ください。
※ 最新情報の確認や参加申込手続き、イベントに関するお問い合わせ等は情報提供元ページにてお願いします。
情報提供元ページ(connpass)へ

新規会員登録

このイベントに申し込むには会員登録が必要です。
アカウント登録済みの方はログインしてください。



※ ソーシャルアカウントで登録するとログインが簡単に行えます。

※ 連携したソーシャルアカウントは、会員登録完了後にいつでも変更できます。

関連するイベント