ウェビナー:30超のLLMモデルの日本語能力を多角的に比較して見えてきたこと
イベント内容
概要
Weights & Biases Japanでは、昨年末、日本最大規模の日本語LLM評価ランキングである、Nejumi.aiリーダーボードのアップデート版、Nejumi LLMリーダーボード Neoを公開しました。
この新しいバージョンの開発に際しては、LLM-jpのモデル評価チームや、Stability AI Japan の評価チームの皆さん、弊社内LLMエクスパートチームなどとのディスカッションを経て日本でLLM開発・提供をされている方々にとってフェアで、広く役にたつ評価方法の構築を心がけました。
本ウェビナーでは:
- 新しいNejumiリーダーボードの仕組みのご紹介と、リーダーボード内の分析機能を活用して多数のLLMモデルの日本語性能を比較することによって見えてきたインサイトをご共有します
- 言語理解評価に使っているLLM-jpコラボレーションで開発されたJasterデータセットと、言語生成評価に使っているStability AI社の開発したMT-Bench-jpそれぞれのチームから、モデル評価方法の詳細を説明していただきます
- Nejumiリーダーボードの評価を自社モデルに対して簡単に実行し、その結果を公開しなくても他のベンチマークモデルと比較する方法をご紹介します。
背景
今回のリーダーボードアップデートの背景は、こちらのブログにて紹介させていただきました
Weights & Biases とは
Weights & Biases(WandB)は、エンタープライズグレードのML実験管理およびエンドツーエンドMLOpsワークフローを包含する開発・運用者向けプラットフォームです。WandBは、LLM開発や画像セグメンテーション、創薬など幅広い深層学習ユースケースに対応し、NVIDIA、OpenAI、Toyotaなど、国内外で80万人以上の先端的ML開発者に信頼されているAI開発の新たなベストプラクティスです。
タイムテーブル
時間 | 内容 | スピーカー |
---|---|---|
16:00 ~ 16:20 | Nejumi LLMリーダーボードNeoのご紹介とそこからのインサイト | W&B 鎌田啓輔 |
16:20 ~ 16:40 | Jasterデータセットを使ったLLMモデルの評価 | LLM-JP, 東京大学 Namgi Han |
16:40 ~ 17:00 | Q&A および 休憩 | |
17:00 ~ 17:20 | MT-Bench-Jpデータセットを使ったLLMモデルの評価 | Stability AI |
17:20 ~ 17:40 | Nejumiリーダーボード評価の走らせ方 | W&B 山本祐也 |
17:40 ~ 18:00 | Q&A |
スピーカー
Meng Lee, Stability AI
講演タイトル「MT-Bench-Jpデータセットを使ったLLMモデルの評価」
台湾大学情報管理科で情報検索と自然言語処理を専攻しました。2016年に来日してから Software Engineer としてEコマースの検索エンジンを開発し、SmartNewsに入社後は Data Scientist として大規模データの分析を行い、会社初のニューラルネットワークに基づくニュース分類システムを構築し、ニュース推薦システムの開発を行いました。現在は Stability AI Japanで機械学習エンジニアとして、日本語大規模言語モデルの研究開発を主導しています。
Namgi Han, 東京大学大学院情報理工学係研究科コンピューター学専攻特任研究員
講演タイトル「Jasterデータセットを使ったLLMモデルの評価」
2021年、総合研究大学院大学複合科学研究科情報学専攻で、言語モデルと言語知識の間の関係性を分析した研究で博士号を取得。韓国の蔚山科学技術大学校の博士後研究員を経て、現在は東京大学大学院情報理工学係研究科コンピューター学専攻で、「自然言語の非線形性の計算論モデル」というプロジェクトの特任研究員として在職中。主に言語モデルが人間の言語をどう学習しているかの分析に興味があり、その延長として大規模言語モデルの評価手法・結果分析の研究にも参加している。
鎌田 啓輔 - Weights & Biases Japan, MLエンジニア
講演タイトル「Nejumi LLMリーダーボードNeoのご紹介とそこからのインサイト」
京都大学情報学研究科で機械学習を専攻。新卒では因果推論ツールを提供する外資系企業に参画し、ビジネス施策における因果推論に従事。その後、DataRobotにてLead Data Scientistとしてヘルスケアチームのリーダーとしてヘルスケアの企業を中心に国内数十社のAI導入を支援。コロナ禍にはデータに基づく対策方針の決定に資するべく、分析担当・PMとして国立国際医療研究センターと共同で解析プロジェクトを推進し、その結果をもとに論文を執筆。厚生労働省へのレター提出にも参画。因果推論から機械学習、Deep Learningまで行う機械学習エンジニア。
山本 祐也 - Weights & Biases Japan, MLエンジニア
講演タイトル「Nejumiリーダーボード評価の走らせ方」
東京大学大学院工学系研究科にて有機無機複合材料の研究で博士号を取得。学位取得後、大手化学メーカーにて液晶・タッチパネル関連先端化学材料の研究開発に従事。 その後、大手食品メーカーで機械学習を用いた食品パッケージに関する予測モデリングと最適化に取り組むなど、BtBとBtCいずれにも深い経験を有する。前職DataRobotでは製造顧客担当チームのリーダーとして国内数十社のAI導入を支援。国内で数十人程度のKaggle Grandmasterの一人。
カンファレンス詳細
- 日 時: 2023年1月24日 16:00-18:00
- 参加費: 無料(事前登録制)
- お問い合わせ:contact-jp@wandb.com
注意事項
※ 掲載タイミングや更新頻度によっては、情報提供元ページの内容と差異が発生しますので予めご了承ください。
※ 最新情報の確認や参加申込手続き、イベントに関するお問い合わせ等は情報提供元ページにてお願いします。
新規会員登録
このイベントに申し込むには会員登録が必要です。
アカウント登録済みの方はログインしてください。
※ ソーシャルアカウントで登録するとログインが簡単に行えます。
※ 連携したソーシャルアカウントは、会員登録完了後にいつでも変更できます。