BEGIN:VCALENDAR
VERSION:2.0
PRODID:-//https://techplay.jp//JP
CALSCALE:GREGORIAN
METHOD:PUBLISH
X-WR-CALDESC:ウェビナー：30超のLLMモデルの日本語能力を多
 角的に比較して見えてきたこと
X-WR-CALNAME:ウェビナー：30超のLLMモデルの日本語能力を多
 角的に比較して見えてきたこと
X-WR-TIMEZONE:Asia/Tokyo
BEGIN:VTIMEZONE
TZID:Asia/Tokyo
BEGIN:STANDARD
DTSTART:19700101T000000
TZOFFSETFROM:+0900
TZOFFSETTO:+0900
TZNAME:JST
END:STANDARD
END:VTIMEZONE
BEGIN:VEVENT
UID:931955@techplay.jp
SUMMARY:ウェビナー：30超のLLMモデルの日本語能力を多角
 的に比較して見えてきたこと
DTSTART;TZID=Asia/Tokyo:20240124T160000
DTEND;TZID=Asia/Tokyo:20240124T180000
DTSTAMP:20260724T224542Z
CREATED:20240110T140717Z
DESCRIPTION:イベント詳細はこちら\nhttps://techplay.jp/event/93195
 5?utm_medium=referral&utm_source=ics&utm_campaign=ics\n\n概要\nWeights 
 & Biases Japanでは、昨年末、日本最大規模の日本語LLM評
 価ランキングである、Nejumi.aiリーダーボードのアップ
 デート版、Nejumi LLMリーダーボード Neoを公開しました
 。\nこの新しいバージョンの開発に際しては、LLM-jpの
 モデル評価チームや、Stability AI Japan の評価チームの皆
 さん、弊社内LLMエクスパートチームなどとのディスカ
 ッションを経て日本でLLM開発・提供をされている方々
 にとってフェアで、広く役にたつ評価方法の構築を心
 がけました。\n本ウェビナーでは：\n\n新しいNejumiリー
 ダーボードの仕組みのご紹介と、リーダーボード内の
 分析機能を活用して多数のLLMモデルの日本語性能を比
 較することによって見えてきたインサイトをご共有し
 ます\n言語理解評価に使っているLLM-jpコラボレーショ
 ンで開発されたJasterデータセットと、言語生成評価に
 使っているStability AI社の開発したMT-Bench-jpそれぞれの
 チームから、モデル評価方法の詳細を説明していただ
 きます\nNejumiリーダーボードの評価を自社モデルに対
 して簡単に実行し、その結果を公開しなくても他のベ
 ンチマークモデルと比較する方法をご紹介します。\n\n
 背景\n今回のリーダーボードアップデートの背景は、
 こちらのブログにて紹介させていただきました\nWeights 
 & Biases とは\nWeights & Biases（WandB）は、エンタープライ
 ズグレードのML実験管理およびエンドツーエンドMLOpsワ
 ークフローを包含する開発・運用者向けプラットフォ
 ームです。WandBは、LLM開発や画像セグメンテーション
 、創薬など幅広い深層学習ユースケースに対応し、NVID
 IA、OpenAI、Toyotaなど、国内外で80万人以上の先端的ML開
 発者に信頼されているAI開発の新たなベストプラクテ
 ィスです。\nタイムテーブル\n\n\n\n時間\n内容\nスピー
 カー\n\n\n\n\n16:00 ~ 16:20\nNejumi LLMリーダーボードNeoのご
 紹介とそこからのインサイト\nW&B 鎌田啓輔\n\n\n16:20 ~ 16
 :40\nJasterデータセットを使ったLLMモデルの評価\nLLM-JP\, 
 東京大学  Namgi Han\n\n\n16:40 ~ 17:00\nQ&A および 休憩\n\n\n\n1
 7:00 ~ 17:20\nMT-Bench-Jpデータセットを使ったLLMモデルの評
 価\nStability AI\n\n\n17:20 ~ 17:40\nNejumiリーダーボード評価
 の走らせ方\nW&B 山本祐也\n\n\n17:40 ~ 18:00\nQ&A\n\n\n\n\nスピ
 ーカー\nMeng Lee\, Stability AI\n講演タイトル「MT-Bench-Jpデ
 ータセットを使ったLLMモデルの評価」\n\n台湾大学情報
 管理科で情報検索と自然言語処理を専攻しました。2016
 年に来日してから Software Engineer としてEコマースの検
 索エンジンを開発し、SmartNewsに入社後は Data Scientist と
 して大規模データの分析を行い、会社初のニューラル
 ネットワークに基づくニュース分類システムを構築し
 、ニュース推薦システムの開発を行いました。現在は 
 Stability AI Japanで機械学習エンジニアとして、日本語大
 規模言語モデルの研究開発を主導しています。\nNamgi Ha
 n\, 東京大学大学院情報理工学係研究科コンピューター
 学専攻特任研究員\n講演タイトル「Jasterデータセット
 を使ったLLMモデルの評価」\n\n2021年、総合研究大学院
 大学複合科学研究科情報学専攻で、言語モデルと言語
 知識の間の関係性を分析した研究で博士号を取得。韓
 国の蔚山科学技術大学校の博士後研究員を経て、現在
 は東京大学大学院情報理工学係研究科コンピューター
 学専攻で、「自然言語の非線形性の計算論モデル」と
 いうプロジェクトの特任研究員として在職中。主に言
 語モデルが人間の言語をどう学習しているかの分析に
 興味があり、その延長として大規模言語モデルの評価
 手法・結果分析の研究にも参加している。\n鎌田 啓輔 
 - Weights & Biases Japan\, MLエンジニア\n講演タイトル「Nejumi
  LLMリーダーボードNeoのご紹介とそこからのインサイト
 」\n\n京都大学情報学研究科で機械学習を専攻。新卒で
 は因果推論ツールを提供する外資系企業に参画し、ビ
 ジネス施策における因果推論に従事。その後、DataRobot
 にてLead Data Scientistとしてヘルスケアチームのリーダー
 としてヘルスケアの企業を中心に国内数十社のAI導入
 を支援。コロナ禍にはデータに基づく対策方針の決定
 に資するべく、分析担当・PMとして国立国際医療研究
 センターと共同で解析プロジェクトを推進し、その結
 果をもとに論文を執筆。厚生労働省へのレター提出に
 も参画。因果推論から機械学習、Deep Learningまで行う機
 械学習エンジニア。\n山本 祐也 - Weights & Biases Japan\, ML
 エンジニア\n講演タイトル「Nejumiリーダーボード評価
 の走らせ方」\n\n東京大学大学院工学系研究科にて有機
 無機複合材料の研究で博士号を取得。学位取得後、大
 手化学メーカーにて液晶・タッチパネル関連先端化学
 材料の研究開発に従事。 その後、大手食品メーカーで
 機械学習を用いた食品パッケージに関する予測モデリ
 ングと最適化に取り組むなど、BtBとBtCいずれにも深い
 経験を有する。前職DataRobotでは製造顧客担当チームの
 リーダーとして国内数十社のAI導入を支援。国内で数
 十人程度のKaggle Grandmasterの一人。\nカンファレンス詳
 細\n\n日　時：　2023年1月24日 16:00-18:00\n参加費：　無料
 （事前登録制）\nお問い合わせ：contact-jp@wandb.com\n
LOCATION:オンライン Zoom
URL:https://techplay.jp/event/931955?utm_medium=referral&utm_source=ics&utm
 _campaign=ics
END:VEVENT
END:VCALENDAR