ホワイトペーパー公開記念ウェビナー：「LLM評価のベストプラクティス」

2024/04/23(火)16:00 〜 17:30 開催

ブックマーク

#HealthTech, #大規模言語モデル（LLM）, #MLOps

イベント内容

概要

本ウェビナーでは4/10にリリースされたW&B Japanのホワイトペーパー「大規模言語モデル (LLM) を評価するためのベストプラクティス」の内容に基づき、重要ポイントをまとめたダイジェスト版プレゼンテーションと、著者に直接質問をできるQAコーナーを開催します。

特にLLMモデルの開発およびその応用に関わる下記のような方々をターゲットにしています：

LLM基盤モデル開発に携わるリサーチャー・エンジニア
基盤モデルの継続学習やチューニングにより、特定タスクへの適用を目指すエンジニア
生成AIプロジェクトの企画担当者およびプロジェクトマネージャー
生成AIを軸としたビジネス・プロダクト開発の担当者
上記の活動に関わる意思決定者・エグゼクティブ

本ウェビナーに参加することで、具体的には下記のような質問に答えるを見つけることができます：

LLMモデルを評価する上で知っておくべきことは？
評価の種類と、評価方法のベストプラクティスは？
できるだけ省力・自動的に評価を実行する方法は？
日本語評価リーダーボードの現時点での選択肢と特徴は？
生成AIの評価に関して今後注意するべきことは？

また、Weights & Biasesの過去のホワイトペーパーも併せてご利用ください：

タイムテーブル

時間	内容	スピーカー
16:00 ~ 16:15	パート0：Nejumiリーダーボードと、本ホワイトペーパーの紹介	W&B シバタアキラ
16:15 ~ 16:35	パート1：評価の枠組みと、汎用的言語能力の評価	W&B 鎌田啓輔
16:35 ~ 16:45	パート2：アライメント（安全性等）評価	W&B シバタアキラ
16:45 ~ 17:05	パート3：評価の実装方法とWandBの活用	W&B 山本祐也
17:05 ~ 17:30	Q&A

スピーカー

鎌田啓輔 - Weights & Biases Japan, MLエンジニア

京都大学情報学研究科で機械学習を専攻。新卒では因果推論ツールを提供する外資系企業に参画し、ビジネス施策における因果推論に従事。その後、DataRobotにてLead Data Scientistとしてヘルスケアチームのリーダーとしてヘルスケアの企業を中心に国内数十社のAI導入を支援。コロナ禍にはデータに基づく対策方針の決定に資するべく、分析担当・PMとして国立国際医療研究センターと共同で解析プロジェクトを推進し、その結果をもとに論文を執筆。厚生労働省へのレター提出にも参画。因果推論から機械学習、Deep Learningまで行う機械学習エンジニア。

シバタアキラ - Weights & Biases Japan, カントリーマネージャー

人工知能を使ったデータ・AI活用によるビジネス価値の創出を専門分野とし、オンラインサービス、既存産業各領域、クリエイティブ領域など幅広い分野にて、これまで数百社に及ぶ国内外企業のデータ・AIの利活用を実現してきた。機械学習自動化プラットフォームのDataRobot日本CEO、AIによる創造性の拡張をミッションとするQosmo, Inc.のCOOなどを歴任し、現在はサンフランシスコを拠点とし、AIエンジニアのための開発・運用プラットフォームを提供するWeights & Biasesの日韓カントリーマネージャー。その他数社の社外取締役・顧問などを務める。

山本祐也 - Weights & Biases Japan, MLエンジニア

東京大学大学院工学系研究科にて有機無機複合材料の研究で博士号を取得。学位取得後、大手化学メーカーにて液晶・タッチパネル関連先端化学材料の研究開発に従事。その後、大手食品メーカーで機械学習を用いた食品パッケージに関する予測モデリングと最適化に取り組むなど、BtBとBtCいずれにも深い経験を有する。前職DataRobotでは製造顧客担当チームのリーダーとして国内数十社のAI導入を支援。国内で数十人程度のKaggle Grandmasterの一人。

カンファレンス詳細

日　時：　2024年4月23日 16:00-17:30
参加費：　無料（事前登録制）
お問い合わせ：contact-jp@wandb.com

Weights & Biases とは

Weights & Biases（WandB）は、エンタープライズグレードのML実験管理およびエンドツーエンドMLOpsワークフローを包含する開発・運用者向けプラットフォームです。WandBは、LLM開発や画像セグメンテーション、創薬など幅広い深層学習ユースケースに対応し、NVIDIA、OpenAI、Toyotaなど、国内外で80万人以上の先端的ML開発者に信頼されているAI開発の新たなベストプラクティスです。

Nejumi LLMリーダーボードとは

W&B Japanがhttp://nejumi.ai にて運営しているLLM日本語評価リーダーボードです。一問一答形式で言語理解を評価するllm-jp-evalと、プロンプト対話で生成能力を評価するMT-Benchによる多角的なLLMモデル評価を提供しています。またWandBのTable機能を用いて、平均スコアだけではなく結果をインタラクティブに深掘り・比較することが可能です。