BEGIN:VCALENDAR
VERSION:2.0
PRODID:-//https://techplay.jp//JP
CALSCALE:GREGORIAN
METHOD:PUBLISH
X-WR-CALDESC:なんもわからん人の論文読み会（人の嗜好を
 反映して言語モデルを学習させる）#5
X-WR-CALNAME:なんもわからん人の論文読み会（人の嗜好を
 反映して言語モデルを学習させる）#5
X-WR-TIMEZONE:Asia/Tokyo
BEGIN:VTIMEZONE
TZID:Asia/Tokyo
BEGIN:STANDARD
DTSTART:19700101T000000
TZOFFSETFROM:+0900
TZOFFSETTO:+0900
TZNAME:JST
END:STANDARD
END:VTIMEZONE
BEGIN:VEVENT
UID:892817@techplay.jp
SUMMARY:なんもわからん人の論文読み会（人の嗜好を反映
 して言語モデルを学習させる）#5
DTSTART;TZID=Asia/Tokyo:20230225T200000
DTEND;TZID=Asia/Tokyo:20230225T210000
DTSTAMP:20260509T214910Z
CREATED:20230218T142548Z
DESCRIPTION:イベント詳細はこちら\nhttps://techplay.jp/event/89281
 7?utm_medium=referral&utm_source=ics&utm_campaign=ics\n\n目的\n\n論文
 を読むことでやった感を醸し出し、人生の満足度を高
 める（主目的）\n論文に慣れる\n今回からの参加でもOK
 です\n\nやること\n\n人の嗜好を反映して言語モデルを
 学習させる方法（RLHF、Reinforcement Learning from Human Feedback
 . ChatGPTのコアとなる学習方法)に関する論文を読みます
 。\nFine-Tuning Language Models from Human Preferences\n今回は3.1. St
 ylistic continuation tasks 以降を読んでいきます。\n\n\n参考
 情報\nPPO : OpenAIのデフォルトの強化学習アルゴリズム\n
 ハムスターでもわかるProximal Policy Optimization （PPO）①
 基本編\n第6回 今更だけど基礎から強化学習を勉強する
  PPO編\n\n\n\nやらないこと\n\n完璧に正しい理解をしよう
 としない\n細かい箇所の理解が合っているかなどはあ
 んまり追求しません\n\n\n時間をかけてじっくり読みす
 ぎない\n数式の証明を深追いしない\n\nその他\n\n途中で
 の質問も歓迎です\nでもあんまり深追いせずに先に進
 んじゃうかもですが……\n\n\n聞いてるだけでも大丈夫
 です\n\n開催日時\n毎週土曜日　20:00 ~ 21:00（予定）\n会
 場\nGoogle meetを使用する予定です。\nURLは当日conpassのメ
 ッセージ機能で通知します。\nまた、参加者への情報
 欄にも記載しておきます。\n当日までの準備\n特にあり
 ません。\n事前に論文や資料を読んでおくと良いかも
 です。  \n費用\nなし\n定員\n特にありません
LOCATION:オンライン オンライン
URL:https://techplay.jp/event/892817?utm_medium=referral&utm_source=ics&utm
 _campaign=ics
END:VEVENT
END:VCALENDAR