BEGIN:VCALENDAR
VERSION:2.0
PRODID:-//https://techplay.jp//JP
CALSCALE:GREGORIAN
METHOD:PUBLISH
X-WR-CALDESC:なんもわからん人の論文読み会（人の嗜好を
 反映して言語モデルを学習させる）#3
X-WR-CALNAME:なんもわからん人の論文読み会（人の嗜好を
 反映して言語モデルを学習させる）#3
X-WR-TIMEZONE:Asia/Tokyo
BEGIN:VTIMEZONE
TZID:Asia/Tokyo
BEGIN:STANDARD
DTSTART:19700101T000000
TZOFFSETFROM:+0900
TZOFFSETTO:+0900
TZNAME:JST
END:STANDARD
END:VTIMEZONE
BEGIN:VEVENT
UID:891069@techplay.jp
SUMMARY:なんもわからん人の論文読み会（人の嗜好を反映
 して言語モデルを学習させる）#3
DTSTART;TZID=Asia/Tokyo:20230211T200000
DTEND;TZID=Asia/Tokyo:20230211T210000
DTSTAMP:20260505T172943Z
CREATED:20230204T141815Z
DESCRIPTION:イベント詳細はこちら\nhttps://techplay.jp/event/89106
 9?utm_medium=referral&utm_source=ics&utm_campaign=ics\n\n目的\n\n論文
 を読むことでやった感を醸し出し、人生の満足度を高
 める（主目的）\n論文に慣れる\n今回からの参加でもOK
 です\n\nやること\n\n人の嗜好を反映して言語モデルを
 学習させる方法（RLHF、Reinforcement Learning from Human Feedback
 . ChatGPTのコアとなる学習方法)に関する論文を読みます
 。\nFine-Tuning Language Models from Human Preferences\n今回は2.2. Fi
 ne-tuning details 以降を読んでいきます。\n2.2.に入る前に
 、以下のwebページあたりを参考にして学習に使われるP
 roximal Policy Optimization（PPO）の理解から入る予定です。\
 nPPO : OpenAIのデフォルトの強化学習アルゴリズム\nハム
 スターでもわかるProximal Policy Optimization （PPO）①基本
 編\n第6回 今更だけど基礎から強化学習を勉強する PPO
 編\n\n\n\nやらないこと\n\n完璧に正しい理解をしようと
 しない\n細かい箇所の理解が合っているかなどはあん
 まり追求しません\n\n\n時間をかけてじっくり読みすぎ
 ない\n数式の証明を深追いしない\n\nその他\n\n途中での
 質問も歓迎です\nでもあんまり深追いせずに先に進ん
 じゃうかもですが……\n\n\n聞いてるだけでも大丈夫で
 す\n\n開催日時\n毎週土曜日　20:00 ~ 21:00（予定）\n会場\
 nGoogle meetを使用する予定です。\nURLは当日conpassのメッ
 セージ機能で通知します。\nまた、参加者への情報欄
 にも記載しておきます。\n当日までの準備\n特にありま
 せん。\n事前に論文や資料を読んでおくと良いかもで
 す。  \n費用\nなし\n定員\n特にありません
LOCATION:オンライン オンライン
URL:https://techplay.jp/event/891069?utm_medium=referral&utm_source=ics&utm
 _campaign=ics
END:VEVENT
END:VCALENDAR