なんもわからん人の論文読み会(人の嗜好を反映して言語モデルを学習させる)#3
オンライン
イベント内容
目的
- 論文を読むことでやった感を醸し出し、人生の満足度を高める(主目的)
- 論文に慣れる
- 今回からの参加でもOKです
やること
- 人の嗜好を反映して言語モデルを学習させる方法(RLHF、Reinforcement Learning from Human Feedback. ChatGPTのコアとなる学習方法)に関する論文を読みます。
- Fine-Tuning Language Models from Human Preferences
- 今回は2.2. Fine-tuning details 以降を読んでいきます。
- 2.2.に入る前に、以下のwebページあたりを参考にして学習に使われるProximal Policy Optimization(PPO)の理解から入る予定です。
- PPO : OpenAIのデフォルトの強化学習アルゴリズム
- ハムスターでもわかるProximal Policy Optimization (PPO)①基本編
- 第6回 今更だけど基礎から強化学習を勉強する PPO編
やらないこと
- 完璧に正しい理解をしようとしない
- 細かい箇所の理解が合っているかなどはあんまり追求しません
- 時間をかけてじっくり読みすぎない
- 数式の証明を深追いしない
その他
- 途中での質問も歓迎です
- でもあんまり深追いせずに先に進んじゃうかもですが……
- 聞いてるだけでも大丈夫です
開催日時
毎週土曜日 20:00 ~ 21:00(予定)
会場
Google meetを使用する予定です。
URLは当日conpassのメッセージ機能で通知します。 また、参加者への情報欄にも記載しておきます。
当日までの準備
特にありません。
事前に論文や資料を読んでおくと良いかもです。
費用
なし
定員
特にありません
注意事項
※ こちらのイベント情報は、外部サイトから取得した情報を掲載しています。
※ 掲載タイミングや更新頻度によっては、情報提供元ページの内容と差異が発生しますので予めご了承ください。
※ 最新情報の確認や参加申込手続き、イベントに関するお問い合わせ等は情報提供元ページにてお願いします。

お問い合わせ
関連するイベント

5/7【現役エンジニアの無料キャリア相談付き】AI競争で需要急増中の「Python」を学んでキャリアアップを目指そう in 東京
2026/05/07(木) 開催
5/16【現役エンジニアの無料キャリア相談付き】AI競争で需要急増中の「Python」を学んでキャリアアップを目指そう in 東京
2026/05/16(土) 開催
【新講座】データ分析×AI活用超入門 -ビジネス課題を解決する実践的な使い方-【参加無料】
2026/05/28(木) 開催
【無料】回帰・分類・深層学習の違いが直感的に理解できる!DX時代の常識MLの基本「機械学習超入門」初心者OK
2026/05/31(日) 開催
