株式会社AI Shift（株式会社サイバーエージェントグループ）の技術ブログ

全81件

2024/03/08

言語処理学会第30回年次大会(NLP2024) でAI Shiftから3件の発表を行います

こんにちはAI Shiftの栗原です。3月11日(月)から3月15日(金)に神戸国際会議場で言語処理学会年次大会が実施され、AI Shiftからは口頭発表1件とポスター発表2件の合計3件の発表を行います。本記事では各発表の概要と、ポスター発表については議論したいポイントについて取り上げたいと思います。 1. AI Shiftからの発表 3月12日(火) 18:00-19:30 P5-5 RAGにおけるLLMの学習と評価：FAQタスクへの応用長澤春希, 戸田隆道 (AI Shift) 3月13日(水) 9:30-11:00 P6-24 RAGにおける自己認識的不確実性の評価二宮大空, 戸田隆道 (AI Shift) 3月14日(木) 14:10-16:00 D11-2 LCTG Bench: 日本語LLMの制御性ベンチマークの構築栗原健太郎 (AI Shift/サイバーエージェント), 三田雅人, 張培楠, 佐々木翔大, 石上亮介 (サイバーエージェント), 岡崎直観 (東工大) 2. 各発表の概要と議論したいポイントポスター発表 2.1 RAGにおけるLLMの学習と評価：FAQタスクへの応用概要外部情報を参照しながらLLMを活用する代表的な方法としてRAGがあるが、一方でLoRAなどの軽量な学習手法も提案されている。LLMの実運用を考えた際、どちらが有用なのかは明らかとなっていない。本研究ではFAQタスクを例にとり、RAG、LoRA及びその組み合わせについての性能差を検証し、直接比較による評価で両者を組み合わせた際にMean Reciprocal Rank スコアが最も高い傾向となることを報告する。議論したいポイント RAG精度向上のための施作 RAGシステムにおける評価手法の選定事業応用を前提とした時のLLMとの付き合い方 2.2 RAGにおける自己認識的不確実性の評価概要カスタマーサポート事業においてユーザーからの質問にRAGで回答する場合、検索で答えが得られなかったときは回答を控えることが期待される。そこで、回答を控える正確さを"自己認識的不確実性（Self-Aware Uncertainty）"と定めて評価する。実験の結果、 Gemini-ProはGPT-4-turboよりも正しく回答を控えることができる傾向にあった。議論したいポイント Hallucinationを防ぐための方法として、答えを控える以外により適切な方法はどのようなものが考えられるかリアルタイム性を保ったままRAGの精度を向上させる方法他にどのようなRAGの評価方法が有効そうか口頭発表 2.3 LCTG Bench: 日本語LLMの制御性ベンチマークの構築概要 LLMの事業応用において性能を評価する際には、生成内容の評価の他に、指定のフォーマットや文字数を満たせるかという「生成結果の制御性」の評価も必要と考えている。本研究を通じて、日本語LLMの制御性を評価するベンチマークLCTGを構築した。さらにLCTGを用いた評価実験の考察も実施した。議論したいポイント実際に事業にLLMを適用する場合に、（本実験での検証項目の有無を問わず）制御性を気にした場面があるか否か皆様が実施している、あるいは求めているLLMの評価方法 LLMの事業適用における、意思決定の方法 3. おわりに今年もAI Shiftの他に，CyberAgentグループから4件の発表とスポンサーブースの出展があります。そちらの発表もぜひお越しください！僕個人も神戸は人生初上陸で非常に楽しみにしております！当日皆様と活発な議論やお話ができることを楽しみにしております！投稿言語処理学会第30回年次大会(NLP2024) でAI Shiftから3件の発表を行いますは株式会社AI Shift に最初に表示されました。

株式会社AI Shift（株式...

コンテンツ

トップイベントマガジン動画ブロググループに関するお問い合わせ

株式会社AI Shift（株式会社サイバーエージェントグループ） の技術ブログ

コンテンツ

株式会社AI Shift（株式会社サイバーエージェントグループ）の技術ブログ