株式会社AI Shift(株式会社サイバーエージェントグループ) の技術ブログ

AIエージェントにおけるコンテキスト圧縮手法の評価 (AI Shiftインターン体験記)

こんにちは!筑波大学修士1年の朱 博瑄 ( @15sen3haku )です。 7月~9月の約3ヶ月間、AI Shift/サイバーエージェントにて、ミッション型インターンに参加させていただきました。 大学では自然言語処理に関する研究をしており、自然言語処理の社会実装や、ひいてはもっと広い範囲でのAIの社会実装を体感したいという思いから、今回のインターンに参加させていただきました。

Deepgram Fluxを使ったターンテイキング認識の実験

こんにちは AIチームの戸田です ここ数年で音声対話システムは急速に身近なものになりました。特に、ChatGPTのアドバンスドボイスモードのようなリアルタイムで会話できるプロダクトに触れていると技術の進化を強く実感します。 このような体験を支える重要な技術の一つが、システムと人との会話の順番を自然に交代する「ターンテイキング」です。 以前、AIチーム

YANS2025 参加報告

はじめに こんにちは。AI チームの村田です。 2025年9月17日(水)〜2025年9月19日(金)に浜松アクトシティで行われた 第20回言語処理若手シンポジウム (YANS2025) に AI チームから2名 (栗原, 村田) と弊社でインターンシップ中の朱が参加しました 。 うち村田と朱は発表ありでの参加で、栗原は運営として携わりました。 本記事では、村田の全体的な印象と聴講参加した我々3名が特

MentraOSでスマートグラスアプリの開発を試してみた

こんにちは AIチームの戸田です 最近スマートグラスが注目を集めています。スマートグラスというと2013年頃にGoogleが発表した Google Glass が有名でしたが、当時はバッテリーの制約やソフトウェアの未熟さなどから一般利用には定着しませんでした。 https://ja.wikipedia.org/wiki/Google_Glass しかし2025年現在、当時の課題を解決し得るハードウェアとソフトウェアの基盤が揃いつつ

エンティティリンキングの性能改善のための効果的な絞り込み手法の検証

はじめまして!一橋大学SDS研究科 修士1年の佐藤祥太 ( @Shota_Sato01 ) です。今回私は8月のCA Tech JOBインターンに参加させていただきました! この記事では、配属先のAI Shiftでの取り組みについてご紹介させていただきます! 配 属部署について 今回のインターンでは、AI Shiftに配属になりました。「人とAIの協働を実現し人類に生産性革命をもたらす」というMISSIONのもと、AI

ターンテイキングのタイミング予測を簡単に試せるライブラリMaAIを使ってみた

こんにちは、AIチームの大竹です。 最近、京都大学から会話のターンテイキング(話者交代)タイミングを簡単に予測できるツール MaAI が公開されたので、検証してみました。 本記事では、MaAIの簡単な紹介、ターンテイキングのタイミング予測の仕組みについての説明、インストールとサンプル実行および単一の音声ファイルに対する簡単な検証結果について記述します

拡散言語モデルを使ってリアルタイムなアプリケーション生成システムを作った

こんにちは! AIチームの戸田です! 最近のLLM界隈では、推論速度の高速化が大きなトレンドになっています。先日、TikTokを運営しているByteDanceが公開した Seed Diffusion という拡散言語モデルもその流れを汲むものの一つだと思われます。 サーバーが混雑しているようで 、私は試すことはできなかったのですが、実験結果を見る限り、性能を保ちつつ、非常に高速な推論が

LLMエージェントオブサーバビリティ基盤についてまとめてみた

はじめに こんにちは、AI チームの長澤 ( @sp_1999N ) です。 弊社では AI Worker という LLM エージェント構築プラットフォームを提供しています。 LLM エージェントを運用していると重要な要素になるのが「可観測性 = Observability」になります。 複雑な推論や複数のアクションを前提とした LLM エージェントでは、その挙動をいかに監視するかが運用上重要なトピックになります

AI Agentが回答に困った時にSlackで人間に助言を求められるMCPを検証した

こんにちは AIチームの戸田です 今回は、AI Agentが自身で解決できない問題に直面した際に、Slackを通じて人間に助言を求めることができるMCP(Model Context Protocol)、 AskOnSlackMCP をつくったので、架空のカスタマーサポートのデモを交えて紹介したいと思います。 https://github.com/trtd56/AskOnSlackMCP Human-in-the-loop 近年、AI Agentの能力が向上し、コーディングや業務効率化など多くの

拡散言語モデルの推論過程を眺めてみる

こんにちはAIチームの戸田です。 今回は Gemini Diffusion の登場をきっかけに最近話題になった拡散言語モデルの推論過程に興味を持ち、その一例として拡散言語モデルのLLaDAの推論を実際に手元で確認してみた結果を共有したいと思います。 拡散言語モデルに関しては、以前 Inception LabsのMercury Coderに関する記事 も書かせていただきましたので、こちらも合わせて見ていただ

E2E音声対話API・構築プラットフォーム最新動向の調査と自律型音声対話システムの展望

はじめに こんにちは、AIチームの大竹です。 近年、音声対話アプリケーションの進化が目覚ましく、顧客対応の自動化や業務効率化への期待が高まっています。弊社の AI Messenger Voicebot も例外ではなく、最先端の生成AI技術を活用した自然な対話基盤を構築し、お客様の電話応対業務のDXを推進すべく日々進化を続けています。 しかし、依然としてシナリオ(ワークフロー

LLMの推論における “aha moment” について調べてみた

こんにちは AIチームの戸田です 先日、LLMの "aha moment" に関して興味を持ち、関連論文やWeb上の記事を読んでみたところ、賛否両論の様々な見解があり興味深かったので、今回はその内容を共有したいと思います。 aha momentとは そもそもaha momentとは、ドイツの心理学者のカール・ビューラーが提唱した心理学上の概念で、今まで分からなかったことや、問題の答えが、突然

Inception Labsの拡散言語モデルを試してみた

こんにちは、 AIチームの戸田です。 本記事では Inception Labs のMercury APIのベータ版が使えるようになったので、簡単に試してみました。 ドキュメントは こちら で確認できます。 拡散言語モデル 現在のほとんどの大規模言語モデル(LLM)は「自己回帰モデル」と呼ばれ、一方向に一単語ずつテキストを生成します。 前のトークンがすべて生成されないと次のトークンを生

LangGraph CodeActをE2Bの安全な仮想環境で動かす

こんにちは、 AIチームの戸田です 今回は先日LangChainから発表された LangGraph CodeAct を E2B の仮想環境で動かしてみようと思います。CodeActは最近注目を集めているAI AgentのTool連携における新しいパラダイムで、Function Callingのような従来のツール使用方法とは一風変わった手法です。本記事ではCodeActを安全に実行するための方法と、その可能性について紹介します。 CodeActと

FastRTCを使って爆速でVoicebotを構築する

こんにちは、 AIチームの戸田です 今回はPythonでリアルタイムなAIアプリケーションを作る際に役立つライブラリ、 FastRTC を使って簡単なVoicebotを構築してみたいと思います。 FastRTC https://fastrtc.org/ FastRTCは、Pythonでリアルタイムの音声およびビデオストリーミングアプリケーションを構築するためのライブラリです。 VoicebotのようなリアルタイムなAIアプリケーションを作る