株式会社AI Shift(株式会社サイバーエージェントグループ) の技術ブログ

議事録自動生成システムにおける音声の書き起こし機構の改善

はじめに こんにちは,東京大学大学院 修士2年の兵藤弘明です.私は2024年3月から4月にかけて,CA Tech JOBのインターンシップに参加し,株式会社AI Shift で議事録自動生成のための効果的な音声認識パイプラインの検証に取り組みました.この記事では取り組んだ内容を具体的に紹介します. タスクの背景 株式会社AI Shiftでは,オンライン会議の議事録を自動生成するシス

Audio-Mambaを使った音声分類

こんにちは、AIチームの戸田です 今回は近年Transformerの次のアーキテクチャになるのでは?と話題の状態空間モデル、Mambaを使った音声分類を試してみたいと思います。 Mamba Mambaは近年主流となっているTransformerの次のアーキテクチャとして期待されているモデルの一つです。LLMの文脈で目にすることが多いのですが、音声を扱う Audio-Mamba や、画像を扱う Vision-Mamba などの

kotoba-whisper, ReazonSpeech, Nue-ASRの文字起こし性能を比較してみた

はじめに こんにちは、AIチームの大竹です。 最近、高性能な日本語音声認識モデルのリリースが相次いでいます。普段、音声認識を用いたプロダクト開発をしている中で、各モデルの音声認識性能や推論速度がどれくらいのものなのか気になったので簡単な実験をして性能を比較してみました。 書き起こしや評価周りの実装も記載しているので参考にしていただけたら幸

SliceGPTを使って日本語LLMをPruningしてみる

こんにちは AIチームの戸田です 今回はLLMを軽量化するPruningを行うライブラリ、SliceGPTを使って日本語LLMのPruningを試してみたいと思います。 SliceGPT LLMに限らず、大規模なニューラルネットワークのパラメータを圧縮する手法の一つにPruningがあります。日本語では「枝刈り」や「剪定」とも訳されており、重要ではないと思われるノード間の重みを削除することでパラメー

高効率のLLM学習手法ReFTを試してみる

こんにちは AIチームの戸田です 今回は先月スタンフォード大学が発表した新しいParameter-efficient fine-tuning(PEFT)のReFTを試してみたいと思います。 PEFT PEFTはLLMのような大規模な事前学習済みのニューラルネットワークのモデルを、効率的にfine-tuningする手法の総称です。モデル全体ではなく一部のパラメータだけを更新することで計算コストを大幅に削減できる上に、Full fi

Argo WorkflowsとGKEで構築するLLMを使った要約サービスの機械学習パイプライン

こんにちは。 AIチームの干飯( @hosimesi11_ )です。今回はAI Shiftで取り組んでいる新規サービスであるAI Messenger Summaryの機械学習パイプラインと、Proof of Concept(PoC)から実際のプロダクトへと展開する過程についてご紹介します。 AI Messenger Summaryとは AI Messenger Summary はコールセンター事業における、会話内容の要約サービスになります( プレスリリース )。コールセンターでは

Parler-TTSを使ってスタイルを指定して音声合成を行う

DALLE-3で生成 こんにちは AIチームの戸田です 今回は先日HuggingFaceのライブラリとして追加された Parler-TTS を使った音声合成を試してみたいと思います。 Parler-TTS Parler-TTS は、話者のスタイル (性別、ピッチ、話し方など) をテキストで指定して音声合成(TTS) を行える軽量なモデルを提供してくれるライブラリです。オープンソースで、推論だけでなく、学習や学習のための前
OSS

日本音響学会 第151回(2024年春季)研究発表会 参加報告

こんにちは。AIチームの東です。 本記事では、2024年3月6日(水)~8日(金)で行われた 日本音響学会第151回(2024年春季)研究発表会 の参加報告をさせていただきます。 イベント、セッション 今年の春季研究会はオフライン形式で開催されました。春季研究会としては2020年以来、4年振りのオフライン形式となりました。 2020年以前の春季研究会は例年関東地方で開催されることが

LLMと相性のいいReactのChartライブラリを考察してみた🦜

こんにちは。フロントエンドチームの安井です。今回はLLMと相性のいいReactのChartライブラリを探すために検証を行いました。ReactのChartライブラリといえば数多く種類が存在し、どれを採用するのがいいか迷うところです。下記のサイトはReactのChartライブラリが一覧で整理されており、これだけでも数十個候補になるライブラリがあることがわかります。 https://awesome.cube.d

spacy-llmで色々なNLPタスクをzero-shotで解いてみる

こんにちは AIチームの戸田です 固有表現抽出(NER)や品詞タグ付けなどのNLPタスクを行うためのPythonライブラリに spaCy があります。シンプルなAPIで拡張性も高く、AI ShiftでもプロダクトのNLPロジック部分やデータ分析など多くの場面で利用しています。 そんな非常にお世話になっているspaCyですが、処理パイプラインにLLMを統合できる spacy-llm がリリースされました。今

言語処理学会第30回年次大会(NLP2024) 発表報告

1. はじめに こんにちは。AIチームの友松です。 2024年3月11日(月)〜3月15日(金)に 神戸国際会議場 で行われた 言語処理学会第30回年次大会 で、弊社からポスター発表で2件、口頭発表で1件の発表を行いました。 昨年は4年ぶりのオフライン(+オンラインのハイブリッド)開催&沖縄開催ということもあり、盛り上がりを見せておりましたが、今回の神戸開催における 統計情報

言語処理学会第30回年次大会(NLP2024) でAI Shiftから3件の発表を行います

こんにちはAI Shiftの栗原です。3月11日(月)から3月15日(金)に 神戸国際会議場 で 言語処理学会年次大会 が実施され、AI Shiftからは口頭発表1件とポスター発表2件の合計3件の発表を行います。 本記事では各発表の概要と、ポスター発表については議論したいポイントについて取り上げたいと思います。 1. AI Shiftからの発表 3月12日(火) 18:00-19:30 P5-5 RAGにおけるLLMの学習と評価:F