Laboro

エンジニアコラム

広い技術領域をカバーする当社の機械学習エンジニアが、アカデミア発のAI&機械学習技術を紹介&解説いたします。

データ量を約3倍に増量しアップデート
日本語音声コーパス「LaboroTVSpeech2」を提供開始

2024年4月30日

概 要

Laboro.AIは、2020年にTV録画から長時間音声と字幕テキストを抽出して音声コーパスを自動構築する独自システムを用いた音声データから構築した日本語音声コーパス「LaboroTVSpeech(ラボロティービースピーチ)」を開発し、学術研究用に無償公開しておりましたが、この度、データ量を約3倍に増量し、より高品質な音声データとしてアップデートした「LaboroTVSpeech2」を開発し、提供を開始いたしました。

目 次

LaboroTVSpeech2開発背景
LaboroTVSpeech2について
LaboroTVSpeech2比較実験について
LaboroTVSpeech2の利用について

LaboroTVSpeech2開発背景

昨今、AIと機械学習の分野では、大規模なデータセットの存在が重要になってきています。例えば、生成AIで注目を集める言語モデルGPTでは、GPT-1からGPT-4への進化においてトレーニングデータサイズの劇的な増加が行われており、現代に求められるAIモデルを開発するためには、大量かつ高品質なデータがAIの精度に大きなプラス効果をもたらすことを示しました。

当社でも、2020年に提供を開始した旧版LaboroTVSpeechについて、より高品質な音声データを提供したいという思いから、リリース後もテレビ番組データの収集を継続し、今般の開発にいたりました。

LaboroTVSpeech2について

LaboroTVSpeech2は、旧版LaboroTVSpeechと同様にB-CASカードによるアクセス制限がないワンセグ放送を利用し、2022年12月〜2023年11月放送、12ジャンルの39,248のTV番組、計6,620時間のデータから構成されております。

旧版LaboroTVSpeechが12ジャンルの9,142のTV番組、計2,049時間のデータで構成されていることと比べると、そのデータ量は約3倍と大幅に増加しております。

なお、LaboroTVSpeech2は、旧版と同様に当社が独自開発したシステムにより構築しています。具体的には、テレビ番組の長時間の音声データと、その不完全な書き起こしである字幕データの時間的な対応関係を抽出する手法である準教師付きデコーディング(lightly-supervised decoding)と呼ばれる手法をベースとしています。これにより、本来であればテレビ番組のデータから音声と字幕がセットになって抽出されるべきところ、先のような何らかの問題で対応した情報として取得できなかった場合に、準教師付デコーディングによる音声と字幕の対応関係の抽出を繰り返し行うことで、一度対応が取れなかった区間からも可能な限りデータ抽出を行う仕組みを採用しています。

LaboroTVSpeech2比較実験について

LaboroTVSpeech2を用いたモデルの音声認識の性能を確認するため、日本語のTEDxを用いて構築した独自の音声認識システム評価用データセット(※1)を用意した上で、旧版LaboroTVSpeechとの比較実験を行いました。音声認識のツールキットとしてはEnd-to-End方式を採用するESPnetを用いました。

その結果、文字誤認識率(CER)が旧版の13.0%に対して11.4%となり、1.6%の改善が見られたことを確認いたしました(※2)。

(※1)Youtube上のプレイリスト「TEDx talks in Jpanaese」に含まれる動画から音声と字幕データを取得したもの。
(※2)上記の結果は、実環境での音声認識システムの性能とは異なる場合があります。

LaboroTVSpeech2の利用について

LaboroTVSpeech2に含まれる音声及びテキストデータの権利は、元のテレビ放送の著作権者に帰属していますが、著作権法30条の4に基づき、情報解析等の用途のために、大学等の学術研究機関に対して無償で公開いたします。ただし、元のテレビ番組の音声を再構成し鑑賞する事を防ぐために、発話単位でランダムに並び替えられており、かつ番組名や放送局等の付加情報は含まれておりません。

ご利用にあたっては、LaboroTVSpeech2の利用相談の旨を明記の上、当社HP内お問い合わせフォームよりお問い合わせください。また、営利企業における研究開発用途や商用目的での利用をご希望の場合も、同じく当社HP内お問い合わせフォームからご相談ください。なお、お問い合わせをいただいてから配布まで最短3週間前後のお時間を頂戴しておりますことを何卒ご了承ください。

配布対象

無償配布の対象としては、下記のような機関を想定しています。

・国立大学、公立大学、私立大学、高等専門学校
・国立研究開発法人(産業技術総合研究所、情報通信研究機構、理化学研究所、等)
・地方自治体等が所管する研究機関
・その他公的な性質を持つ研究機関(公益法人等)

ただし、上記に該当する機関であっても、営利企業等からの提供された資金で運営されているプロジェクトや、無償配布対象外の機関との共同研究プロジェクトでの利用は、無償配布の対象外となりますのでご注意ください。

配布の流れ

ご利用にあたっては、こちらのお問い合わせフォームよりご連絡ください。その際、LaboroTVSpeech2の利用の申し込みである事を明記いただいた上で、下記の点を記載ください。

・申込責任者 氏名
・所属組織/企業/機関/学校名
・部署/研究室名
・役職
・住所
・メールアドレス(組織/機関ドメインのもの。個人アドレス不可)
・利用目的

電子契約サービスであるクラウドサインを通じて、申込書を指定のメールアドレスに送付させていただきますので、必要事項を記入の上、申し込みをお願いします。弊社側で申込内容を審査した上で、申込書に記載のメールアドレスにコーパスをダウンロードするURLを記載したメールをお送りいたします。

なお、申込書の名義は、原則として教員や職員の方でお願いしております。学生等の方からの申込の場合は、申込書の記入は学生の方でも結構ですが、申込者の欄には教員の名前を記入頂き、教員の方のメールアドレスに申込書の承認の依頼をお送りさせて頂きます。

営利企業での使用について

営利企業における研究開発用途や商用目的での利用をご希望の場合は、同じくお問い合わせフォームからご相談ください。