
3,080円 (税込)
Amazon楽天イラストで学ぶ 音声認識 改訂第2版
書籍情報
発売日:
著者/編集:荒木 雅弘
出版社:講談社
発行形態:単行本
書籍説明
内容紹介
・深層学習を用いた音声認識技術の解説を大幅に加筆!
・音声認識の基本が凝縮された一冊!
【主な内容】
第1章 はじめに
第2章 音声とは
第3章 統計的パターン認識
第4章 有限状態オートマトン
第5章 ニューラルネットワーク
第6章 音声からの特徴抽出
第7章 統計的音声認識:音響モデル
第8章 統計的音声認識:言語モデル
第9章 統計的音声認識:探索
第10章 End-to-End の音声認識
第11章 事前学習モデルによる音声認識
第12章 音声対話システム
第1章 はじめに
1.1 音声認識とは
1.2 音声認識の歴史
1.3 どこで役立つのか
1.4 何が難しいのか
1.5 音声認識の定式化と本書の構成
1.6 まとめ
第2章 音声とは
2.1 音声の科学
2.2 どうやって声を作るか:調音音声学
2.3 声の正体とは:音響音声学
2.4 どうやって声を聴き取るか:聴覚音声学
2.5 まとめ
第3章 統計的パターン認識
3.1 パターン認識とは
3.2 統計的パターン認識の考え方
3.3 生成モデルの学習
3.4 識別モデルの学習
3.5 統計的音声認識の概要
3.6 まとめ
第4章 有限状態オートマトン
4.1 有限状態オートマトンとは
4.2 有限状態オートマトンが表現する言語
4.3 さまざまな有限状態オートマトン
4.4 出力を生成する方法の違い
4.5 WFSTの演算
4.6 まとめ
第5章 ニューラルネットワーク
5.1 ニューラルネットワークとは
5.2 ディープニューラルネットワーク
5.3 畳み込みネットワーク
5.4 リカレントネットワーク
5.5 Transformer
5.6 まとめ
第6章 音声からの特徴抽出
6.1 特徴抽出の手順
6.2 音声信号のデジタル化
6.3 人の聴覚をまねて:スペクトル分析
6.4 もうひと工夫:ケプストラム分析
6.5 雑音の除去
6.6 特徴抽出処理におけるブレークスルー
6.7 まとめ
第7章 統計的音声認識:音響モデル
7.1 音響モデルの単位
7.2 隠れマルコフモデルとは
7.3 隠れマルコフモデルの確率計算
7.4 状態系列の推定
7.5 パラメータの学習
7.6 高度な音響モデル
7.7 まとめ
第8章 統計的音声認識:言語モデル
8.1 文法記述による言語モデル
8.2 統計的言語モデルの考え方
8.3 統計的言語モデルの作り方
8.4 ニューラルネットワークによる言語モデル
8.5 まとめ
第9章 統計的音声認識:探索
9.1 音響モデルと言語モデルのギャップを埋める
9.2 状態空間の探索
9.3 WFSTによる音声認識
9.4 まとめ
第10章 End-to-End の音声認識
10.1 ディープニューラルネットワークによる音声認識
10.2 CTC
10.3 seq2seq+アテンション
10.4 エンコーダの改良
10.5 RNN-トランスデューサ
10.6 まとめ
第11章 事前学習モデルによる音声認識
11.1 自己教師あり学習
11.2 音声を対象とした事前学習モデル
11.3 マルチタスク学習
11.4 まとめ
第12章 音声対話システム
12.1 モジュール型音声対話システム
12.2 リアルタイム型音声対話システム
12.3 双方向型音声対話システム
12.4 まとめ
著者情報
荒木 雅弘