機械学習による音声認識

書籍情報

発売日 : 2021年04月16日

著者/編集 : 日本音響学会/久保 陽太郎

出版社 : コロナ社

発行形態 : 全集・双書

書籍説明

内容紹介

スマートスピーカなど音声認識を利用した情報家電が身近になってきている。ほぼ人間と同精度での認識が可能になった今,人間を超える精度での音声認識の期待にこたえるために,最新の機械学習技術を学ぶテキストである。

目次

1.本書の目的と事前知識
1.1 本書の目的
1.2 本書の構成
1.3 本書で用いる数式の表記
1.4 確率論の基礎
 1.4.1 周辺化
 1.4.2 条件付き確率
 1.4.3 独立性
 1.4.4 連続分布と確率密度関数

2.機械学習による予測
2.1 モデルによる予測
2.2 識別関数の構成
2.3 確率モデルの学習
2.4 最適化のアルゴリズム
 2.4.1 凸関数の最適化
 2.4.2 指数型分布族の最尤推定
 2.4.3 潜在変数モデルとEMアルゴリズム
 2.4.4 勾配に基づく局所最適化
2.5 例:身長と体重から学年を推定する
 2.5.1 生成モデルによるアプローチ
 2.5.2 識別モデルによるアプローチ
 2.5.3 識別関数法によるアプローチ
2.6 深層学習
 2.6.1 識別モデルの構成とソフトマックス層
 2.6.2 確率的勾配降下法
2.7 モデル選択と過学習
 2.7.1 過学習
 2.7.2 交差検証
 2.7.3 正則化
 2.7.4 アーリーストッピング
引用・参考文献

3.有限状態トランスデューサ
3.1 有限状態オートマトン
3.2 文法と辞書の表現
 3.2.1 重みの導入
 3.2.2 トランスデューサの導入
3.3 有限状態トランスデューサの数学的定義
 3.3.1 半環
 3.3.2 状態集合Qと状態遷移集合E
 3.3.3 初期状態Iと終了状態F
 3.3.4 遷移パスと重み
 3.3.5 FSTの等価性
 3.3.6 対数確率半環とFSTの確率的解釈
 3.3.7 FSTの連結,クリーネ閉包,和
3.4 合成
 3.4.1 合成演算のアルゴリズム
 3.4.2 合成演算の確率的解釈
 3.4.3 アルファベット列のFSTによる表現と合成演算
3.5 最短経路問題
3.6 FSTの最適化
 3.6.1 トリミング
 3.6.2 ε除去
 3.6.3 重みとラベルのプッシング
 3.6.4 決定化
 3.6.5 最小化
3.7 対数確率半環の重みを持つ非巡回FST上の期待値計算
 3.7.1 非巡回FSAのトポロジカルソート
 3.7.2 期待値計算
引用・参考文献

4.音声認識システム
4.1 音声認識システムの構成
4.2 音声の単位
 4.2.1 音素を介した音声認識の生成モデル
 4.2.2 発音辞書モデル
4.3 音声の分析
 4.3.1 音声信号のモデル
 4.3.2 離散フーリエ変換と周波数解析
 4.3.3 フィルタバンク処理
 4.3.4 ケプストラム抽出と無相関化
 4.3.5 対数エネルギー
 4.3.6 セグメント分析
4.4 音声認識システムの評価法
 4.4.1 認識精度の評価
 4.4.2 計算効率の評価
引用・参考文献

5.音響モデル
5.1 隠れマルコフモデル
 5.1.1 雨と水音のモデル
 5.1.2 複数のHMM状態を持つモデル
 5.1.3 雨の推定から音声認識へ
5.2 混合正規分布と連続分布型HMM
5.3 音素文脈依存モデル
 5.3.1 決定木による音素文脈クラスタリング
 5.3.2 決定木を用いた音響モデルのFSTによる表現
 5.3.3 凝集型クラスタリングによる質問の自動生成
5.4 ニューラルネットによる音響モデル
 5.4.1 再帰結合ニューラルネット
 5.4.2 ゲートユニットと長短期記憶
5.5 系列識別学習
 5.5.1 系列識別学習規準
 5.5.2 認識仮説を用いた最適化アルゴリズム
5.6 音響モデル適応の技術
 5.6.1 声道長正規化による適応
 5.6.2 話者コードの入力による適応
 5.6.3 再学習による適応
引用・参考文献

6.言語モデル
6.1 言語モデルとは
6.2 ユニグラム言語モデルとBag-of-words
6.3 Nグラム言語モデル
6.4 Nグラム言語モデルの学習と平滑化
 6.4.1 Nグラム言語モデルの最尤推定
 6.4.2 加算平滑化
 6.4.3 線形補間平滑化
 6.4.4 ウィトン・ベル平滑化
 6.4.5 グッド・チューリング推定法
 6.4.6 カッツ平滑化
 6.4.7 絶対割引法
 6.4.8 クニーザー・ナイ平滑化
6.5 Nグラム言語モデルのFSTによる表現
6.6 最大エントロピーモデルと識別的言語モデル
 6.6.1 最大エントロピー原理に基づく言語モデル
 6.6.2 文レベルの最大エントロピーモデル
 6.6.3 音声認識のための識別的言語モデル
6.7 ニューラルネット言語モデル
 6.7.1 ニューラルネットによる後続単語の予測
 6.7.2 単語の分散表現
 6.7.3 ニューラルネット言語モデルによるリスコアリング
引用・参考文献

7.大語彙連続音声認識
7.1 FSTの合成と確率モデル
 7.1.1 デコーディングネットワークの構成と探索誤り
 7.1.2 非曖昧化シンボル
7.2 大語彙連続音声認識の探索問題
7.3 大規模FST合成の技術
 7.3.1 オンザフライ合成
 7.3.2 ディスクベース認識システム
7.4 Nベストリストおよびラティスの生成
 7.4.1 ラティスの生成
 7.4.2 ラティスからのNベストリストの生成
引用・参考文献

8.深層学習の発展
8.1 さまざまなニューラルネット要素
 8.1.1 飽和しない活性化関数
 8.1.2 ドロップアウト
 8.1.3 バッチ正規化
 8.1.4 畳み込み層/プーリング層
8.2 ニューラルネットの高速化
 8.2.1 重みの量子化
 8.2.2 特異値分解による重み行列の圧縮
 8.2.3 蒸留によるモデル変換
8.3 End-to-end音声認識
 8.3.1 CTC
 8.3.2 エンコーダ-デコーダ型End-to-end音声認識
引用・参考文献

索引

著者情報

久保, 陽太郎
久保 陽太郎
日本音響学会