テキストアナリティクスの基礎と実践

書籍情報

発売日 : 2021年03月25日

著者/編集 : 金 明哲

出版社 : 岩波書店

発行形態 : 全集・双書

書籍説明

内容紹介

ロングセラー『テキストデータの統計科学入門』を全面改訂。具体的なツールを使用しながら丁寧に解説する。

目次

はじめに

第1章 テキストアナリティクス
1. 1 データの構造
1. 2 テキストアナリティクスとは
1. 3 テキストアナリティクスの小史
1. 4 テキストアナリティクスの諸分野
 1. 4. 1 計量文体学
 1. 4. 2 計量言語学とコーパス言語学
 1. 4. 3 情報知識の抽出(テキストマイニング)
1. 5 テキストアナリティクスの手順
 1. 5. 1 テキストの電子化
 1. 5. 2 クリーニング
 1. 5. 3 テキストの加工
 1. 5. 4 データの抽出
 1. 5. 5 データの分析

第2章 テキストのクリーニングと関連技法
2. 1 テキストのクリーニングとは
2. 2 テキストのクリーニングと正規表現
2. 3 文字コード
2. 4 テキスト処理とプログラミング言語

第3章 テキスト処理のツール
3. 1 形態素解析
 3. 1. 1 JUMAN
 3. 1. 2 MeCab
3. 2 構文解析
 3. 2. 1 JUMAN/KNP
 3. 2. 2 CaboCha
3. 3 意味解析
 3. 3. 1 概念辞書
 3. 3. 2 極性辞書
 3. 3. 3 モダリティー
3. 4 その他の言語
 3. 4. 1 欧米語
 3. 4. 2 中国語
3. 5 形態素解析や構文解析結果の集計

第4章 テキストの基本統計と視覚化
4. 1 要素の単純集計と視覚化
 4. 1. 1 棒グラフ
 4. 1. 2 ワードクラウド
 4. 1. 3 格子グラフ
 4. 1. 4 経時的変化と折れ線グラフ
4. 2 記述統計量と視覚化
4. 3 推測統計と視覚化
 4. 3. 1 母集団と標本
 4. 3. 2 平均の区間推定
 4. 3. 3 帰無仮説検定とその統計量の活用
4. 4 統計的法則と指標
 4. 4. 1 ジップの法則
 4. 4. 2 語彙の豊富さの指標

第5章 共起とbigramのネットワーク分析
5. 1 共起とは
 5. 1. 1 形態素の共起
 5. 1. 2 形態素タグのn-gram
5. 2 共起の視覚化
 5. 2. 1 ネットワークグラフ
 5. 2. 2 ネットワークの統計量
 5. 2. 3 コミュニティ分析
5. 3 ネットワーク分析例
 5. 3. 1 データの俯瞰
 5. 3. 2 基本統計量を用いた探索的分析
 5. 3. 3 コミュニティの考察
5. 4 共起の強さ係数

第6章 テキストの特徴分析
6. 1 特徴分析時のデータ形式
6. 2 特異値分解
6. 3 主成分分析
 6. 3. 1 主成分と寄与率累積寄与率
 6. 3. 2 主成分得点
 6. 3. 3 主成分分析の例
6. 4 対応分析
 6. 4. 1 対応分析の例
 6. 4. 2 対応分析のアルゴリズム
6. 5 潜在意味解析LSA
6. 6 非負行列因子分解
 6. 6. 1 NMFの基本的アイディア
 6. 6. 2 NMF分析の例
 6. 6. 3 NMFの基本アルゴリズム
6. 7 その他の方法

第7章 トピック分析
7. 1 トピックモデルとは
7. 2 確率的潜在意味解析pLSA
 7. 2. 1 pLSAとは
 7. 2. 2 pLSA分析の例
7. 3 潜在ディリクレ配分法LDA
 7. 3. 1 LDA の分析例
 7. 3. 2 pLSAとLDAのアルゴリズム
 7. 3. 3 トピックの数について
 7. 3. 4 トピックモデル

第8章 テキストのクラスタリング
8. 1 類似度
8. 2 距離
 8. 2. 1 量的データの距離
 8. 2. 2 相対頻度の非類似度
8. 3 階層的クラスタリング
 8. 3. 1 階層的クラスタリングのプロセス
 8. 3. 2 階層的クラスタリングの例
 8. 3. 3 階層的クラスタリングの諸方法
8. 4 クラスターのヒートマップ
8. 5 非階層的クラスタリング
8. 6 クラスター数の決定方法
8. 7 t-SNE 法
 8. 7. 1 t-SNE法と主成分分析の比較
 8. 7. 2 t-SNEのアルゴリズム
8. 8 その他の方法

第9章 アソシエーション分析法による共起分析
9. 1 アソシエーション分析
9. 2 アソシエーションルール
 9. 2. 1 アソシエーションルールとは
 9. 2. 2 ルールの評価指標
 9. 2. 3 データ形式と操作
 9. 2. 4 ルールの抽出
 9. 2. 5 ルールの視覚化
9. 3 頻出共起の抽出
 9. 3. 1 頻出共起の抽出アルゴリズムeclat
 9. 3. 2 アルゴリズムeclatの例

第10章 テキストの分類分析
10. 1 分類分析
10. 2 分類結果の評価
 10. 2. 1 交差検証法
 10. 2. 2 混同行列
 10. 2. 3 正解率再現率適合率F1値
 10. 2. 4 ROCとAUCグラフ
 10. 2. 5 Kappa係数
10. 3 いくつかの分類器
 10. 3. 1 k近傍法と実践
 10. 3. 2 線形判別分析
 10. 3. 3 ロジスティック判別法
 10. 3. 4 ベイズ判別分析
 10. 3. 5 サポートベクターマシン
 10. 3. 6 ツリーモデル
 10. 3. 7 アンサンブル学習
 10. 3. 8 ニューラルネットワーク
10. 4 分類器の比較
 10. 4. 1 スパムメールの分類
 10. 4. 2 小説の著者識別
 10. 4. 3 統合的分析

第11章 テキストデータを用いた予測
11. 1 テキストの経時的分析
11. 2 重回帰分析
 11. 2. 1 重回帰分析の定式
 11. 2. 2 変数の選択
 11. 2. 3 文学作品の執筆時期の推定
11. 3 正則化回帰モデル
 11. 3. 1 L1 正則化lasso回帰
 11. 3. 2 L2 正則化ridge回帰
 11. 3. 3 Elastic net回帰
 11. 3. 4 正則化回帰モデルによる執筆時期の推定
11. 4 ランダムフォレスト
11. 5 トピックの経時的分析

第12章 特徴量選択
12. 1 特徴量選択について
12. 2 理論的特徴量選択
12. 3 機械的特徴量選択
 12. 3. 1 フィルター法
 12. 3. 2 ラッパー法
 12. 3. 3 埋め込み法
12. 4 特徴量選択とデータの性質構造275

第13章 分散表現
13. 1 分散表現
 13. 1. 1 単語のベクトル化
 13. 1. 2 文脈情報を考慮したベクトル化
13. 2 word2vec を用いたテキスト分類
13. 3 分散表現のその他の方法
 13. 3. 1 GloVe
 13. 3. 2 doc2vec
 13. 3. 3 fastText
 13. 3. 4 ELMo
 13. 3. 5 BERTとXLNet

付録A 統計モデルと集計ツールMTMineR
A. 1 構成要素を集計する統計モデル
A. 2 データ集計のツールMTMineR
 A. 2. 1 ダウンロードと起動終了
 A. 2. 2 ファイルの読み込み
A. 3 平テキスト集計のタブと機能
 A. 3. 1 Summaryタブ
 A. 3. 2 n-gramタブ
 A. 3. 3 Lengthタブ
 A. 3. 4 Markタブ
 A. 3. 5 KWICタブ
 A. 3. 6 Word Listタブ
 A. 3. 7 Toolsタブ
A. 4 タグ付きデータの集計
 A. 4. 1 形態素タグのラベル表記
 A. 4. 2 各タブの機能
 A. 4. 3 n-gramの集計と分析の例


おわりに
参考文献
索 引

著者情報

金 明哲
金, 明哲, 1954-