テキストアナリティクスの基礎と実践
書籍情報
発売日 : 2021年03月25日
著者/編集 : 金 明哲
出版社 : 岩波書店
発行形態 : 全集・双書
書籍説明
内容紹介
ロングセラー『テキストデータの統計科学入門』を全面改訂。具体的なツールを使用しながら丁寧に解説する。
目次
はじめに
第1章 テキストアナリティクス
1. 1 データの構造
1. 2 テキストアナリティクスとは
1. 3 テキストアナリティクスの小史
1. 4 テキストアナリティクスの諸分野
1. 4. 1 計量文体学
1. 4. 2 計量言語学とコーパス言語学
1. 4. 3 情報知識の抽出(テキストマイニング)
1. 5 テキストアナリティクスの手順
1. 5. 1 テキストの電子化
1. 5. 2 クリーニング
1. 5. 3 テキストの加工
1. 5. 4 データの抽出
1. 5. 5 データの分析
第2章 テキストのクリーニングと関連技法
2. 1 テキストのクリーニングとは
2. 2 テキストのクリーニングと正規表現
2. 3 文字コード
2. 4 テキスト処理とプログラミング言語
第3章 テキスト処理のツール
3. 1 形態素解析
3. 1. 1 JUMAN
3. 1. 2 MeCab
3. 2 構文解析
3. 2. 1 JUMAN/KNP
3. 2. 2 CaboCha
3. 3 意味解析
3. 3. 1 概念辞書
3. 3. 2 極性辞書
3. 3. 3 モダリティー
3. 4 その他の言語
3. 4. 1 欧米語
3. 4. 2 中国語
3. 5 形態素解析や構文解析結果の集計
第4章 テキストの基本統計と視覚化
4. 1 要素の単純集計と視覚化
4. 1. 1 棒グラフ
4. 1. 2 ワードクラウド
4. 1. 3 格子グラフ
4. 1. 4 経時的変化と折れ線グラフ
4. 2 記述統計量と視覚化
4. 3 推測統計と視覚化
4. 3. 1 母集団と標本
4. 3. 2 平均の区間推定
4. 3. 3 帰無仮説検定とその統計量の活用
4. 4 統計的法則と指標
4. 4. 1 ジップの法則
4. 4. 2 語彙の豊富さの指標
第5章 共起とbigramのネットワーク分析
5. 1 共起とは
5. 1. 1 形態素の共起
5. 1. 2 形態素タグのn-gram
5. 2 共起の視覚化
5. 2. 1 ネットワークグラフ
5. 2. 2 ネットワークの統計量
5. 2. 3 コミュニティ分析
5. 3 ネットワーク分析例
5. 3. 1 データの俯瞰
5. 3. 2 基本統計量を用いた探索的分析
5. 3. 3 コミュニティの考察
5. 4 共起の強さ係数
第6章 テキストの特徴分析
6. 1 特徴分析時のデータ形式
6. 2 特異値分解
6. 3 主成分分析
6. 3. 1 主成分と寄与率累積寄与率
6. 3. 2 主成分得点
6. 3. 3 主成分分析の例
6. 4 対応分析
6. 4. 1 対応分析の例
6. 4. 2 対応分析のアルゴリズム
6. 5 潜在意味解析LSA
6. 6 非負行列因子分解
6. 6. 1 NMFの基本的アイディア
6. 6. 2 NMF分析の例
6. 6. 3 NMFの基本アルゴリズム
6. 7 その他の方法
第7章 トピック分析
7. 1 トピックモデルとは
7. 2 確率的潜在意味解析pLSA
7. 2. 1 pLSAとは
7. 2. 2 pLSA分析の例
7. 3 潜在ディリクレ配分法LDA
7. 3. 1 LDA の分析例
7. 3. 2 pLSAとLDAのアルゴリズム
7. 3. 3 トピックの数について
7. 3. 4 トピックモデル
第8章 テキストのクラスタリング
8. 1 類似度
8. 2 距離
8. 2. 1 量的データの距離
8. 2. 2 相対頻度の非類似度
8. 3 階層的クラスタリング
8. 3. 1 階層的クラスタリングのプロセス
8. 3. 2 階層的クラスタリングの例
8. 3. 3 階層的クラスタリングの諸方法
8. 4 クラスターのヒートマップ
8. 5 非階層的クラスタリング
8. 6 クラスター数の決定方法
8. 7 t-SNE 法
8. 7. 1 t-SNE法と主成分分析の比較
8. 7. 2 t-SNEのアルゴリズム
8. 8 その他の方法
第9章 アソシエーション分析法による共起分析
9. 1 アソシエーション分析
9. 2 アソシエーションルール
9. 2. 1 アソシエーションルールとは
9. 2. 2 ルールの評価指標
9. 2. 3 データ形式と操作
9. 2. 4 ルールの抽出
9. 2. 5 ルールの視覚化
9. 3 頻出共起の抽出
9. 3. 1 頻出共起の抽出アルゴリズムeclat
9. 3. 2 アルゴリズムeclatの例
第10章 テキストの分類分析
10. 1 分類分析
10. 2 分類結果の評価
10. 2. 1 交差検証法
10. 2. 2 混同行列
10. 2. 3 正解率再現率適合率F1値
10. 2. 4 ROCとAUCグラフ
10. 2. 5 Kappa係数
10. 3 いくつかの分類器
10. 3. 1 k近傍法と実践
10. 3. 2 線形判別分析
10. 3. 3 ロジスティック判別法
10. 3. 4 ベイズ判別分析
10. 3. 5 サポートベクターマシン
10. 3. 6 ツリーモデル
10. 3. 7 アンサンブル学習
10. 3. 8 ニューラルネットワーク
10. 4 分類器の比較
10. 4. 1 スパムメールの分類
10. 4. 2 小説の著者識別
10. 4. 3 統合的分析
第11章 テキストデータを用いた予測
11. 1 テキストの経時的分析
11. 2 重回帰分析
11. 2. 1 重回帰分析の定式
11. 2. 2 変数の選択
11. 2. 3 文学作品の執筆時期の推定
11. 3 正則化回帰モデル
11. 3. 1 L1 正則化lasso回帰
11. 3. 2 L2 正則化ridge回帰
11. 3. 3 Elastic net回帰
11. 3. 4 正則化回帰モデルによる執筆時期の推定
11. 4 ランダムフォレスト
11. 5 トピックの経時的分析
第12章 特徴量選択
12. 1 特徴量選択について
12. 2 理論的特徴量選択
12. 3 機械的特徴量選択
12. 3. 1 フィルター法
12. 3. 2 ラッパー法
12. 3. 3 埋め込み法
12. 4 特徴量選択とデータの性質構造275
第13章 分散表現
13. 1 分散表現
13. 1. 1 単語のベクトル化
13. 1. 2 文脈情報を考慮したベクトル化
13. 2 word2vec を用いたテキスト分類
13. 3 分散表現のその他の方法
13. 3. 1 GloVe
13. 3. 2 doc2vec
13. 3. 3 fastText
13. 3. 4 ELMo
13. 3. 5 BERTとXLNet
付録A 統計モデルと集計ツールMTMineR
A. 1 構成要素を集計する統計モデル
A. 2 データ集計のツールMTMineR
A. 2. 1 ダウンロードと起動終了
A. 2. 2 ファイルの読み込み
A. 3 平テキスト集計のタブと機能
A. 3. 1 Summaryタブ
A. 3. 2 n-gramタブ
A. 3. 3 Lengthタブ
A. 3. 4 Markタブ
A. 3. 5 KWICタブ
A. 3. 6 Word Listタブ
A. 3. 7 Toolsタブ
A. 4 タグ付きデータの集計
A. 4. 1 形態素タグのラベル表記
A. 4. 2 各タブの機能
A. 4. 3 n-gramの集計と分析の例
おわりに
参考文献
索 引
第1章 テキストアナリティクス
1. 1 データの構造
1. 2 テキストアナリティクスとは
1. 3 テキストアナリティクスの小史
1. 4 テキストアナリティクスの諸分野
1. 4. 1 計量文体学
1. 4. 2 計量言語学とコーパス言語学
1. 4. 3 情報知識の抽出(テキストマイニング)
1. 5 テキストアナリティクスの手順
1. 5. 1 テキストの電子化
1. 5. 2 クリーニング
1. 5. 3 テキストの加工
1. 5. 4 データの抽出
1. 5. 5 データの分析
第2章 テキストのクリーニングと関連技法
2. 1 テキストのクリーニングとは
2. 2 テキストのクリーニングと正規表現
2. 3 文字コード
2. 4 テキスト処理とプログラミング言語
第3章 テキスト処理のツール
3. 1 形態素解析
3. 1. 1 JUMAN
3. 1. 2 MeCab
3. 2 構文解析
3. 2. 1 JUMAN/KNP
3. 2. 2 CaboCha
3. 3 意味解析
3. 3. 1 概念辞書
3. 3. 2 極性辞書
3. 3. 3 モダリティー
3. 4 その他の言語
3. 4. 1 欧米語
3. 4. 2 中国語
3. 5 形態素解析や構文解析結果の集計
第4章 テキストの基本統計と視覚化
4. 1 要素の単純集計と視覚化
4. 1. 1 棒グラフ
4. 1. 2 ワードクラウド
4. 1. 3 格子グラフ
4. 1. 4 経時的変化と折れ線グラフ
4. 2 記述統計量と視覚化
4. 3 推測統計と視覚化
4. 3. 1 母集団と標本
4. 3. 2 平均の区間推定
4. 3. 3 帰無仮説検定とその統計量の活用
4. 4 統計的法則と指標
4. 4. 1 ジップの法則
4. 4. 2 語彙の豊富さの指標
第5章 共起とbigramのネットワーク分析
5. 1 共起とは
5. 1. 1 形態素の共起
5. 1. 2 形態素タグのn-gram
5. 2 共起の視覚化
5. 2. 1 ネットワークグラフ
5. 2. 2 ネットワークの統計量
5. 2. 3 コミュニティ分析
5. 3 ネットワーク分析例
5. 3. 1 データの俯瞰
5. 3. 2 基本統計量を用いた探索的分析
5. 3. 3 コミュニティの考察
5. 4 共起の強さ係数
第6章 テキストの特徴分析
6. 1 特徴分析時のデータ形式
6. 2 特異値分解
6. 3 主成分分析
6. 3. 1 主成分と寄与率累積寄与率
6. 3. 2 主成分得点
6. 3. 3 主成分分析の例
6. 4 対応分析
6. 4. 1 対応分析の例
6. 4. 2 対応分析のアルゴリズム
6. 5 潜在意味解析LSA
6. 6 非負行列因子分解
6. 6. 1 NMFの基本的アイディア
6. 6. 2 NMF分析の例
6. 6. 3 NMFの基本アルゴリズム
6. 7 その他の方法
第7章 トピック分析
7. 1 トピックモデルとは
7. 2 確率的潜在意味解析pLSA
7. 2. 1 pLSAとは
7. 2. 2 pLSA分析の例
7. 3 潜在ディリクレ配分法LDA
7. 3. 1 LDA の分析例
7. 3. 2 pLSAとLDAのアルゴリズム
7. 3. 3 トピックの数について
7. 3. 4 トピックモデル
第8章 テキストのクラスタリング
8. 1 類似度
8. 2 距離
8. 2. 1 量的データの距離
8. 2. 2 相対頻度の非類似度
8. 3 階層的クラスタリング
8. 3. 1 階層的クラスタリングのプロセス
8. 3. 2 階層的クラスタリングの例
8. 3. 3 階層的クラスタリングの諸方法
8. 4 クラスターのヒートマップ
8. 5 非階層的クラスタリング
8. 6 クラスター数の決定方法
8. 7 t-SNE 法
8. 7. 1 t-SNE法と主成分分析の比較
8. 7. 2 t-SNEのアルゴリズム
8. 8 その他の方法
第9章 アソシエーション分析法による共起分析
9. 1 アソシエーション分析
9. 2 アソシエーションルール
9. 2. 1 アソシエーションルールとは
9. 2. 2 ルールの評価指標
9. 2. 3 データ形式と操作
9. 2. 4 ルールの抽出
9. 2. 5 ルールの視覚化
9. 3 頻出共起の抽出
9. 3. 1 頻出共起の抽出アルゴリズムeclat
9. 3. 2 アルゴリズムeclatの例
第10章 テキストの分類分析
10. 1 分類分析
10. 2 分類結果の評価
10. 2. 1 交差検証法
10. 2. 2 混同行列
10. 2. 3 正解率再現率適合率F1値
10. 2. 4 ROCとAUCグラフ
10. 2. 5 Kappa係数
10. 3 いくつかの分類器
10. 3. 1 k近傍法と実践
10. 3. 2 線形判別分析
10. 3. 3 ロジスティック判別法
10. 3. 4 ベイズ判別分析
10. 3. 5 サポートベクターマシン
10. 3. 6 ツリーモデル
10. 3. 7 アンサンブル学習
10. 3. 8 ニューラルネットワーク
10. 4 分類器の比較
10. 4. 1 スパムメールの分類
10. 4. 2 小説の著者識別
10. 4. 3 統合的分析
第11章 テキストデータを用いた予測
11. 1 テキストの経時的分析
11. 2 重回帰分析
11. 2. 1 重回帰分析の定式
11. 2. 2 変数の選択
11. 2. 3 文学作品の執筆時期の推定
11. 3 正則化回帰モデル
11. 3. 1 L1 正則化lasso回帰
11. 3. 2 L2 正則化ridge回帰
11. 3. 3 Elastic net回帰
11. 3. 4 正則化回帰モデルによる執筆時期の推定
11. 4 ランダムフォレスト
11. 5 トピックの経時的分析
第12章 特徴量選択
12. 1 特徴量選択について
12. 2 理論的特徴量選択
12. 3 機械的特徴量選択
12. 3. 1 フィルター法
12. 3. 2 ラッパー法
12. 3. 3 埋め込み法
12. 4 特徴量選択とデータの性質構造275
第13章 分散表現
13. 1 分散表現
13. 1. 1 単語のベクトル化
13. 1. 2 文脈情報を考慮したベクトル化
13. 2 word2vec を用いたテキスト分類
13. 3 分散表現のその他の方法
13. 3. 1 GloVe
13. 3. 2 doc2vec
13. 3. 3 fastText
13. 3. 4 ELMo
13. 3. 5 BERTとXLNet
付録A 統計モデルと集計ツールMTMineR
A. 1 構成要素を集計する統計モデル
A. 2 データ集計のツールMTMineR
A. 2. 1 ダウンロードと起動終了
A. 2. 2 ファイルの読み込み
A. 3 平テキスト集計のタブと機能
A. 3. 1 Summaryタブ
A. 3. 2 n-gramタブ
A. 3. 3 Lengthタブ
A. 3. 4 Markタブ
A. 3. 5 KWICタブ
A. 3. 6 Word Listタブ
A. 3. 7 Toolsタブ
A. 4 タグ付きデータの集計
A. 4. 1 形態素タグのラベル表記
A. 4. 2 各タブの機能
A. 4. 3 n-gramの集計と分析の例
おわりに
参考文献
索 引
著者情報
金 明哲
金, 明哲, 1954-