4,180円 (税込)

テキストアナリティクスの基礎と実践

AI・自然言語処理

形態素解析, ネットワーク, MeCab

書籍情報

発売日：2021年03月25日

著者／編集：金明哲

出版社：岩波書店

発行形態：全集・双書

書籍説明

内容紹介

ロングセラー『テキストデータの統計科学入門』を全面改訂。具体的なツールを使用しながら丁寧に解説する。

はじめに第1章　テキストアナリティクス 1. 1 データの構造 1. 2 テキストアナリティクスとは 1. 3 テキストアナリティクスの小史 1. 4 テキストアナリティクスの諸分野　1. 4. 1 計量文体学　1. 4. 2 計量言語学とコーパス言語学　1. 4. 3 情報知識の抽出（テキストマイニング） 1. 5 テキストアナリティクスの手順　1. 5. 1 テキストの電子化　1. 5. 2 クリーニング　1. 5. 3 テキストの加工　1. 5. 4 データの抽出　1. 5. 5 データの分析第2章　テキストのクリーニングと関連技法 2. 1 テキストのクリーニングとは 2. 2 テキストのクリーニングと正規表現 2. 3 文字コード 2. 4 テキスト処理とプログラミング言語第3章　テキスト処理のツール 3. 1 形態素解析　3. 1. 1 JUMAN 　3. 1. 2 MeCab 3. 2 構文解析　3. 2. 1 JUMAN/KNP 　3. 2. 2 CaboCha 3. 3 意味解析　3. 3. 1 概念辞書　3. 3. 2 極性辞書　3. 3. 3 モダリティー 3. 4 その他の言語　3. 4. 1 欧米語　3. 4. 2 中国語 3. 5 形態素解析や構文解析結果の集計第4章　テキストの基本統計と視覚化 4. 1 要素の単純集計と視覚化　4. 1. 1 棒グラフ　4. 1. 2 ワードクラウド　4. 1. 3 格子グラフ　4. 1. 4 経時的変化と折れ線グラフ 4. 2 記述統計量と視覚化 4. 3 推測統計と視覚化　4. 3. 1 母集団と標本　4. 3. 2 平均の区間推定　4. 3. 3 帰無仮説検定とその統計量の活用 4. 4 統計的法則と指標　4. 4. 1 ジップの法則　4. 4. 2 語彙の豊富さの指標第5章　共起とbigramのネットワーク分析 5. 1 共起とは　5. 1. 1 形態素の共起　5. 1. 2 形態素タグのn-gram 5. 2 共起の視覚化　5. 2. 1 ネットワークグラフ　5. 2. 2 ネットワークの統計量　5. 2. 3 コミュニティ分析 5. 3 ネットワーク分析例　5. 3. 1 データの俯瞰　5. 3. 2 基本統計量を用いた探索的分析　5. 3. 3 コミュニティの考察 5. 4 共起の強さ係数第6章　テキストの特徴分析 6. 1 特徴分析時のデータ形式 6. 2 特異値分解 6. 3 主成分分析　6. 3. 1 主成分と寄与率累積寄与率　6. 3. 2 主成分得点　6. 3. 3 主成分分析の例 6. 4 対応分析　6. 4. 1 対応分析の例　6. 4. 2 対応分析のアルゴリズム 6. 5 潜在意味解析LSA 6. 6 非負行列因子分解　6. 6. 1 NMFの基本的アイディア　6. 6. 2 NMF分析の例　6. 6. 3 NMFの基本アルゴリズム 6. 7 その他の方法第7章　トピック分析 7. 1 トピックモデルとは 7. 2 確率的潜在意味解析pLSA 　7. 2. 1 pLSAとは　7. 2. 2 pLSA分析の例 7. 3 潜在ディリクレ配分法LDA 　7. 3. 1 LDA の分析例　7. 3. 2 pLSAとLDAのアルゴリズム　7. 3. 3 トピックの数について　7. 3. 4 トピックモデル第8章　テキストのクラスタリング 8. 1 類似度 8. 2 距離　8. 2. 1 量的データの距離　8. 2. 2 相対頻度の非類似度 8. 3 階層的クラスタリング　8. 3. 1 階層的クラスタリングのプロセス　8. 3. 2 階層的クラスタリングの例　8. 3. 3 階層的クラスタリングの諸方法 8. 4 クラスターのヒートマップ 8. 5 非階層的クラスタリング 8. 6 クラスター数の決定方法 8. 7 t-SNE 法　8. 7. 1 t-SNE法と主成分分析の比較　8. 7. 2 t-SNEのアルゴリズム 8. 8 その他の方法第9章　アソシエーション分析法による共起分析 9. 1 アソシエーション分析 9. 2 アソシエーションルール　9. 2. 1 アソシエーションルールとは　9. 2. 2 ルールの評価指標　9. 2. 3 データ形式と操作　9. 2. 4 ルールの抽出　9. 2. 5 ルールの視覚化 9. 3 頻出共起の抽出　9. 3. 1 頻出共起の抽出アルゴリズムeclat 　9. 3. 2 アルゴリズムeclatの例第10章　テキストの分類分析 10. 1 分類分析 10. 2 分類結果の評価　10. 2. 1 交差検証法　10. 2. 2 混同行列　10. 2. 3 正解率再現率適合率F1値　10. 2. 4 ROCとAUCグラフ　10. 2. 5 Kappa係数 10. 3 いくつかの分類器　10. 3. 1 k近傍法と実践　10. 3. 2 線形判別分析　10. 3. 3 ロジスティック判別法　10. 3. 4 ベイズ判別分析　10. 3. 5 サポートベクターマシン　10. 3. 6 ツリーモデル　10. 3. 7 アンサンブル学習　10. 3. 8 ニューラルネットワーク 10. 4 分類器の比較　10. 4. 1 スパムメールの分類　10. 4. 2 小説の著者識別　10. 4. 3 統合的分析第11章　テキストデータを用いた予測 11. 1 テキストの経時的分析 11. 2 重回帰分析　11. 2. 1 重回帰分析の定式　11. 2. 2 変数の選択　11. 2. 3 文学作品の執筆時期の推定 11. 3 正則化回帰モデル　11. 3. 1 L1 正則化lasso回帰　11. 3. 2 L2 正則化ridge回帰　11. 3. 3 Elastic net回帰　11. 3. 4 正則化回帰モデルによる執筆時期の推定 11. 4 ランダムフォレスト 11. 5 トピックの経時的分析第12章　特徴量選択 12. 1 特徴量選択について 12. 2 理論的特徴量選択 12. 3 機械的特徴量選択　12. 3. 1 フィルター法　12. 3. 2 ラッパー法　12. 3. 3 埋め込み法 12. 4 特徴量選択とデータの性質構造275 第13章　分散表現 13. 1 分散表現　13. 1. 1 単語のベクトル化　13. 1. 2 文脈情報を考慮したベクトル化 13. 2 word2vec を用いたテキスト分類 13. 3 分散表現のその他の方法　13. 3. 1 GloVe 　13. 3. 2 doc2vec 　13. 3. 3 fastText 　13. 3. 4 ELMo 　13. 3. 5 BERTとXLNet 付録A 統計モデルと集計ツールMTMineR A. 1 構成要素を集計する統計モデル A. 2 データ集計のツールMTMineR 　A. 2. 1 ダウンロードと起動終了　A. 2. 2 ファイルの読み込み A. 3 平テキスト集計のタブと機能　A. 3. 1 Summaryタブ　A. 3. 2 n-gramタブ　A. 3. 3 Lengthタブ　A. 3. 4 Markタブ　A. 3. 5 KWICタブ　A. 3. 6 Word Listタブ　A. 3. 7 Toolsタブ A. 4 タグ付きデータの集計　A. 4. 1 形態素タグのラベル表記　A. 4. 2 各タブの機能　A. 4. 3 n-gramの集計と分析の例おわりに参考文献索　引