TECH PLAY

テキストアナリティクスの基礎と実践

4,180円 (税込)

楽天

テキストアナリティクスの基礎と実践

書籍情報

発売日:

著者/編集:金 明哲

出版社:岩波書店

発行形態:全集・双書

書籍説明

内容紹介

ロングセラー『テキストデータの統計科学入門』を全面改訂。具体的なツールを使用しながら丁寧に解説する。

目次

はじめに 第1章 テキストアナリティクス 1. 1 データの構造 1. 2 テキストアナリティクスとは 1. 3 テキストアナリティクスの小史 1. 4 テキストアナリティクスの諸分野  1. 4. 1 計量文体学  1. 4. 2 計量言語学とコーパス言語学  1. 4. 3 情報知識の抽出(テキストマイニング) 1. 5 テキストアナリティクスの手順  1. 5. 1 テキストの電子化  1. 5. 2 クリーニング  1. 5. 3 テキストの加工  1. 5. 4 データの抽出  1. 5. 5 データの分析 第2章 テキストのクリーニングと関連技法 2. 1 テキストのクリーニングとは 2. 2 テキストのクリーニングと正規表現 2. 3 文字コード 2. 4 テキスト処理とプログラミング言語 第3章 テキスト処理のツール 3. 1 形態素解析  3. 1. 1 JUMAN  3. 1. 2 MeCab 3. 2 構文解析  3. 2. 1 JUMAN/KNP  3. 2. 2 CaboCha 3. 3 意味解析  3. 3. 1 概念辞書  3. 3. 2 極性辞書  3. 3. 3 モダリティー 3. 4 その他の言語  3. 4. 1 欧米語  3. 4. 2 中国語 3. 5 形態素解析や構文解析結果の集計 第4章 テキストの基本統計と視覚化 4. 1 要素の単純集計と視覚化  4. 1. 1 棒グラフ  4. 1. 2 ワードクラウド  4. 1. 3 格子グラフ  4. 1. 4 経時的変化と折れ線グラフ 4. 2 記述統計量と視覚化 4. 3 推測統計と視覚化  4. 3. 1 母集団と標本  4. 3. 2 平均の区間推定  4. 3. 3 帰無仮説検定とその統計量の活用 4. 4 統計的法則と指標  4. 4. 1 ジップの法則  4. 4. 2 語彙の豊富さの指標 第5章 共起とbigramのネットワーク分析 5. 1 共起とは  5. 1. 1 形態素の共起  5. 1. 2 形態素タグのn-gram 5. 2 共起の視覚化  5. 2. 1 ネットワークグラフ  5. 2. 2 ネットワークの統計量  5. 2. 3 コミュニティ分析 5. 3 ネットワーク分析例  5. 3. 1 データの俯瞰  5. 3. 2 基本統計量を用いた探索的分析  5. 3. 3 コミュニティの考察 5. 4 共起の強さ係数 第6章 テキストの特徴分析 6. 1 特徴分析時のデータ形式 6. 2 特異値分解 6. 3 主成分分析  6. 3. 1 主成分と寄与率累積寄与率  6. 3. 2 主成分得点  6. 3. 3 主成分分析の例 6. 4 対応分析  6. 4. 1 対応分析の例  6. 4. 2 対応分析のアルゴリズム 6. 5 潜在意味解析LSA 6. 6 非負行列因子分解  6. 6. 1 NMFの基本的アイディア  6. 6. 2 NMF分析の例  6. 6. 3 NMFの基本アルゴリズム 6. 7 その他の方法 第7章 トピック分析 7. 1 トピックモデルとは 7. 2 確率的潜在意味解析pLSA  7. 2. 1 pLSAとは  7. 2. 2 pLSA分析の例 7. 3 潜在ディリクレ配分法LDA  7. 3. 1 LDA の分析例  7. 3. 2 pLSAとLDAのアルゴリズム  7. 3. 3 トピックの数について  7. 3. 4 トピックモデル 第8章 テキストのクラスタリング 8. 1 類似度 8. 2 距離  8. 2. 1 量的データの距離  8. 2. 2 相対頻度の非類似度 8. 3 階層的クラスタリング  8. 3. 1 階層的クラスタリングのプロセス  8. 3. 2 階層的クラスタリングの例  8. 3. 3 階層的クラスタリングの諸方法 8. 4 クラスターのヒートマップ 8. 5 非階層的クラスタリング 8. 6 クラスター数の決定方法 8. 7 t-SNE 法  8. 7. 1 t-SNE法と主成分分析の比較  8. 7. 2 t-SNEのアルゴリズム 8. 8 その他の方法 第9章 アソシエーション分析法による共起分析 9. 1 アソシエーション分析 9. 2 アソシエーションルール  9. 2. 1 アソシエーションルールとは  9. 2. 2 ルールの評価指標  9. 2. 3 データ形式と操作  9. 2. 4 ルールの抽出  9. 2. 5 ルールの視覚化 9. 3 頻出共起の抽出  9. 3. 1 頻出共起の抽出アルゴリズムeclat  9. 3. 2 アルゴリズムeclatの例 第10章 テキストの分類分析 10. 1 分類分析 10. 2 分類結果の評価  10. 2. 1 交差検証法  10. 2. 2 混同行列  10. 2. 3 正解率再現率適合率F1値  10. 2. 4 ROCとAUCグラフ  10. 2. 5 Kappa係数 10. 3 いくつかの分類器  10. 3. 1 k近傍法と実践  10. 3. 2 線形判別分析  10. 3. 3 ロジスティック判別法  10. 3. 4 ベイズ判別分析  10. 3. 5 サポートベクターマシン  10. 3. 6 ツリーモデル  10. 3. 7 アンサンブル学習  10. 3. 8 ニューラルネットワーク 10. 4 分類器の比較  10. 4. 1 スパムメールの分類  10. 4. 2 小説の著者識別  10. 4. 3 統合的分析 第11章 テキストデータを用いた予測 11. 1 テキストの経時的分析 11. 2 重回帰分析  11. 2. 1 重回帰分析の定式  11. 2. 2 変数の選択  11. 2. 3 文学作品の執筆時期の推定 11. 3 正則化回帰モデル  11. 3. 1 L1 正則化lasso回帰  11. 3. 2 L2 正則化ridge回帰  11. 3. 3 Elastic net回帰  11. 3. 4 正則化回帰モデルによる執筆時期の推定 11. 4 ランダムフォレスト 11. 5 トピックの経時的分析 第12章 特徴量選択 12. 1 特徴量選択について 12. 2 理論的特徴量選択 12. 3 機械的特徴量選択  12. 3. 1 フィルター法  12. 3. 2 ラッパー法  12. 3. 3 埋め込み法 12. 4 特徴量選択とデータの性質構造275 第13章 分散表現 13. 1 分散表現  13. 1. 1 単語のベクトル化  13. 1. 2 文脈情報を考慮したベクトル化 13. 2 word2vec を用いたテキスト分類 13. 3 分散表現のその他の方法  13. 3. 1 GloVe  13. 3. 2 doc2vec  13. 3. 3 fastText  13. 3. 4 ELMo  13. 3. 5 BERTとXLNet 付録A 統計モデルと集計ツールMTMineR A. 1 構成要素を集計する統計モデル A. 2 データ集計のツールMTMineR  A. 2. 1 ダウンロードと起動終了  A. 2. 2 ファイルの読み込み A. 3 平テキスト集計のタブと機能  A. 3. 1 Summaryタブ  A. 3. 2 n-gramタブ  A. 3. 3 Lengthタブ  A. 3. 4 Markタブ  A. 3. 5 KWICタブ  A. 3. 6 Word Listタブ  A. 3. 7 Toolsタブ A. 4 タグ付きデータの集計  A. 4. 1 形態素タグのラベル表記  A. 4. 2 各タブの機能  A. 4. 3 n-gramの集計と分析の例 おわりに 参考文献 索 引

著者情報

金 明哲

金, 明哲, 1954-