テキストデータマネジメント
書籍情報
発売日 : 2022/12/13
著者/編集 : 波多野 賢治/天笠 俊之
出版社 : 岩波書店
発行形態 : 全集・双書
ページ数 : 242p
書籍説明
内容紹介
日々更新・蓄積される膨大なテキストを扱うためには、データ管理が必須となる。本書は、⼤規模なテキストデータを利活⽤する上で必要となる基本知識と⼿法を網羅的に解説する。データ抽出と格納、その各種表現⽅法と重みの計算法や索引付け、そして分析の実例まで、この1冊で大規模テキストデータの活用法の全貌がわかる。
目次
はじめに
第1章テキストデータマネジメントシステム
1. 1 テキストデータマネジメントの重要性
1. 2 用語の定義
1. 3 テキストデータマネジメントシステムの概要
1. 4 テキストアナリティクスの流れとツール
1. 5 テキストアナリティクスの例
1. 6 本書で想定するPython 実行環境
第2章テキストデータの表現・格納・収集
2. 1 テキストデータの表現
2. 2 テキストベースのさまざまなフォーマット
2. 3 テキストデータの格納
2. 4 テキストデータの収集
2. 5 リンクトオープンデータの情報源
2. 6 データクリーニング
第3章テキストデータからの特徴量抽出
3. 1 形態素解析
3. 2 語の特徴量
3. 3 文書の特徴量
3. 4 文の特徴量
3. 5 メタデータ
3. 6 グラフの特徴量抽出
第4章テキストアナリティクスの方法論
4. 1 テキストの分類
4. 2 テキストのクラスタリング
4. 3 文の類似度
4. 4 リンク解析
4. 5 システムの評価
第5章テキストアナリティクスの実例
5. 1 BigQuery+Python によるテキストアナリティクス
5. 2 クラスタ型計算機を活用した大規模テキストアナリティクス
付録BigQuery の利用準備
参考文献
索引
第1章テキストデータマネジメントシステム
1. 1 テキストデータマネジメントの重要性
1. 2 用語の定義
1. 3 テキストデータマネジメントシステムの概要
1. 4 テキストアナリティクスの流れとツール
1. 5 テキストアナリティクスの例
1. 6 本書で想定するPython 実行環境
第2章テキストデータの表現・格納・収集
2. 1 テキストデータの表現
2. 2 テキストベースのさまざまなフォーマット
2. 3 テキストデータの格納
2. 4 テキストデータの収集
2. 5 リンクトオープンデータの情報源
2. 6 データクリーニング
第3章テキストデータからの特徴量抽出
3. 1 形態素解析
3. 2 語の特徴量
3. 3 文書の特徴量
3. 4 文の特徴量
3. 5 メタデータ
3. 6 グラフの特徴量抽出
第4章テキストアナリティクスの方法論
4. 1 テキストの分類
4. 2 テキストのクラスタリング
4. 3 文の類似度
4. 4 リンク解析
4. 5 システムの評価
第5章テキストアナリティクスの実例
5. 1 BigQuery+Python によるテキストアナリティクス
5. 2 クラスタ型計算機を活用した大規模テキストアナリティクス
付録BigQuery の利用準備
参考文献
索引
著者情報
波多野 賢治
天笠 俊之
鈴木 優
宮崎 純
楠 和馬