テキストデータマネジメント

書籍情報

発売日 : 2022年12月13日

著者/編集 : 波多野 賢治/天笠 俊之/鈴木 優/宮崎 純/楠 和馬

出版社 : 岩波書店

発行形態 : 全集・双書

書籍説明

内容紹介

日々生み出され蓄積されていく膨大なテキストデータを分析するためには、データ管理が必須となる。本書は、類書の少ないテキストデータマネジメントに光をあてて、その基本知識と手法を網羅的に解説する。大規模テキストデータを扱う各種技術から分析法の実際まで、この1冊でその利活用法の全貌がわかる。

目次

 はじめに

第1章テキストデータマネジメントシステム
 1. 1 テキストデータマネジメントの重要性
 1. 2 用語の定義
 1. 3 テキストデータマネジメントシステムの概要
 1. 4 テキストアナリティクスの流れとツール
 1. 5 テキストアナリティクスの例
 1. 6 本書で想定するPython 実行環境

第2章テキストデータの表現・格納・収集
 2. 1 テキストデータの表現
 2. 2 テキストベースのさまざまなフォーマット
 2. 3 テキストデータの格納
 2. 4 テキストデータの収集
 2. 5 リンクトオープンデータの情報源
 2. 6 データクリーニング

第3章テキストデータからの特徴量抽出
 3. 1 形態素解析
 3. 2 語の特徴量
 3. 3 文書の特徴量
 3. 4 文の特徴量
 3. 5 メタデータ
 3. 6 グラフの特徴量抽出

第4章テキストアナリティクスの方法論
 4. 1 テキストの分類
 4. 2 テキストのクラスタリング
 4. 3 文の類似度
 4. 4 リンク解析
 4. 5 システムの評価

第5章テキストアナリティクスの実例
 5. 1 BigQuery+Python によるテキストアナリティクス
 5. 2 クラスタ型計算機を活用した大規模テキストアナリティクス

付録BigQuery の利用準備

 参考文献
 索引

著者情報

波多野 賢治
波多野, 賢治
天笠 俊之
天笠, 俊之
鈴木 優
鈴木, 優, 情報通信
宮崎 純
宮崎, 純
楠 和馬
楠, 和馬
金, 明哲, 1954-