実践Data Scienceシリーズ Pythonではじめるテキストアナリティクス入門
書籍情報
発売日 : 2022年03月10日
著者/編集 : 榊 剛史/石野 亜耶/小早川 健/坂地 泰紀/嶋田 和孝/吉田 光男
出版社 : 講談社
発行形態 : 単行本
書籍説明
内容紹介
基礎技術と分析アプローチがわかる入門書の決定版。「spaCy+GiNZA」による一気通貫の分析が、初学者でもすぐに実践できる!観光/金融・経済/ソーシャルメディアの分析事例をていねいに解説!つまずきやすい「環境構築」もしっかりサポート!
目次
第I部 テキストアナリティクスの基礎
第1章 テキストアナリティクスことはじめ
1.1 テキストアナリティクスとは?
1.2 分析のためのアプローチ
1.3 分析のための基盤技術
1.4 まとめ:自然言語処理を学ぶために
第2章プログラミングの補足知識
2.1 文字コード
2.2 ファイルの入出力
2.3 正規表現
<note>正規表現のテスト・可視化方法
2.4 内包表記
2.5 まとめ:Pythonを使いこなすために
第3章 環境構築
3.1 Linux
3.2 macOS
3.3 Windows
3.4 Pythonの仮想環境
<note>仮想環境の必要性
3.5 まとめ:より快適な環境を構築するために
第4章 基礎技術
4.1 基礎的な解析
<note>spaCyの基本的な考え方
4.2 文書の分類・クラスタリング
4.3 可視化
<note>単語共起行列の計算
4.4 まとめ:より深い分析を実現するために
第II部 テキストアナリティクスの実践
第5章 データ収集
5.1 公開データ
5.2 社内データ
5.3 データ購入
5.4 ウェブクローリング
第6章 観光テキストの解析
6.1 データの入手:観光テキスト解析に利用できるソーシャルメディアの例
6.2 口コミを利用した観光地の分析
6.3 口コミを利用したテーマパークの分析
6.4 分析上の注意点
6.5 研究の紹介
第7章 金融・経済テキストの解析
7.1 事前準備:金融・経済における極性分析
7.2 データの入手:金融・経済テキストデータの入手
7.3 基礎的な解析:基礎的なテキスト分析
7.4 分析:有価証券報告書を用いた日経平均予想
7.5 分析上の注意点
7.6研究の紹介
第8章 ソーシャルメディアテキストの解析
8.1 Twitterデータによる世情分析
8.2 2ちゃんねるデータによる世情分析
8.3 大規模データ処理に対する工夫
8.4 研究の紹介
第III部 応用技術・発展的な内容
第9章 実践的なテクニック
9.1 単語処理に関するテクニック
9.2 その他のツールの比較と利用方法
9.3 まとめ
<note>根性マイニング
第10章 深層学習技術
10.1 単語分散表現
10.2 文分散表現
10.3 BERTをはじめとするTransformerモデルの利用
10.4 まとめ
第11章 環境構築の要らないテキストアナリティクス
11.1 Google Colaboratoryを利用したテキストアナリティクス
11.2 自然言語処理APIを利用したテキストアナリティクス
11.3 まとめ
付録 本書で利用するPythonライブラリ
第1章 テキストアナリティクスことはじめ
1.1 テキストアナリティクスとは?
1.2 分析のためのアプローチ
1.3 分析のための基盤技術
1.4 まとめ:自然言語処理を学ぶために
第2章プログラミングの補足知識
2.1 文字コード
2.2 ファイルの入出力
2.3 正規表現
<note>正規表現のテスト・可視化方法
2.4 内包表記
2.5 まとめ:Pythonを使いこなすために
第3章 環境構築
3.1 Linux
3.2 macOS
3.3 Windows
3.4 Pythonの仮想環境
<note>仮想環境の必要性
3.5 まとめ:より快適な環境を構築するために
第4章 基礎技術
4.1 基礎的な解析
<note>spaCyの基本的な考え方
4.2 文書の分類・クラスタリング
4.3 可視化
<note>単語共起行列の計算
4.4 まとめ:より深い分析を実現するために
第II部 テキストアナリティクスの実践
第5章 データ収集
5.1 公開データ
5.2 社内データ
5.3 データ購入
5.4 ウェブクローリング
第6章 観光テキストの解析
6.1 データの入手:観光テキスト解析に利用できるソーシャルメディアの例
6.2 口コミを利用した観光地の分析
6.3 口コミを利用したテーマパークの分析
6.4 分析上の注意点
6.5 研究の紹介
第7章 金融・経済テキストの解析
7.1 事前準備:金融・経済における極性分析
7.2 データの入手:金融・経済テキストデータの入手
7.3 基礎的な解析:基礎的なテキスト分析
7.4 分析:有価証券報告書を用いた日経平均予想
7.5 分析上の注意点
7.6研究の紹介
第8章 ソーシャルメディアテキストの解析
8.1 Twitterデータによる世情分析
8.2 2ちゃんねるデータによる世情分析
8.3 大規模データ処理に対する工夫
8.4 研究の紹介
第III部 応用技術・発展的な内容
第9章 実践的なテクニック
9.1 単語処理に関するテクニック
9.2 その他のツールの比較と利用方法
9.3 まとめ
<note>根性マイニング
第10章 深層学習技術
10.1 単語分散表現
10.2 文分散表現
10.3 BERTをはじめとするTransformerモデルの利用
10.4 まとめ
第11章 環境構築の要らないテキストアナリティクス
11.1 Google Colaboratoryを利用したテキストアナリティクス
11.2 自然言語処理APIを利用したテキストアナリティクス
11.3 まとめ
付録 本書で利用するPythonライブラリ
著者情報
榊 剛史
株式会社ホットリンク 開発本部R&D 部長
東京大学未来ビジョン研究センター 客員研究員
榊, 剛史
石野 亜耶
広島経済大学メディアビジネス学部ビジネス情報学科 准教授
石野, 亜耶
小早川 健
NHK放送技術研究所 主任研究員
小早川, 健
坂地 泰紀
東京大学大学院工学系研究科システム創成学専攻 特任講師
坂地, 泰紀, 1984-
嶋田 和孝
九州工業大学大学院情報工学研究院知能情報工学研究系 教授
嶋田, 和孝
吉田 光男
筑波大学ビジネスサイエンス系 准教授
有限会社てっくてっく 代表取締役
吉田, 光男, 情報通信
郡司, 直之