実践Data Scienceシリーズ Pythonではじめるテキストアナリティクス入門

書籍情報

発売日 : 2022年03月10日

著者/編集 : 榊 剛史/石野 亜耶/小早川 健/坂地 泰紀/嶋田 和孝/吉田 光男

出版社 : 講談社

発行形態 : 単行本

書籍説明

内容紹介

基礎技術と分析アプローチがわかる入門書の決定版。「spaCy+GiNZA」による一気通貫の分析が、初学者でもすぐに実践できる!観光/金融・経済/ソーシャルメディアの分析事例をていねいに解説!つまずきやすい「環境構築」もしっかりサポート!

目次

第I部 テキストアナリティクスの基礎

第1章 テキストアナリティクスことはじめ
 1.1 テキストアナリティクスとは?
 1.2 分析のためのアプローチ
 1.3 分析のための基盤技術
 1.4 まとめ:自然言語処理を学ぶために
第2章プログラミングの補足知識
 2.1 文字コード
 2.2 ファイルの入出力
 2.3 正規表現
 <note>正規表現のテスト・可視化方法
 2.4 内包表記
 2.5 まとめ:Pythonを使いこなすために
第3章 環境構築
 3.1 Linux
 3.2 macOS
 3.3 Windows
 3.4 Pythonの仮想環境
 <note>仮想環境の必要性
 3.5 まとめ:より快適な環境を構築するために
第4章 基礎技術
 4.1 基礎的な解析
 <note>spaCyの基本的な考え方
 4.2 文書の分類・クラスタリング
 4.3 可視化
 <note>単語共起行列の計算
 4.4 まとめ:より深い分析を実現するために


第II部 テキストアナリティクスの実践

第5章 データ収集
 5.1 公開データ
 5.2 社内データ
 5.3 データ購入
 5.4 ウェブクローリング
第6章 観光テキストの解析
 6.1 データの入手:観光テキスト解析に利用できるソーシャルメディアの例
 6.2 口コミを利用した観光地の分析
 6.3 口コミを利用したテーマパークの分析
 6.4 分析上の注意点
 6.5 研究の紹介
第7章 金融・経済テキストの解析
 7.1 事前準備:金融・経済における極性分析
 7.2 データの入手:金融・経済テキストデータの入手
 7.3 基礎的な解析:基礎的なテキスト分析
 7.4 分析:有価証券報告書を用いた日経平均予想
 7.5 分析上の注意点
 7.6研究の紹介
第8章 ソーシャルメディアテキストの解析
 8.1 Twitterデータによる世情分析
 8.2 2ちゃんねるデータによる世情分析
 8.3 大規模データ処理に対する工夫
 8.4 研究の紹介


第III部 応用技術・発展的な内容

第9章 実践的なテクニック
 9.1 単語処理に関するテクニック
 9.2 その他のツールの比較と利用方法
 9.3 まとめ
  <note>根性マイニング
第10章 深層学習技術
 10.1 単語分散表現
 10.2 文分散表現
 10.3 BERTをはじめとするTransformerモデルの利用
 10.4 まとめ
第11章 環境構築の要らないテキストアナリティクス
 11.1 Google Colaboratoryを利用したテキストアナリティクス
 11.2 自然言語処理APIを利用したテキストアナリティクス
 11.3 まとめ


付録 本書で利用するPythonライブラリ

著者情報

榊 剛史
株式会社ホットリンク 開発本部R&D 部長 東京大学未来ビジョン研究センター 客員研究員
榊, 剛史
石野 亜耶
広島経済大学メディアビジネス学部ビジネス情報学科 准教授
石野, 亜耶
小早川 健
NHK放送技術研究所 主任研究員
小早川, 健
坂地 泰紀
東京大学大学院工学系研究科システム創成学専攻 特任講師
坂地, 泰紀, 1984-
嶋田 和孝
九州工業大学大学院情報工学研究院知能情報工学研究系 教授
嶋田, 和孝
吉田 光男
筑波大学ビジネスサイエンス系 准教授 有限会社てっくてっく 代表取締役
吉田, 光男, 情報通信
郡司, 直之