動かして学ぶ! はじめてのテキストマイニング

書籍情報

発売日 : 2022年03月15日

著者/編集 : 樋口 耕一/中村 康則/周 景龍

出版社 : ナカニシヤ出版

発行形態 : 単行本

書籍説明

内容紹介

幅広く使われているフリーソフトウェア KH Coderによるテキストマイニングを,開発者自らやさしく解説。誰でもわかる入門書

目次

まえがき

 第1部  入門テキストマイニング

第1章 プロローグ テキストマイニングを始める前に
1.1 クチコミデータを分析するねらい
1.1.1 データの内容
1.1.2 数値データの探索①:性別による違い
1.1.3 数値データの探索②:年齢層と性別の組み合わせ
1.1.4 テキストマイニングのねらいをしぼる
1.2 KH Coderと仮想クチコミデータの準備
1.3 この章で分かったこと

第2章 なぜテキストマイニングが必要なのか
2.1 計量テキスト分析とは
2.1.1 もし目で読むだけだと
2.1.2 計量テキスト分析の利点 ―データ探索と信頼性向上
2.1.3 分析の2つの段階
2.2 KH Coder
2.2.1 開発と公開
2.2.2 3つの機能
2.3 この章で分かったこと

第3章 テキストマイニングは意外と簡単そうだ!
3.1 コピー&ペーストで簡単に分析用ファイルを準備する
3.2 KH Coderを起動する
3.3 プロジェクトを作成する
3.4 前処理をする
3.5 共起ネットワークで概観を捉える
3.6 この章で分かったこと

第4章 「あの言葉がない!」というときには
4.1 「あの言葉がない」のはなぜかを調べる
4.2 強制的に語として抽出する
4.3 強制抽出すべきかもしれない語を探す
4.3.1 頻出語をチェック
4.3.2 「未知語」のチェック
4.3.3 複合語の検出
4.4 この章で分かったこと

第5章 多く出現した話題 共起ネットワーク その1
5.1 共起ネットワークを作成する目的
5.2 共起ネットワークを調整する
5.2.1 「一般的すぎる」語を分析から取り除く
5.2.2 共起ネットワーク上にあらわれない語
5.3 文脈を確認しながら話題を命名する
5.4 共起ネットワークを保存してWordやPowerPointに貼り付ける
5.5 この章で分かったこと

第6章 外部変数を使うためにExcelでデータを準備
6.1 分析用ファイルをExcelで作成する理由
6.2 Excelファイルのフォーマット
6.3 Excelファイル作成時の注意点
6.4 ExcelファイルからKH Coderのプロジェクトを作成する
6.5 この章で分かったこと

第7章 外部変数を使って部分ごとの特徴語を見る
 対応分析
7.1 対応分析の手順
7.2 対応分析の結果を読み解くポイント
7.3 ポイントを押さえて結果を見ると
7.4 値の種類が増えると
7.5 この章で分かったこと

第8章 同じ言葉でも文脈によって意味が変わるとき
 共起ネットワーク その2
8.1 この機能で調べられる文脈の変化とは
8.1.1 共起語の違いから文脈の違いを見る
8.1.2 外部変数を使って違いを探る
8.1.3 特徴語ではなく特徴的な共起を見る
8.2 「年齢」による文脈の変化を探る手順
8.3 結果の読みとり方
8.4 この章で分かったこと

第9章 コンセプトを取り出す コーディングルール作成
9.1 コーディングルールとは
9.2 コーディングルールで取り出すべきコンセプト
9.3 コーディングルール作成の手順
9.4 より複雑なコーディングルール
9.4.1 カッコによるグループ化
9.4.2 語と文字列
9.5 この章で分かったこと

第10章 コンセプトを使って分析を深める クロス集計
10.1 クロス集計の手順
10.2 クロス集計の結果を読み解くポイント
10.3 バブルプロットを作成して視覚的に結果を読みとる
10.4 この章で分かったこと

第11章 エピローグ

 第2部  「入門」を超えて
 
第12章 いろいろなデータの準備
12.1 アンケート自由記述
12.2 インタビュー逐語録
12.3 レポート
12.4 作業記録
12.5 特許文書
12.6 新聞記事
12.7 データ準備は分析の目的にあわせて

第13章 対応分析によるプロットのしくみと結果の読みとり方
13.1 外部変数の値が2カテゴリーの場合
13.1.1 対応分析に入力するデータ
13.1.2 行ごとの割合を計算
13.1.3 それぞれの列を軸として使うプロット
13.1.4 原点の設定
13.1.5 カテゴリー名を内側に移動
13.2 外部変数の値が3カテゴリーの場合
13.2.1 入力データと割合の計算
13.2.2 それぞれの列を軸として使うプロット
13.2.3 原点の設定,回転,カテゴリー名の移動
13.3 外部変数の値が4カテゴリー以上の場合
13.3.1 次元の縮約
13.3.2 「成分」があらわすもの
13.4 この章で分かったこと

第14章 よくある質問
14.1 分析するデータ
Q1 KH Coderでの分析には,どの程度以上のテキスト量が必要ですか
Q2 大量のテキストをKH Coderで分析できますか
Q3 欠損値があるときはどうすればよいですか
Q4 分析を始めた後にデータを修正するには
14.2 セキュリティ
Q5 KH Coderには分析データを外部へ送信する機能がありますか
Q6 KH Coderを共有PCで使用する際の注意点はありますか
14.3 語の取り出しと前処理
Q7 (抽出語を使った分析で)表記ゆれや同義語をまとめるには
Q8 語を取り出すための辞書を入れ換えて,現代語を取り出したり,あるいは古文テキストを分析することはできますか
Q9 前処理を実行するとエラーが発生します。あるいは,エラーが発生しなくても,入力データの行数よりも「H5」単位の文書数が少なく表示されます
14.4 分 析
Q10 「抽出語リスト」「共起ネットワーク」などのメニュー項目の文字が灰色になっていてクリックできません
Q11 対応分析よりもシンプルな方法で,外部変数を使った部分ごとの比較を行なえませんか?
Q12 分析しようとすると「選択されたファイルはコーディングルール・ファイルに見えません」というエラーがでます
14.5 Jaccard係数とは
Q13 共起の強さを測るJaccard係数とはどういうものですか
Q14 語と語だけでなく,外部変数と語の共起についてもJaccard係数で測れるのですか
Q15 Jaccard係数がいくつ以上なら「共起があった」と言えますか
14.6 コーディング・その他
Q16 コーディングルールを作ってみましたがエラーになります
Q17 クチコミのようなランダムサンプリングをしていないデータで検定をしてもよいのですか?
Q18 学会発表・報告書・論文などの文献リストにKH Coderを載せたいときは,どう書けばよいですか
Q19 疑問や問題が解決しないので,質問をしたいときには?


Tips 一覧

Tips 1.a 「WindowsによってPCが保護されました」と表示されたとき
Tips 1.b KH Coderが正しく動作しない?
Tips 1.c KH Coderがぼやけて見える?
Tips 2.a 計量テキスト分析のルーツ
Tips 2.b フリー・ソフトウェアとは
Tips 3.a 使い慣れたテキストエディターでも分析用ファイルを作成できる
Tips 3.b 分析結果を説明するには
Tips 4.a 形態素解析とは
Tips 4.b 前処理の実行時間
Tips 4.c 前処理で抽出された語の数を把握するには
Tips 4.d 抽出語はどこまで確認しておくべき?
Tips 4.e KWICコンコーダンス機能を用いて抽出語を確認する
Tips 4.f 強制抽出はどこまで設定するべき?
Tips 5.a 語の取捨選択を設定した後,前処理は必要?必要ではない?
Tips 5.b 集計単位とは
Tips 5.c 共起ネットワークの語の位置に意味はある?
Tips 5.d 共起ネットワークのグループが分かれても話題が分かれるとは限らない
Tips 5.e 最小スパニング・ツリーで共起ネットワークをスッキリさせる
Tips 5.f 共起ネットワークの端が「切れて」しまったとき
Tips 5.g 語がもとのテキスト中で否定されているかどうか区別するには
Tips 6.a ファイルサイズが大きい場合
Tips 6.b 実は便利なプロジェクトメモ
Tips 6.c 分析対象とする列を間違えると
Tips 6.d 分析対象とする列は1プロジェクトあたり1つだけ
Tips 7.a 白黒印刷ではグレースケール版のプロットを
Tips 7.b 対応分析では分析に使用する抽出語を増やすとよい場合も
Tips 7.c 対応分析の縦軸と横軸になっている「成分」とは?
Tips 8.a インタビューデータでの活用について
Tips 8.b 共起パターンの変化を探る(相関)オプションの注意点
Tips 9.a データ収集の段階で工夫できれば分析が効率的に
Tips 9.b 「コンセプト」と「コード」は同じもの?
Tips 9.c コーディングルールの記述法
1ips 9.d コーディングルール公開の利点


 文献
 索引
 あとがき

著者情報

樋口 耕一
立命館大学産業社会学部教授。 大阪大学大学院人間科学研究科 博士後期課程修了,博士(人間科学)。 社会調査法研究の一環としてKH Coderを開発・公開。著書に『ネット社会と民主主義』(有斐閣,2021年,共著),『いまを生きるための社会学』(丸善出版,2021年,共編著),『社会調査のための計量テキスト分析 第2版』(ナカニシヤ出版,2020年)など。
樋口, 耕一, 1978-
中村 康則
(株)SCREEN アドバンストシステムソリューションズ 第一開発部 部長。 早稲田大学大学院人間科学研究科 博士後期課程修了,博士(人間科学)。 専門は,成人教育(大人の学び),心理学を基礎としたインストラクショナル・デザイン(教えることのデザイン)。「KH Coder を用いた計量テキスト分析実践セミナー」講師を務める。主な所属学会は,日本教育工学会,日本教育心理学会,日本行動計量学会,コンピューター利用教育学会。 ホームページ:https://researchmap.jp/yasunori.nakamura
中村, 康則
周 景龍
(株) SCREENアドバンストシステムソリューションズ 第二開発部 副参事。 同志社大学大学院工学研究科 修士課程修了,修士(知識工学)。 入社後,主に産業機器の稼働データ分析に関するシステム開発に従事。現在,「KH Coderサポートパッケージ」オペレーション責任者,KH Coder用プラグイン「文錦R シリーズ」開発リーダー,「KH Coderを用いた計量テキスト分析実践セミナー」講師を務める。 ホームページ:https://www.screen.co.jp/as/solution/idea
周, 景龍