文書分類からはじめる自然言語処理入門 -基本からBERTまでー
書籍情報
発売日 : 2022年07月20日
著者/編集 : 新納 浩幸/古宮 嘉那子
出版社 : 科学情報出版
発行形態 : 単行本
書籍説明
目次
第1章 文書のベクトル化
1.1 文書分類とその入力
1.2 単語分割
1.3 N-gram
1.4 Bag-of-words
1.5 TF-IDF
1.6 Latent Semantic Analysis
第2章 分散表現
2.1 分散表現とは
2.2 cos 類似度
2.3 word2vec
2.4 doc2vec
第3章 分類問題
3.1 分類問題とは
3.2 分類問題と教師あり学習
3.3 Naive Bayes
3.4 文書分類の評価
3.5 ロジスティック回帰
3.6 Support Vector Machine
3.7 ニューラルネットワークとディープラーニング
3.8 半教師あり学習
第4章 系列ラベリング問題
4.1 系列ラベリング問題とは
4.2 系列ラベリング問題のタスク
4.2.1 単語分割
4.2.2 固有表現抽出
4.3 系列ラベリング問題の解法
4.3.1 HMM
4.3.2 CRF
4.3.3 LSTM
第5章 BERT
5.1 事前学習済みモデルとは
5.2 BERT の入出力
5.3 BERT 内部の処理
5.3.1 Transformer
5.3.2 Position Embeddings
5.3.3 BertLayer
5.3.4 Multi-Head Attention
5.4 BERT による文書分類
5.5 BERT による系列ラベリング
5.6 Pipeline によるタスクの推論
5.6.1 評判分析
5.6.2 固有表現抽出
5.6.3 要約
5.6.4 質問応答
5.6.5 テキスト生成
5.6.6 Zero-shot 文書分類
1.1 文書分類とその入力
1.2 単語分割
1.3 N-gram
1.4 Bag-of-words
1.5 TF-IDF
1.6 Latent Semantic Analysis
第2章 分散表現
2.1 分散表現とは
2.2 cos 類似度
2.3 word2vec
2.4 doc2vec
第3章 分類問題
3.1 分類問題とは
3.2 分類問題と教師あり学習
3.3 Naive Bayes
3.4 文書分類の評価
3.5 ロジスティック回帰
3.6 Support Vector Machine
3.7 ニューラルネットワークとディープラーニング
3.8 半教師あり学習
第4章 系列ラベリング問題
4.1 系列ラベリング問題とは
4.2 系列ラベリング問題のタスク
4.2.1 単語分割
4.2.2 固有表現抽出
4.3 系列ラベリング問題の解法
4.3.1 HMM
4.3.2 CRF
4.3.3 LSTM
第5章 BERT
5.1 事前学習済みモデルとは
5.2 BERT の入出力
5.3 BERT 内部の処理
5.3.1 Transformer
5.3.2 Position Embeddings
5.3.3 BertLayer
5.3.4 Multi-Head Attention
5.4 BERT による文書分類
5.5 BERT による系列ラベリング
5.6 Pipeline によるタスクの推論
5.6.1 評判分析
5.6.2 固有表現抽出
5.6.3 要約
5.6.4 質問応答
5.6.5 テキスト生成
5.6.6 Zero-shot 文書分類
著者情報
新納 浩幸
1961 年長崎県生まれ。
1985 年 東京工業大学理学部情報科学科卒業。
1987 年同大学大学院理工学研究科情報科学専攻修士課程修了。
現在、茨城大学工学部情報工学科教授、博士(工学)。
専門分野は自然言語処理、機械学習、統計学。関連の著書多数。
新納, 浩幸, 1961-
古宮 嘉那子
2005 年東京農工大学工学部情報コミュニケーション工学科卒。
2006 年同大学院工学教育部情報コミュニケーション工学専攻博士課程前期修了、
2009 年同大学大学院電子情報工学専攻博士後期課程修了。博士(工学)。
同年東京工業大学精密工学研究所研究員、2010 年東京農工大学工学研究院特任助教、
2014 年茨城大学工学部情報工学科講師。2021 年東京農工大学工学研究院准教授。現在に至る。
自然言語処理の研究に従事。情報処理学会、 人工知能学会、 言語処理学会、ACL 各会員。
2018 年より電子情報通信学会言語理解とコミュニケーション研究会研究専門委員、
2019 年より言語処理学会代議員、2020 年より情報処理学会自然言語処理研究会幹事。
古宮, 嘉那子