最短突破 データサイエンティスト検定(リテラシーレベル)公式リファレンスブック 第2版

書籍情報

発売日 : 2022年05月14日

著者/編集 : 菅 由紀子/佐伯 諭/高橋 範光/田中 貴博/大川 遥平/大黒 健一

出版社 : 技術評論社

発行形態 : 単行本

書籍説明

内容紹介

Society 5.0時代に求められるデータサイエンススキルをわかりやすく解説。データサイエンティスト検定をきっかけにデータ活用を学習する方の入門書。

目次

はじめに 3

■第1章 DS検定とは 13
データサイエンティスト検定リテラシーレベルとは 14
データサイエンティスト協会とデータサイエンティストスキルチェックリストとは 15
データサイエンティスト検定リテラシーレベル試験概要 17
出題範囲① スキルチェックリスト 18
出題範囲② 数理・データサイエンス・AI(リテラシーレベル)モデルカリキュラム 19
本検定と、全てのビジネスパーソンが持つべきデジタル時代の共通リテラシー「Di-Lite」 20
本書の構成 21


■第2章 データサイエンス力 23
DS1 順列や組合せの式nPr, nCrを理解し、適切に使い分けることができる 24
DS2 確率に関する基本的な概念の意味を説明できる(確率、条件付き確率、期待値、独立など) 25
DS3 平均、中央値、最頻値の算出方法の違いを説明できる 27
DS4 与えられたデータにおける分散、標準偏差、四分位、パーセンタイルを理解し、目的に応じて適切に使い分けることができる 29
DS5 母(集団)平均と標本平均、不偏分散と標本分散がそれぞれ異なることを説明できる 31
DS6 標準正規分布の平均と分散の値を知っている 32
DS7 相関関係と因果関係の違いを説明できる 34
DS8 名義尺度、順序尺度、間隔尺度、比例尺度の違いを説明できる 35
DS9 ピアソンの相関係数の分母と分子を説明できる 36
DS10 5つ以上の代表的な確率分布を説明できる 38
DS11 二項分布は試行回数が増えていくとどのような分布に近似されるかを知っている 39
DS12 変数が量的、質的どちらの場合でも関係の強さを算出できる 40
DS13 指数関数とlog関数の関係を理解し、片対数グラフ、両対数グラフ、対数化されていないグラフを適切に使いわけることができる 41
DS14 ベイズの定理を説明できる 44
DS19 ベクトルの内積に関する計算方法を理解し、線形式をベクトルの内積で表現できる 45
DS20 行列同士、および行列とベクトルの計算方法を正しく理解し、複数の線形式を行列の積で表現できる 47
DS21 逆行列の定義、および逆行列を求めることにより行列表記された連立方程式が解けることを理解している 49
DS22 固有ベクトルおよび固有値の意味を理解している 51
DS23 微分により計算する導関数が傾きを求めるための式であることを理解している 53
DS24 2変数以上の関数における偏微分の計算方法を理解している 55
DS25 積分と面積の関係を理解し、確率密度関数を定積分することで確率が得られることを説明できる 57
DS26 和集合、積集合、差集合、対称差集合、補集合についてベン図を用いて説明できる 59
DS27 論理演算と集合演算の対応を理解している(ANDが積集合に対応するなど) 61
DS28 単なるローデータとしての実数だけを見ても判断出来ない事象が大多数であり、母集団に占める割合などの比率的な指標でなければ数字の比較に意味がないことがわかっている 62
DS29 ニュース記事などで統計情報に接したときに、数字やグラフの持つメッセージを理解できる 64
DS32 単独のグラフに対して、集計ミスや記載ミスなどがないかチェックできる 65
DS33 データ項目やデータの量・質について、指示のもと正しく検証し、結果を説明できる 67
DS38 データが生み出された背景を考え、鵜呑みにはしないことの重要性を理解している 68
DS41 どのような知見を得たいのか、目的に即して集計し、データから事実を把握できる 69
DS42 データから事実を正しく浮き彫りにするために、集計の切り口や比較対象の設定が重要であることを理解している 70
DS43 普段業務で扱っているデータの発生トリガー・タイミング・頻度などを説明でき、また基本統計量や分布の形状を把握している 71
DS44 時系列データとは何か、その基礎的な扱いについて説明できる(時系列グラフによる周期性やトレンドの確認、移動平均の計算など) 72
DS53 分析、図表から直接的な意味合いを抽出できる(バラツキ、有意性、分布傾向、特異性、関連性、変曲点、関連度の高低など) 73
DS54 想定に影響されず、分析結果の数値を客観的に解釈できる 74
DS56 単回帰分析において最小二乗法、回帰係数、標準誤差、決定係数を理解し、モデルを構築できる 75
DS57 重回帰分析において偏回帰係数と標準偏回帰係数、重相関係数について説明できる 76
DS60 線形回帰分析は量的な変数を予測し、ロジスティック回帰分析は二値の質的な変数を予測する手法であることを説明できる 77
DS70 ROC曲線、AUC(Area under the curve)、を用いてモデルの精度を評価できる 79
DS71 混同行列(正誤分布のクロス表)、Accuracy、Precision、Recall、F値、macro平均、micro平均、重み付き平均といった評価尺度を理解し、精度を評価できる 80
DS72 RMSE(Root Mean Square Error)、MAE(Mean Absolute Error)、MAPE(Mean Absolute Percentage Error)、決定係数といった評価尺度を理解し、精度を評価できる 82
DS76 点推定と区間推定の違いを説明できる 84
DS77 統計的仮説検定において帰無仮説と対立仮説の違いを説明できる 85
DS78 第1種の過誤、第2種の過誤、p値、有意水準の意味を説明できる 86
DS79 片側検定と両側検定の違いを説明できる 87
DS80 検定する対象となるデータの対応の有無を考慮した上で適切な検定手法(t検定, z検定など)を選択し、適用できる 88
DS83 教師なし学習のグループ化(クラスター分析)と教師あり学習の分類(判別)モデルの違いを説明できる 90
DS84 階層クラスター分析と非階層クラスター分析の違いを説明できる 91
DS85 階層クラスター分析において、デンドログラムの見方を理解し、適切に解釈できる 93
DS95 適切なデータ区間設定でヒストグラムを作成し、データのバラつき方を把握できる 94
DS96 適切な軸設定でクロス集計表を作成し、属性間のデータの偏りを把握できる 95
DS97 量的変数の散布図を描き、2変数の関係性を把握できる 96
DS112 ある変数が他の変数に与える影響(因果効果)を推定したい場合、その双方に影響を与える共変量(交絡因子)の考慮が重要であると理解している(喫煙の有無と疾病発症の双方に年齢が影響している場合など) 97
DS113 分析の対象を定める段階で選択バイアスが生じる可能性があることを理解している(途中離脱者の除外時、欠損データの除外時など) 99
DS117 標本誤差およびサンプリングバイアス、およびそれぞれの違いについて説明できる 100
DS118 実験計画法の基本的な3原則(局所管理化、反復、無作為化)について説明できる 102
DS122 外れ値・異常値・欠損値とは何かを理解し、指示のもと適切に検出と除去・変換などの対応ができる 104
DS124 標準化とは何かを理解し、適切に標準化が行える 105
DS125 名義尺度の変数をダミー変数に変換できる 106
DS128 数値データの特徴量化(二値化/離散化、対数変換、スケーリング/正規化、交互作用特徴量の作成など)を行うことができる 107
DS136 データの性質を理解するために、データを可視化し眺めて考えることの重要性を理解している 108
DS137 可視化における目的の広がりについて概略を説明できる(単に現場の作業支援する場合から、ビッグデータ中の要素間の関連性をダイナミックに表示する場合など) 109
DS140 散布図などの軸出しにおいて、目的やデータに応じて縦軸・横軸の候補を適切に洗い出せる 110
DS141 積み上げ縦棒グラフでの属性の選択など、目的やデータに応じて適切な層化(比較軸)の候補を出せる 111
DS145 サンプリングやアンサンブル平均によって適量にデータ量を減らすことができる 112
DS146 読み取りたい特徴を効果的に可視化するために、統計量を使ってデータを加工できる 113
DS153 データ解析部門以外の方に、データの意味を伝えるサインとしての可視化ができる 115
DS154 適切な情報濃度を判断できる(データインク比など) 116
DS155 不必要な誇張をしないための軸表現の基礎を理解できている(コラムチャートのY軸の基準点は「0」からを原則とし軸を切らないなど) 117
DS156 強調表現がもたらす効果と、明らかに不適切な強調表現を理解している(計量データに対しては位置やサイズ表現が色表現よりも効果的など) 118
DS157 1~3次元の比較において目的(比較、構成、分布、変化など)に応じ、BIツール、スプレッドシートなどを用いて図表化できる 119
DS158 端的に図表の変化をアニメーションで可視化できる(人口動態のヒストグラムが経年変化する様子を表現するなど) 120
DS159 1~3次元の図表を拡張した多変量の比較を適切に可視化できる(平行座標、散布図行列、テーブルレンズ、ヒートマップなど) 121
DS168 外れ値を見出すための適切な表現手法を選択できる 123
DS169 データの可視化における基本的な視点を挙げることができる(特異点、相違性、傾向性、関連性を見出すなど) 124
DS174 時系列分析を行う際にもつべき視点を理解している(長期トレンド、季節成分、周期性、ノイズ、定常性など) 125
DS182 機械学習にあたる解析手法の名称を3つ以上知っており、手法の概要を説明できる 128
DS183 機械学習のモデルを使用したことがあり、どのような問題を解決できるか理解している(回帰・分類、クラスター分析の用途など) 129
DS184 「教師あり学習」「教師なし学習」の違いを理解している 130
DS185 過学習とは何か、それがもたらす問題について説明できる 131
DS186 次元の呪いとは何か、その問題について説明できる 132
DS187 教師あり学習におけるアノテーションの必要性を説明できる 133
DS188 観測されたデータにバイアスが含まれる場合や、学習した予測モデルが少数派のデータをノイズと認識してしまった場合などに、モデルの出力が差別的な振る舞いをしてしまうリスクを理解している 134
DS189 機械学習における大域的(global)な説明(モデル単位の各変数の寄与度など)と局所的(local)な説明(予測するレコード単位の各変数の寄与度など)の違いを理解している 135
DS190 ホールドアウト法、交差検証(クロスバリデーション)法の仕組みを理解し、学習データ、パラメータチューニング用の検証データ、テストデータを作成できる 136
DS191 時系列データの場合は、時間軸で学習データとテストデータに分割する理由を理解している 137
DS192 機械学習モデルは、データ構成の変化(データドリフト)により学習完了後から精度が劣化していくため、運用時は精度をモニタリングする必要があることを理解している 138
DS201 ニューラルネットワークの基本的な考え方を理解し、出力される「ダイアグラム」の入力層、隠れ層、出力層の概要と、活性化関数の重要性を理解している 139
DS202 ライブラリを使ってサポートベクターマシンによる分析を実行・評価できる 141
DS203 決定木をベースとしたアンサンブル学習(Random Forest、勾配ブースティング[Gradient Boosting Decision Tree:GBDT]、その派生形であるXGBoost、LightGBMなど)による分析を、ライブラリを使って実行でき、その結果を正しく解釈できる 143
DS216 深層学習(ディープラーニング)モデルの活用による主なメリットを理解している(特徴量抽出が可能になるなど) 144
DS231 テキストデータに対する代表的なクリーニング処理(小文字化、数値置換、半角変換、記号除去、ステミングなど)を目的に応じて適切に実施できる 145
DS232 形態素解析や係り受け解析のライブラリを適切に使い、基本的な文書構造解析を行うことができる 146
DS233 自然言語処理を用いて解けるタスクを理解し、各タスクの入出力を説明できる(GLUEタスクや固有表現抽出、機械翻訳など) 147
DS247 画像のデジタル表現の仕組みと代表的な画像フォーマットを知っている 149
DS248 画像に対して、目的に応じた適切な色変換や簡単なフィルタ処理などを行うことができる 150
DS249 画像データに対する代表的なクリーニング処理(リサイズ、パディング、正規化など)を目的に応じて適切に実施できる 151
DS256 動画のデジタル表現の仕組みと代表的な動画フォーマットを理解しており、動画から画像を抽出する既存方法を使うことができる 152
DS259 WAVやMP3などの代表的な音声フォーマットの特徴や用途、基本的な変換処理について説明できる(サンプリングレート、符号化、量子化など) 153
DS260 目的に応じ音声認識関連のAPIを選択し、適用できる(Speech to Text など) 154
DS265 条件Xと事象Yの関係性を信頼度、支持度、リフト値を用いて評価できる 155

■第3章 データエンジニアリング力 157
DE1 オープンデータを収集して活用する分析システムの要件を整理できる 158
DE8 サーバー1~10台規模のシステム構築、システム運用を設計書を元に実行できる 159
DE9 数十万レコードを持つデータベースのバックアップ・アーカイブ作成など定常運用ができる 160
DE18 ノーコード・ローコードツールを組み合わせ、要件に応じたアプリやツールを設計できる 161
DE19 コンテナ技術の概要を理解しており、既存のDockerイメージを活用して効率的に分析環境を構築できる 162
DE20 分析環境を提供するクラウド上のマネージドサービス(Amazon SageMaker、Azure Machine Learning、Google Cloud AI Platform、IBM Watson Studioなど)を利用し、機械学習モデルの開発機能を利用することができる 163
DE31 対象プラットフォームが提供する機能(SDKやAPIなど)の概要を説明できる 164
DE32 Webクローラー・スクレイピングツールを用いてWebサイト上の静的コンテンツを分析用データとして収集できる 165
DE37 対象プラットフォームに用意された通信サービス(HTTP、FTPなど)を用い、データを収集先に格納するための機能を実装できる 166
DE42 データベースから何らかのデータ抽出方法を活用し、小規模なExcelのデータセットを作成できる 167
DE43 既存のサービスやアプリケーションに対して、分析をするためのログ出力の仕様を整理することができる 168
DE50 扱うデータが、構造化データ(顧客データ、商品データ、在庫データなど)か非構造化データ(雑多なテキスト、音声、画像、動画など)なのかを判断できる 169
DE51 ER図を読んでテーブル間のリレーションシップを理解できる 170
DE54 正規化手法(第一正規化~第三正規化)を用いてテーブルを正規化できる 171
DE61 DWHアプライアンス(Oracle Exadata、IBM Integrated Analytics System、Teradataなど)に接続し、複数テーブルを結合したデータを抽出できる 174
DE63 HadoopやSparkの分散技術の基本的な仕組みと構成を理解している 175
DE64 NoSQLデータストア(HBase、Cassandra、Mongo DB、CouchDB、Redis、Amazon DynamoDB、Cloudant、Azure Cosmos DBなど)にAPIを介してアクセスし、新規データを登録できる 176
DE69 クラウド上のストレージサービス(Amazon S3、Google Cloud Storage、IBM Cloud Object Storageなど)に接続しデータを格納できる 177
DE78 数十万レコードのデータに対して、条件を指定してフィルタリングできる(特定値に合致する・もしくは合致しないデータの抽出、特定範囲のデータの抽出、部分文字列の抽出など) 178
DE79 正規表現を活用して条件に合致するデータを抽出できる(メールアドレスの書式を満たしているか判定をするなど) 179
DE80 数十万レコードのデータに対して、目的の並び替えになるように複数キーのソート条件を設定ができる 180
DE81 数十万レコードのデータに対して、単一条件による内部結合、外部結合、自己結合ができ、UNION処理ができる 181
DE82 数十万レコードのデータに対して、NULL値や想定外・範囲外のデータを持つレコードを取り除く、または既定値に変換できる 182
DE85 数十万レコードのデータに対して、規定されたリストと照合して変換する、都道府県名からジオコードに変換するなど、ある値を規定の別の値で表現できる 183
DE87 数十万レコードのデータに対して、ランダムまたは一定間隔にデータを抽出できる 184
DE88 数十万レコードのデータを集計して、合計や最大値、最小値、レコード数を算出できる 185
DE89 数十万レコードのデータに対する四則演算ができ、数値データを日時データに変換するなど別のデータ型に変換できる 186
DE90 変化元データと変換先データの文字コードが異なる場合でも変換処理ができる 188
DE93 加工・分析処理結果をCSV、XML、JSON、Excelなどの指定フォーマット形式に変換してエクスポートできる 189
DE94 加工・分析処理結果を、接続先DBのテーブル仕様に合わせてレコード挿入できる 190
DE95 データ取得用のWeb API(REST)やWebサービス(SOAP)などを用いて、必要なデータを取得できる 191
DE102 FTPサーバー、ファイル共有サーバーなどから必要なデータファイルをダウンロードして、Excelなどの表計算ソフトに取り込み活用できる 192
DE103 BIツールのレポート編集機能を用いて新規レポートを公開できる 193
DE104 BIツールの自由検索機能を活用し、必要なデータを抽出して、グラフを作成できる 194
DE108 小規模な構造化データ(CSV、RDBなど)を扱うデータ処理(抽出・加工・分析など)を、設計書に基づき、プログラム実装できる 195
DE109 プログラム言語や環境によって、変数のデータ型ごとに確保するメモリサイズや自動型変換の仕様が異なることを理解し、プログラムの設計・実装ができる 196
DE110 データ処理プログラミングのため分岐や繰り返しを含んだフローチャートを作成できる 197
DE111 オブジェクト指向言語の基本概念を理解し、スーパークラス(親クラス)を継承して、スーパークラスのプロパティやメソッドを適切に活用できる 199
DE112 ホワイトボックステストとブラックボックステストの違いを理解し、テストケースの作成とテストを実施できる 201
DE113 JSON、XMLなど標準的なフォーマットのデータを受け渡すために、APIを使用したプログラムを設計・実装できる 203
DE114 外部ライブラリが提供する関数の引数や戻り値の型や仕様を調べて、適切に呼び出すことができる 204
DE121 入れ子の繰り返し処理(二重ループ)など計算負荷の高いロジックを特定しアルゴリズムの改善策を検討できる 205
DE124 Jupyter Notebook(Pythonなど)やRStudio(R)などの対話型の開発環境を用いて、データの分析やレポートの作成ができる 206
DE127 SQLの構文を一通り知っていて、記述・実行できる(DML・DDLの理解、各種JOINの使い分け、集計関数とGROUP BY、CASE文を使用した縦横変換、副問合せやEXISTSの活用など) 207
DE131 セキュリティの3要素(機密性、完全性、可用性)について具体的な事例を用いて説明できる 208
DE133 マルウェアなどによる深刻なリスクの種類(消失・漏洩・サービスの停止など)を理解している 209
DE134 OS、ネットワーク、アプリケーション、データなどの各レイヤーに対して、ユーザーごとのアクセスレベルを設定する必要性を理解している 210
DE140 暗号化されていないデータは、不正取得された際に容易に不正利用される恐れがあることを理解し、データの機密度合いに応じてソフトウェアを使用した暗号化と復号ができる 211
DE141 なりすましや改ざんされた文書でないことを証明するために、電子署名が用いられることを理解している 212
DE142 公開鍵暗号化方式において、受信者の公開鍵で暗号化されたデータを復号化するためには受信者の秘密鍵が必要であることを知っている 213
DE143 ハッシュ関数を用いて、データの改ざんを検出できる 215
DE145 OAuth認証が求められるデータ提供サービスに対して、認証処理で取得したトークンを付与してデータ取得用のREST APIを呼び出すことができる 216
DE150 GitやSubversionなどのバージョン管理ソフトウェアを活用して、開発した分析プログラムのソースをリポジトリに登録しチームメンバーと共有できる 217
DE151 AutoMLを用いて予測対象を判定するために最適な入力データの組み合わせと予測モデルを抽出できる 218
DE152 MLOpsの概要を理解し、AIモデル性能の維持管理作業の基本的な流れを説明できる 219
DE153 AIシステムのモニタリング項目を理解し、AIモデルの劣化状況や予測対象データの不備、AIシステムの異常を検知できる 220
DE158 ITシステムの運用におけるAIOpsの概要とメリットを説明できる 221

■第4章 ビジネス力 223
BIZ1 ビジネスにおける「論理とデータの重要性」を認識し、分析的でデータドリブンな考え方に基づき行動できる 224
BIZ2 「目的やゴールの設定がないままデータを分析しても、意味合いが出ない」ことを理解している 226
BIZ3 課題や仮説を言語化することの重要性を理解している 227
BIZ4 現場に出向いてヒアリングするなど、一次情報に接することの重要性を理解している 229
BIZ10 データを取り扱う人間として相応しい倫理を身に着けている(データのねつ造、改ざん、盗用を行わないなど) 230
BIZ11 データ、AI、機械学習の意図的な悪用(フェイクニュース、Botの悪用など)があり得ることを勘案し、技術に関する適切な知識と倫理を身につけている 231
BIZ14 直近の個人情報に関する法令(個人情報保護法、EU一般データ保護規則:GDPRなど)や、匿名加工情報の概要を理解し、守るべきポイントを説明できる 233
BIZ17 二者間で交わされる一般的な契約の概念を理解している(請負契約と準委任契約の役務や成果物の違いなど) 234
BIZ25 データや事象の重複に気づくことができる 236
BIZ28 与えられた分析課題に対し、初動として様々な情報を収集し、大まかな構造を把握することの重要性を理解している 238
BIZ30 対象となる事象が通常見受けられる場合において、分析結果の意味合いを正しく言語化できる 239
BIZ33 一般的な論文構成について理解している(序論⇒アプローチ⇒検討結果⇒考察や、序論⇒本論⇒結論など) 240
BIZ36 データの出自や情報の引用元に対する信頼性を適切に判断し、レポートに記載できる 241
BIZ37 1つの図表~数枚程度のドキュメントを論理立ててまとめることができる(課題背景、アプローチ、検討結果、意味合い、ネクストステップ) 243
BIZ40 報告に対する論拠不足や論理破綻を指摘された際に、相手の主張をすみやかに理解できる 245
BIZ47 弱いAI・強いAI、特化型AI・汎用型AIの違いを説明できる 247
BIZ53 担当する分析プロジェクトにおいて、当該事業の収益モデルと主要な変数(KPI)を理解している 249
BIZ56 担当する事業領域について、市場規模、主要なプレーヤー、支配的なビジネスモデル、課題と機会について説明できる 250
BIZ57 主に担当する事業領域であれば、取り扱う課題領域に対して基本的な課題の枠組みが理解できる(調達活動の5フォースでの整理、CRM課題のRFMでの整理など) 251
BIZ58 既知の事業領域の分析プロジェクトにおいて、分析のスコープが理解できる 253
BIZ64 仮説や既知の問題が与えられた中で、必要なデータにあたりをつけ、アクセスを確保できる 254
BIZ75 スコープ、検討範囲・内容が明確に設定されていれば、必要な分析プロセスが理解できる(データ、分析手法、可視化の方法など) 256
BIZ80 ビジネス観点で仮説を持ってデータをみることの重要性と、仮に仮説と異なる結果となった場合にも、それが重大な知見である可能性を理解している 257
BIZ83 分析結果を元に、起きている事象の背景や意味合い(真実)を見抜くことができる 258
BIZ94 結果、改善の度合いをモニタリングする重要性を理解している 259
BIZ97 プロジェクトにおけるステークホルダーや役割分担、プロジェクト管理・進行に関するツール・方法論が理解できる 260
BIZ109 指示に従ってスケジュールを守り、チームリーダーに頼まれた自分の仕事を完遂できる 261
BIZ117 担当するタスクの遅延や障害などを発見した場合、迅速かつ適切に報告ができる 262

■第5章 数理・データサイエンス・AI(リテラシーレベル)モデルカリキュラム 263
5-1. 数理・データサイエンス・AI(リテラシーレベル)モデルカリキュラム 264
5-2-1. 社会におけるデータ・AI利活用(導入)で学ぶこと 266
5-2-2. 社会におけるデータ・AI利活用(導入)で学ぶスキル/知識 268
5-2-3. 社会におけるデータ・AI利活用(導入)の重要キーワード解説 269
5-3-1. データリテラシー(基礎)で学ぶこと 271
5-3-2. データリテラシー(基礎)で学ぶスキル/知識 273
5-3-3. データリテラシー(基礎)の重要キーワード解説 274
5-4-1. データ・AI利活用における留意事項(心得)で学ぶこと 276
5-4-2. データ・AI利活用における留意事項(心得)で学ぶスキル/知識 277
5-4-3. データ・AI利活用における留意事項(心得)の重要キーワード解説 278
5-5. 数理・データサイエンス・AI(リテラシーレベル)を詳しく学ぶ 280

■データサイエンティスト検定リテラシーレベル模擬試験 問題 283

■データサイエンティスト検定リテラシーレベル模擬試験 解答例 307

おわりに 312
索引 314
執筆者紹介 322
参考文献 327

著者情報

菅 由紀子
菅 由紀子(かん ゆきこ) 株式会社Rejoui(リジョウイ) 代表取締役 一般社団法人データサイエンティスト協会 スキル定義委員 関西学院大学大学院 非常勤講師  2004年に株式会社サイバーエージェントに入社し、ネットリサーチ事業の立ち上げに携わる。2006年より株式会社ALBERTに転じ、データサイエンティストとして多数のプロジェクトに従事。2016年9月に株式会社Rejouiを創立し、企業や自治体におけるデータ利活用、データサイエンティスト育成事業を展開しているほか、ジェンダーを問わずデータサイエンティストの活躍支援を行う世界的活動WiDS(Women in Data Science)アンバサダーとして日本における中心的役割を果たしている。
佐伯 諭
佐伯 諭(さえき さとし) ニューホライズンコレクティブ合同会社 プロフェッショナル・パートナー 一般社団法人データサイエンティスト協会 スキル定義委員会副委員長  SIerでのエンジニア、外資系金融でモデリング業務などの経験を経て、2005年に電通入社。デジタルマーケティングの黎明期からデータ・テクノロジー領域をリード。電通デジタル創業期には執行役員CDOとして組織開発やデータ人材の採用、育成などを担務。データサイエンティスト協会創立メンバーとして理事を7年間務めた後、現在は独立し、DXコンサルタントや協会事務局メンバーとして活動中。
高橋 範光
高橋 範光(たかはし のりみつ) 株式会社ディジタルグロースアカデミア 代表取締役社長 株式会社チェンジ 執行役員 一般社団法人データサイエンティスト協会 スキル定義委員  アクセンチュアのマネージャーを経て、2005年に株式会社チェンジに入社。2013年、データサイエンティスト育成事業を開始するとともに、自身も製造業、社会インフラ、公共、保険、販売会社などのデータサイエンス案件を担当。現在は、ディジタルグロースアカデミアの代表取締役社長として、デジタル人財育成事業のさらなる拡大を目指す。著書に『道具としてのビッグデータ』(日本実業出版社)がある。
田中 貴博
田中 貴博(たなか たかひろ) 株式会社日立アカデミー 研修開発本部L&D第一部 部長 一般社団法人データサイエンティスト協会 スキル定義委員  独立系SIerでのシステムエンジニア、教育ベンチャーでのコンサルタントなどを経て、2010年、株式会社日立アカデミー入社。日立グループの社内認定制度に連動したデータサイエンティスト認定講座、デジタル事業・サービスの事業化検討ワークショップの企画・運営などを担当。現在は、DX関連の研修・サービス事業の統括責任者として、DX事業へのコーポレート・トランスフォーメーションをめざし、本社施策と連動した人財育成に取り組んでいる。
大川 遥平
大川 遥平(おおかわ ようへい) 株式会社AVILEN 取締役 一般社団法人データサイエンティスト協会 スキル定義委員  大学時代にAI/統計学のメディア「全人類がわかる統計学(現 AVILEN AI Trend)」を開設したのち、大学院在学中に株式会社AVILENを創業。AI人材育成事業とAI開発事業の立ち上げを行い、現在も取締役としてAVILENのプロダクトの質の向上に尽力している。
大黒 健一
大黒 健一(だいこく けんいち) 株式会社日立アカデミー 事業戦略本部戦略企画部 GL主任技師 一般社団法人データサイエンティスト協会 学生部会副部会長 博士(農学)  日立グループのデジタルトランスフォーメーション推進のための人財育成の推進を担当。総務省統計局「社会人のためのデータサイエンス演習」Day3講師。著書に『ビジネス現場の担当者が読むべき、IoTプロジェクトを成功に導くための本』(秀和システム)がある。
森谷 和弘
森谷 和弘(もりや かずひろ) データ解析設計事務所 代表 データアナリティクスラボ株式会社 取締役CTO 一般社団法人データサイエンティスト協会 スキル定義委員  富士通グループにてデータベースエンジニアとしてのキャリアを積み、その後データ・フォアビジョン㈱でデータベースソリューションとデータサイエンス、人事等の役員を担当。2018年よりフリーランスとして独立し、AIコンサルタントや機械学習エンジニア、データサイエンティスト、データアーキテクトとして活動。2019年、データアナリティクスラボ㈱を共同経営者として起業。現在はフリーランスと会社経営の二足の草鞋で活動中。
參木 裕之
參木 裕之(みつぎ ひろゆき) 株式会社大和総研 フロンティア研究開発センター データドリブンサイエンス部上席課長代理/主任データサイエンティスト一般社団法人データサイエンティスト協会 スキル定義委員 大和総研に2013年に入社。システム開発部門にて、データモデリングやアプリケーション開発などの業務に従事した後、2017年より現職。主に、証券会社、官公庁向けの機械学習や自然言語処理を用いたデータサイエンス案件、分析コンサルティングを担当。2020年より東京工業大学大学院非常勤講師を兼務。
北川 淳一郎
北川 淳一郎(きたがわ じゅんいちろう) ヤフー株式会社 一般社団法人データサイエンティスト協会 スキル定義委員  株式会社ミクロスソフトウェアでエンジニア経験を積んだ後に、2011年にヤフー株式会社に入社。インターネット広告システムのエンジニアをしつつ、データサイエンスという分野に出会う。その後、ヤフオク!の検索精度向上、ディスプレイ広告の配信精度向上案件を担当。現在は、ヤフーのローカル検索の精度向上案件を担当している。
守谷 昌久
守谷 昌久(もりや まさひさ) 日本アイ・ビー・エム株式会社 シニアアーキテクト 一般社団法人データサイエンティスト協会 スキル定義委員  ソフトウェア開発会社でデータ解析ソフトウェア開発に従事後、2008年に日本アイ・ビー・エム株式会社に入社。大学生時代よりIBM製品の統計解析ソフトウェアSPSSによるデータ分析(主に多変量量解析)に携わりSPSS使用歴は20年以上。実業務では製造業を中心としたお客様にビッグデータやIoTを活用したITシステムの構築やWatson、SPSS、CognosなどのIBMのData and AI製品の導入コンサルティングを行う。
山之下 拓仁
山之下 拓仁(やまのした たくひと) 一般社団法人データサイエンティスト協会 スキル定義委員  教育業界での、生徒一人一人に合わせた教育指導をサポートするAIエンジンの研究開発、金融業界の金融データ分析や金融工学に基づく数理モデル構築業務、ソーシャルゲーム業界のビックデータを解析する為の組織作り、人材業界のマッチングにおけるデータ解析、分析基盤構築、機械学習手法の大学との研究開発など、様々な業界におけるデータ活用やAI開発などに従事。
苅部 直知
苅部 直知(かりべ なおと) 一般社団法人データサイエンティスト協会 スキル定義委員 ヤフー株式会社  リクルートテクノロジーズなどIT系企業を中心に勤務し、Webアクセス解析・BIツール(Tableau、Adobe Analytics、Google Analytics)などの導入・ツールを利用した分析業務に携わる。その経験を元にデータ分析基盤支援エンジニアとして2017年にヤフー株式会社に入社。2020年にデータサイエンティスト協会スキル定義委員に志願し参画。
孝忠 大輔
孝忠 大輔(こうちゅう だいすけ) 日本電気株式会社 AI・アナリティクス事業部 事業部長代理 数理・データサイエンス教育強化拠点コンソーシアムモデルカリキュラムの全国展開に関する特別委員会 委員数理・データサイエンス・AI教育プログラム認定制度検討会議 構成員 流通・サービス業を中心に分析コンサルティングを提供し、2016年、NECプロフェッショナル認定制度「シニアデータアナリスト」の初代認定者となる。2018年、NECグループのAI人材育成を統括するAI人材育成センターのセンター長に就任し、AI人材の育成に取り組む。著書に『AI人材の育て方』(翔泳社)、『教養としてのデータサイエンス』(講談社・共著)がある。