【イベント】【女性限定】 R言語によるデータ分析入門、ハンズオンセミナー!

イベント
【イベント】【女性限定】 R言語によるデータ分析入門、ハンズオンセミナー!

Alt text 2017年3月18日13時30分より、「【女性限定】 R言語によるデータ分析入門、ハンズオンセミナー!」が開催されました。

Alt text

アクセンチュア株式会社主催の本イベントでは、統計分析の定番となっている「R」を使って、基礎的なデータ分析をハンズオン形式で実践しました。

女性の方のみが対象ですが、お子様や旦那様が待機できるスペースも設置され、当日は50名ほどが参加されました。

当日のアジェンダは下記の通りです。

・アナリティクス概要
・「R」入門
・データ分析入門
・データ分析実践

それでは、内容を紹介します!

ホワイ!? ビッグデータ!

講師を務めるのはアクセンチュア株式会社の松本リサさんです。

Alt text

松本リサ(まつもと・りさ)/アクセンチュア株式会社。東京都出身。大学院工学研究科修士課程修了。2009年に新卒でアクセンチュアへ入社。現在は4歳と1歳の2児の母。趣味はピアノ。

Alt text

まず、ビッグデータが盛り上がる背景を理解するための「アナリティクス概要」です。

この10年、あらゆる場面でビッグデータが活用されるようになりました。

HDDの大容量化・低価格化などのコンピュータの性能の向上、モバイルも含めた通信ネットワーク速度の向上など「めまぐるしい技術革新」が起こったこと。次に、全ての産業でデジタル化が加速し「新しいビジネスやプレイヤーが出現」したこと。そして、ネットワークにつながるセンサーや機器など「IoTデバイスが膨大化」したこと。松本さんはこの3点をビッグデータの活用背景として紹介しました。

Alt text

これまで、企業は社内の経理データやPOSデータ、社外のオープンデータ、天気情報などの公的なデータをつかってデータのアナリティクスを行なってきました。取得したデータは「業務系システムデータ」→「データ変換サーバー」→「データウェアハウス」を経て、必要があれば「分析用サーバー」で分析するといった流れをとっていました。

しかし、現在はIoTのセンサーデータやソーシャルメディアのデータなど、データソースが増え、データ量も膨大になっています。さらに、構造化されていないデータなど扱うデータの種類も複雑化しています。

そこで、「Hadoop」や「Spark」といったOSSを活用し、複数台で並列化、分散処理を行うことで大量のデータを処理することが求められてきています。

基本操作を学んでみよう。

Alt text

続いて、「R」の基本操作を取得するための「R入門」です。

本イベントで扱う「R」とは、OSSで提供されている統計解析向けの言語です。最近ではこの領域の言語としてもうひとつ「Python」もユーザーを増やしています。

「R」の魅力は無料でインストールできるため、統計の勉強には効率がいい点だと松本さん。そして、「R」の特徴を次のように挙げます。

・最新の統計手法へパッケージによる機能拡張で対応できる
・「R」にできない統計解析手法は基本的になく、結果の信頼性も十分に高い
・日本語対応も充実し始め、使い方に関する詳しいサイトや書籍も出てきている
・分析結果の出力の流用がしにくい
・メモリ上でデータを保持、計算するため処理速度が遅い
・データ数の上限があるため、大規模データを扱うのが得意でない

Alt text

続いて「R」を使うためのIDE(統合開発環境)、「Rstudio」の使い方を学びます。

参加者は事前に配られたテキストを「Script Area」へ貼り、選択した部分を実行して「Console Area」への出力を試すなど、基本的な操作をひとつずつ確認。わからない箇所はアクセンチュアの社員がすぐにサポートしてくれました。

松本さんは、入力時には「Rstudio」の補完機能を積極的に使うことをオススメしていました。「R」では大文字と小文字を区別するため、全て手で入力すると思わぬミスをすることがあるからです。

Alt text

変数の代入方法を紹介した際に松本さんは、変数の型を理解することがとても重要だと指摘します。思ってもいない型が定義されているために、エラーが起きることがよくあるからです。

具体的には以下の5つの型があります。

・数値クラス:numeric
・整数クラス:integer
・論理クラス:logical
・文字クラス:character
・因子クラス:factor

Alt text

「R」にはグラフを描画するための様々な関数が用意されています。描画したグラフは「Plots」タブで保存することも可能です。

参加者は、標準装備されているデータフレームを使って、「車のスピードとブレーキかけたときに停車するまでの距離の関係」をグラフ化することでその使い方を学びました。

続いてはデータフレームの作成です。「R」では、複数の数値を1つのデータとしてまとめて扱え、ベクトルを結合することでエクセルのようなデータフレームを作成できます。読み込んだデータは「View」関数を使うと簡単に確認することができます。

また、「R」ではパッケージをインストールすることで機能を拡張します。今回は「dplyr」というパッケージを新たにインストールして進めました。

このデータは、どうやって扱う?

Alt text

続いて松本さんは統計の基礎知識を紹介します。統計学で扱うデータは大きく「量的データ」と「質的データ」の2種類に分類されます。

さらに細かく見ていくと、「量的データ」には、質量や長さなどの「比率データ」と、摂氏の温度や時刻などの「間隔データ」の2種類があり、「質的データ」には、成績順位や満足度などの「順位データ」と、職業や性別などの「カテゴリデータ」の2種類があります。

Alt text

このうち「量的データ」を扱う手法として、「度数分布表」と「箱ひげ図」が紹介されます。

・度数分布表
観測値を階級に分けて、各階級で観測値がいくつあるかの度数を数えた表。グラフにすることでデータが意味するところが明確になります。

・箱ひげ図
データのばらつきを確認するための方法。データを4等分し、25%の点と75%の点で「箱」を作成します。つまり、「箱」には半数の値が入ることになります。そして、箱の長さを1.5倍上下に伸ばし、そこに収まらなかった数値は外れ値として扱います。

Alt text

量的データの場合は「代表値」を使って客観的にデータを要約していきます。この代表値のうち、よく用いられるのが「平均」「分散」「標準偏差」の3種類です。

日本の一般的な報道ではほとんど平均値のみが扱われます。しかし、平均値は外れ値の影響を大きく受けてしまいます。外れ値の影響を受けにくい中央値や、数量が最も多い最頻値も併せてデータを判断することが大切です。

次のページ :
データ分析実践編! ホントに「巨人」でいいですか?

1 2

関連するイベント

おすすめのイベント

タグからイベントをさがす

おすすめのコラム