データ分析はデータ整理が8割~ざっくりとしたデータクレンジング解説~
どうも、totokoです。
さて今回は自分自身でもデータ分析を勉強していくなかで、改めて「あーそういうことなのね」と思ったことをざっくりと説明しようかと思います。
データがあればそれで分析できると思っていた
これまでW.I.でデータ分析などに関することを書いて来ていましたが、僕自身はバリバリのエンジニアではないので、結構まだまだ知らないことが多かったりします。
その代表例と言ってもいいのが、データ分析のもっと細かい手順です。
これまで「良いデータが必要」的なことを言ってはいました。
しかし、ただデータを集めるだけではだめなようで……。
いや、おそらくやろうと思えばできるのでしょうが、その分、分析精度が低くなるのでしょう。
それを防ぐために(というよりもより高い精度で分析を行うために)、手元のデータそのものの整理整頓が大切なのです。
データもきれいにしないといけない
曰く、「ほら、ビッグデータだ!」と渡されるだけですぐにデータ分析を行えるかというとそうではないようです。
せっかく集めてくれたデータですが、結構扱いづらい状態だったりします。
例えば名簿データで名前のローマ字表記の部分があったとしましょう。
その時に全角アルファベットだったり、半角アルファベットだったりまちまちだったりしているとそれだけで分析の際に一手間かかってしまいます。
他にも空白文字だったり、区切り部分(・とか-とか)があったりなかったり。
このような細かい部分での表記ゆれによってデータそのものの質(品質)が低くなります。
そこで「データクレンジング」を行い、そのような表記ゆれ等を修正して、データの品質を高めていきます。
なんて説明していると、
「えーめんどくさい~。もっとこーぱっとやってがーっとやってグワン! とやれないものなの?」
と思うでしょう。
正直僕も思っていました。
が、これのある無しじゃあ全然違うんですよ。
むしろ、このデータクレンジングや整形がデータサイエンティストとしての腕の見せ所とまで言われるレベルらしいです。
逆にほにゃらら分析とかはほとんど(やり方が)同じだったりするので、そこで差をつけづらいというのがあります。
そりゃあ計算式は同じですから、代入する数値群の精度に寄りますわな。
なので、当然データ分析において大切なのは分析元となるデータの質に左右されるわけですね。
データ分析業の最初の一歩はそこからかもしれない
と考えるとですよ。
データ分析の世界に入門する上で、まずはデータいじくり技術の獲得からしないといけないかもしれません。
あいや、これは少し違いますね。
以前にも話したようにデータ分析業を3つに分ける際に、どの職種においても、データクレンジング&整形からのデータ分析の工程は誰でもできた方がいいかもしれません。
そして、一般的なそこからのアウトプットがそれぞれで分かれると考えます。
機械学習エンジニアはそこから、実際のサービスやプロダクトへとアウトプット。
データエンジニアはより精度がよい分析が行えるように、「データ収集→クレンジング・整形→分析」の改良。この場合のアウトプットはそれによる分析結果でしょう。
データコンサルティングアナリストはクライアントさんからもらったデータをもとにざっくりとした指標や目的を提案できるような、話の取っ掛かりとなるような「お仕事のネタ」としてアウトプット。
だと思います。
どちらにせよ、まずはナンチャラかんちゃら分析法とかを覚える前に、データクレンジング技術を磨くことが大切かもしれません。
まずは基本的なところ(表記ゆれや空白文字の扱いとか)から初めて徐々に、より専門的な部分でクレンジングを行えばいいかと思います。