データ分析のプロセス
「ビジネス活用事例で学ぶ データサイエンス入門」を読みはじめた。本書は、1章でデータサイエンティストの仕事の概要、2章でデータ分析のフローが示され、その後はデータ分析の事例を基礎編(3~6章)と応用編(7~10章)に分けて紹介されている。
2章まで読んだところで、これからデータ分析事例を読んでいく。とりあえず、分析フローをメモ。
2章「ビジネスにおけるデータ分析フロー」のメモ
データ分析における5つのフロー
1.現状とあるべき姿
2.問題発見
問題発見の3つの切り口
①大きさを見る、②分解してみる、③比較して見る
3.データの収集と加工
4.データ分析
5.アクション
2章最後のまとめにも書かれているが、分析プロセスは必ずしもこの通りではなく、分析者の経験やそのときの状況に応じて変わるものである。経験を積むことで自分なりのプロセスが確立されていくのだろう。
そのほかに、有名なデータ分析のフレームワークとして、CRISP-DM(CRoss-Industry Standard Process for Data Mining)がある。
CRISP-DMは、以下の6つの要素で成り立っている。
1.Business Understanding(ビジネス理解)
ビジネス課題を理解し、データ分析の目的を定める
2.Data Understanding(データ理解)
必要なデータの把握(保有データ、補完するデータなど)
3.Data Preparation(データ準備)
データをモデル可能な形に処理
4.Modeling(モデル化)
モデル化
5.Evaluation(評価・検証)
作成したモデルの評価
6.Deployment(展開/共有)
作成したモデルをサービス等に展開
参考資料