CRISP-DM
(Cross Industry Standard Process For Data Mining)
모든 산업 군에서 활용 가능한 데이터 과학에서의 분석 방법론의 일종
1. 비즈니스 이해 : 데이터 분석 목적
2. 데이터 이해 : 목적에 따른 데이터들의 타당성 검토
3. 데이터 준비 : 데이터들이 정확한가?
4. 모델링 : 데이터들 간 관계성
5. 검증 및 평가 : 분석 결과의 정확성 / 당위성
6. 구현 및 게시 : 분석 적용
1. 비즈니스 이해
가장 중요하다.
이 데이터의 분석 목적이 무엇인지 정확하게 지정해야 하고,
관련된 데이터의 정보란 정보는 전부 다 수집해야 한다.
궁금증이 꼬리에 꼬리를 물어야 정확한 인사이트를 도출해 내는 단계이다.
예를 들어 타이타닉의 기본 정보는 물론, 승선했을 때의 날씨나 풍향 같은
세세한 정보도 알아야 한다.
모든 데이터가 관련이 있을 거라는 마음가짐을 가지고 가장 많은 시간을 할애해야 한다.
고객에게 정보를 물어보는 것도 허용되는 단계다.
2. 데이터의 이해
그 다음으로 중요하다.
이 데이터의 컬럼명부터 형태까지 이해를 해야 한다.
해당 데이터가 옳은 데이터인지도 판단할 수 있어야 한다.
전처리나 모델링 같은 것들은 어느 정도 틀이 정해져 있기도 하고
배우면 할 수 있다.
그러나 고객이 의뢰하는 사안까지 전부 다 디테일하게 이해하고 있다는 것을 전제로 진행한다는 것은 몰랐다.
데이터 분석을 왜 해당 분야의 전문가가 툴을 배워서 하려는지 이해가 된다.
CRISP-DM 방법론 – (주)넥스투비 (nextobe.com)
'[Data Science] > Data Analysis' 카테고리의 다른 글
[Bike Sharing Demand]비즈니스 이해 - Washington D.C. (0) | 2022.04.20 |
---|---|
[Bike Sharing Demand]비즈니스 이해 - 두서없이 찾은 자료 나열 (0) | 2022.04.19 |
[미완성]Titanic Date 전처리 (0) | 2022.04.11 |
Unsupervised Learning (0) | 2022.03.28 |
Supervised learning (0) | 2022.03.28 |