1. 개요
데이터 분석 방법론은 '데이터를 체계적으로 수집, 정제, 변환하여 의미 있는 정보를 추출하고, 이를 기반으로 의사결정을 지원하는 일련의 절차와 기법'을 말합니다.
ADSP 과정에서 다루는 분석 방법론은 KDD(Knowledge Discovery in Databases), CRISP-DM(Cross-Industry Standard Process for Data Mining)이 있으며, 데이터 분석 프로젝트에서 방법론들을 적용하기 위한 모델로 폭포수 모델(Waterfall Model), 프로토타입 모델(Prototype Model), 나선형 모델(Spiral Model)이 있습니다.
1) KDD 분석 방법론
KDD(Knowledge Discovery in Database)는 영어 해석 그대로, 데이터베이스에서 지식을 발견하기 위한 프로세스입니다. 이 방법론은은 다음과 같은 순서로 진행됩니다.
- 데이터셋 선택 (Selection): 분석 목표에 맞는 데이터를 선택합니다.
- 데이터 전처리 (Preprocessing): 잡음(Noise), 이상치(Outlier), 결측치(Missing Value) 등을 식별하고 처리하여 데이터를 분석 가능한 형태로 정리합니다.
- 데이터 변환 (Transformation): 전처리된 데이터에서 분석 목적에 맞는 변수를 선택하거나 필요한 만큼의 데이터만 가져오는 등의 처리를 통해 활용하는 데이터의 차원을 축소합니다.
- 데이터 마이닝 (Data Mining): 적절한 데이터 마이닝 기법과 알고리즘을 적용하여 보유한 데이터를 분석하고, 이를 통해 특정 패턴을 발견하거나, 데이터 간의 관계를 분류하고, 미래를 예측합니다.
- 데이터 마이닝 결과 평가 (Interpretation/Evaluation): 최종적으로 분석된 결과를 해석하고 평가하여 분석 결과가 프로젝트의 목적에 부합하는지 평가합니다.
2) CRISP-DM 분석 방법론
CRISP-DM(Cross Industry Standard Process for Data Mining)은 유럽 연합에서 1999년에 발표한 분석 방법론입니다. 이 방법론은 앞선 KDD와 전체 과정은 비슷하지만, 몇 가지 더 세분화된 과정이 추가되었습니다. 이 방법론의 과정이 좀 더 체계적이어서 다양한 산업 분야에서 적용하고 있는 데이터 마이닝 표준 프로세스입니다.
더불어 CRISP-DM 분석 방법론은 각 과정을 순차적으로 진행하는데 그치지 않고, 필요에 따라서 단계 간의 반복 수행을 통해 분석의 품질을 높인다는 특징이 있습니다.
이 방법론은 총 여섯 단계로 진행됩니다.
- 업무 이해 (Business Understanding): 프로젝트의 목적과 요구사항을 비즈니스 관점에서 이해하고, 이를 기반으로 초기 분석 계획을 수립합니다.
- 데이터 이해 (Data Understanding): 분석에 필요한 데이터를 수집하고, 데이터의 특성과 품질을 파악합니다. 이를 위해 기술 분석(평균, 분포, 4분위수 등)을 활용합니다.
- 데이터 준비 (Data Preparation): 데이터에 대한 이해가 마무리되면, 분석에 적합한 형태로 분석용 데이터셋을 선택하고, 데이터를 정제하고, 통합, 포맷팅합니다. 이 과정은 KDD의 데이터 전처리 및 변환 단계를 포함하고 있습니다.
- 모델링 (Modeling): 데이터가 준비되면 이제는 데이터의 특징, 프로젝트의 목적에 적절한 분석 모델링 기법을 선택합니다. 모델링 기법이 선택되면 모델 테스트 계획을 설계하고, 모델을 작성한 뒤 평가합니다.
- 평가 (Evaluation): 구축된 모델 및 이를 통해 나온 분석 결과가 프로젝트 및 비즈니스 목표, 이해관계자의 요구사항에 부합하는지 평가하고, 실제 적용이 가능한 지 여부를 평가합니다.
- 전개 (Deployment): 모델을 실제 업무에 적용하기 위한 계획을 수립하고, 모니터링 및 유지보수 방안을 마련합니다. 또한 프로젝트 종료 보고서를 작성하고, 프로젝트를 최종 리뷰합니다.
2. 분석 방법론 적용 모델
1) 폭포수 모델 (Waterfall Model)
- 분석, 설계, 개발, 테스트, 유지보수 단계를 순차적으로 진행하는 방식임.
- 명확한 단계별 문서화가 가능하며, 변경사항이 적거나 규모가 작은 프로젝트에 적합한 모델
- 초기 요구사항이 확정되면 이후 변경이 어렵고, 유연성이 부족하다는 단점이 있음.
2) 프로토타입 모델 (Prototype Model)
- 프로토타입(시제품)을 우선 개발하고, 사용자의 피드백(분석, 정당성 점검, 성능 평가 등)을 받는 과정을 통해 개선 작업을 시행하면서 점진적으로 개선하는 방식
- 사용자의 요구사항을 보다 명확히 반영할 수 있으며, 변경에 유연하게 대응 가능하여 사용자 중심의 개발 방법이기도 함.
- 프로토타입 개발에 추가적인 시간과 비용이 발생할 수 있다는 단점이 있음.
3) 나선형 모델 (Spiral Model)
- 일반적으로 가장 많이 활용되는 모델
- 폭포수 모델과 프로토타입 모델을 결합한 방식으로, 위험 분석 단계를 포함
- 프로젝트를 여러 단계로 반복 수행하기 때문에 프로젝트 진행 중에도 지속적으로 개선이 가능함.
- 대규모 프로젝트에 적합하지만, 단계가 복잡하기 때문에 자칫 관리가 어려울 수 있다는 단점이 있음.