2011. 1. 26. 15:56
데이터마이닝 (Datamining) Work/Database General2011. 1. 26. 15:56
1. Overview
가. 정의
* 대용량의 숨겨진 데이터로 부터 유용한 정보 및 패턴을 추출하여 의사결정에 활용하는 과정
나. 통계적 분석과 데이터마이닝의 비교
구분 | 통계적 분석 | 데이터마이닝 |
데이터 규모 | Sampling 기반 | 대용량 기반 |
장점 | 수치데이터 의존 명확한 결과 제시 |
과거 데이터 특성에 의존 의사 결정을 위한 고급 정보 |
단점 | Sampling 선정문제 입력값의 타당성 |
다양한 전문지식 필요 |
2. 데이터마이닝 기법
* 예측적 모델(Predicative Mode) : 이미 알려진 졀과로 예측
* 탐색적 모델(Descriptive Mode) : 결과가 알려지지 않은 데이터로 예측
구분 | 기법 | 내용 | 예시 |
예측적 모델 | 의사결정 나무(Decision Tree) | 축적된 데이터를 분석하여 나무모형으로 분류 | 우수고객(예탁금->약관->거래년수) |
신경망(Neural Network) | 뇌를 모방한 방식으로 학습을 통한 예측 | 우수고객 및 연체자 분석(입력-은닉-출력) | |
분류화(Classification) | 특정 특성으로 분류 | 신규 고객, 불만 고객 | |
탐색적 모델 | 연관성 분석(Association) | 데이터의 종속관계를 분석 | 기저귀와 맥주 |
연속규칙(Sequence) | 연관성 분석에서 시간정보를 추가한 방식(이력사항 필요) | 신차구입 후 캠핑장비 구입 | |
군집화(Clustering) | 특정 거리 기반으로 데이터 분류(K-Means 알고리즘) | 기업 밀집 지역에 은행 지점 입점 |
3. 데이터마이닝 절차 및 활용
가. 데이터 마이닝 절차
절차 | 내용 | 고려사항 |
요구분석 | 데이터마이닝 목적을 정의 | 불량 고객 최소화 신규 고객 창출 |
데이터 선택 | 필요한 데이터의 위치, 형태 파악 및 통합 | DW 활용 |
데이터 정제 | 정확성을 높이기 위한 데이터 모호성, 중복성 제거 및 오류 데이터 보정 | 오류 데이터 보정 (9월 31일) |
데이터 보강 | 데이터 양을 늘이기 위한 외부데이터 추가 | 외부 데이터 활용 |
데이터 변환 | 불필요한 데이터 제거 및 신규 파생데이터 생성 | 파생 데이터 생성 (월 소득 200 이상 ->'1') |
마이닝 수행 | 비즈니스 목적에 맞는 마이닝 기법 선택 및 수행 (의사결정 나무, 신경망.. 등) | 해석 가능한 모델 선택 |
해석 및 평가 | 마이닝 결과를 해석하고 실 업무에 적용하고 평가 | Feedback |
나. 데이터마이닝의 활용
구분 | 분야 | 내용 |
금융 | 은행 | 우수 고객, 대출 심사 |
카드 | 신용평가, 카드사고 감시, 고객 세분화 | |
증권 | 주가 예측 | |
보험 | Claim 분석 | |
통신 | 이동 통신 | 연체자 분석, 고객이탈 방지, 고객 충성도 분석 |
유통 | 유통 | 마켓팅 전략분석, 고객 관리 |
제조 | 제조 | 불량율 예측, 품질 관리 |
소매 | 소매 | 고객 세분화 마켓팅, 교차 판매 |
의학 | 의료 | 환자의 질병 예측, 환자의 특성에 따른 의약품 부작용 분석 |
4. 데이터마이닝의 기대효과 및 의견
가. 데이터마이닝의 기대효과
BSC 관점 | 재무관점 | 경쟁력 향상, 수익 증대, 주주의 가치 증대 |
고객관점 | 욕구에 부합하는 제품사용, 기업에 대한 충성도 향상 | |
프로세스 관점 | 고객 세분화, 불량율 감소 등을 위한 내부절차 개선 | |
학습과 성장 | 마켓팅 정보, 판매 정보, 고객 정보 등 유용한 정보 획득 |
나. 의견
* OLAP, 지능현 Agent, Expert 시스템, KMS 등과 연계되어 주요 의사결정 지원 기술요소로 정착이 기대됨.
* 통계적 분석 등 경험이 필요하며, 전문가의 수준에서 이해가 가능한 알고리즘 등 보편적인 사용이 현실적으로 쉽지 않으나, Visualization 분야 및 신용카드 회사 등 마이닝이 잘 맞는 특정 산업을 중심으로 사용이 용히한 패키지 형태로 확산될 전망임.