'Work/Database General'에 해당되는 글 8건
- 2011.02.07 개체 관계 모델 (Entity-Relationship Model)
- 2011.01.27 OLAP vs OLTP
- 2011.01.26 데이터마이닝 (Datamining) 1
- 2011.01.25 2PL(2 Phase Lock)
- 2011.01.25 2PC (2 Phase Commit)
- 2010.08.05 정규화
- 2009.01.14 MSSQL Oracle 분산트랜잭션
- 2009.01.12 Database 란??
OLAP vs OLTP Work/Database General2011. 1. 27. 14:15
구분 | OLTP | OLAP |
데이터 구조 | 복잡 | 단순 |
데이터 갱신 | 동적으로 순간적 | 정적으로 주기적 |
응답시간 | 수 초 이내 | 수초에서 몇분 사이 |
데이터 범위 | 수십일 전후 | 오랜기간(몇년) |
데이터 성격 | 정규적인 핵심 데이터 | 비정규적인 읽기 데이터 |
데이터 크기 | 수 기가 바이트 | 수 테라 바이트 |
데이터 내용 | 현재 데이터 | 요약된 데이터 |
데이터 특성 | 트랜잭션 중심 | 주제 중심 |
데이터 액세스 빈도 | 높음 | 보통 |
질의 결과 예측 | 주기적이며 예측 가능 | 예측하기 곤란 |
데이터마이닝 (Datamining) Work/Database General2011. 1. 26. 15:56
구분 | 통계적 분석 | 데이터마이닝 |
데이터 규모 | Sampling 기반 | 대용량 기반 |
장점 | 수치데이터 의존 명확한 결과 제시 |
과거 데이터 특성에 의존 의사 결정을 위한 고급 정보 |
단점 | Sampling 선정문제 입력값의 타당성 |
다양한 전문지식 필요 |
2. 데이터마이닝 기법
구분 | 기법 | 내용 | 예시 |
예측적 모델 | 의사결정 나무(Decision Tree) | 축적된 데이터를 분석하여 나무모형으로 분류 | 우수고객(예탁금->약관->거래년수) |
신경망(Neural Network) | 뇌를 모방한 방식으로 학습을 통한 예측 | 우수고객 및 연체자 분석(입력-은닉-출력) | |
분류화(Classification) | 특정 특성으로 분류 | 신규 고객, 불만 고객 | |
탐색적 모델 | 연관성 분석(Association) | 데이터의 종속관계를 분석 | 기저귀와 맥주 |
연속규칙(Sequence) | 연관성 분석에서 시간정보를 추가한 방식(이력사항 필요) | 신차구입 후 캠핑장비 구입 | |
군집화(Clustering) | 특정 거리 기반으로 데이터 분류(K-Means 알고리즘) | 기업 밀집 지역에 은행 지점 입점 |
절차 | 내용 | 고려사항 |
요구분석 | 데이터마이닝 목적을 정의 | 불량 고객 최소화 신규 고객 창출 |
데이터 선택 | 필요한 데이터의 위치, 형태 파악 및 통합 | DW 활용 |
데이터 정제 | 정확성을 높이기 위한 데이터 모호성, 중복성 제거 및 오류 데이터 보정 | 오류 데이터 보정 (9월 31일) |
데이터 보강 | 데이터 양을 늘이기 위한 외부데이터 추가 | 외부 데이터 활용 |
데이터 변환 | 불필요한 데이터 제거 및 신규 파생데이터 생성 | 파생 데이터 생성 (월 소득 200 이상 ->'1') |
마이닝 수행 | 비즈니스 목적에 맞는 마이닝 기법 선택 및 수행 (의사결정 나무, 신경망.. 등) | 해석 가능한 모델 선택 |
해석 및 평가 | 마이닝 결과를 해석하고 실 업무에 적용하고 평가 | Feedback |
구분 | 분야 | 내용 |
금융 | 은행 | 우수 고객, 대출 심사 |
카드 | 신용평가, 카드사고 감시, 고객 세분화 | |
증권 | 주가 예측 | |
보험 | Claim 분석 | |
통신 | 이동 통신 | 연체자 분석, 고객이탈 방지, 고객 충성도 분석 |
유통 | 유통 | 마켓팅 전략분석, 고객 관리 |
제조 | 제조 | 불량율 예측, 품질 관리 |
소매 | 소매 | 고객 세분화 마켓팅, 교차 판매 |
의학 | 의료 | 환자의 질병 예측, 환자의 특성에 따른 의약품 부작용 분석 |
BSC 관점 | 재무관점 | 경쟁력 향상, 수익 증대, 주주의 가치 증대 |
고객관점 | 욕구에 부합하는 제품사용, 기업에 대한 충성도 향상 | |
프로세스 관점 | 고객 세분화, 불량율 감소 등을 위한 내부절차 개선 | |
학습과 성장 | 마켓팅 정보, 판매 정보, 고객 정보 등 유용한 정보 획득 |
2PL(2 Phase Lock) Work/Database General2011. 1. 25. 18:39
2PC (2 Phase Commit) Work/Database General2011. 1. 25. 18:38
정규화 Work/Database General2010. 8. 5. 00:01
그리고, 가장 두려운 것은 내가 정규화를 위반한 것인지 아닌지 판단이 안되는 경우이다.
제 1 정규화(1NF)
모든 도메인이 원자값(atomic value)만으로 된 릴레이션
여러 값을 가진 속성이 존재할 수 없다. 즉 반복되는 그룹이 존재해서는 안된다.
제 2 정규화(2NF)
1NF이고, 식별자에 속하지 않는 속성들은 모두 식별자에 완전 함수 종속
식별자가 아닌 속성은 식별자에 의존적이어야 한다. 식별자의 일부분에 의존적이어서는 안된다.
제 3 정규화(3NF)
2NF이고, 식별자가 아닌 모든 속성들은 식별자에 이행적 함수 종속되지 않음
식별자가 아닌 속성은 식별자 이외에 다른 속성에 의존적이어서는 안된다.
반정규화 종류
이유:시스템 성능, 개발 과정 편의성, 운영의 단순화
분할(수평분할, 수직분할), 중복테이블 생성(집계, 진행), 중복 컬럼 생성
MSSQL Oracle 분산트랜잭션 Work/Database General2009. 1. 14. 14:47
Database 란?? Work/Database General2009. 1. 12. 16:10
데이터베이스란?
데이터베이스가 뭐냐고 물어본다면 필자는 ‘데이터를 꺼내보기 좋게 잘 저장해 놓은 것’ 이라고 하겠다. 여기에 ‘여러 명의 사용자’라는 옵션이 붙던지 ‘고도로 구조화’라는 옵션이 붙던지.. 아무튼 ‘데이터를 꺼내보기 좋게 잘 저장해 놓을 것’에 포함이 된다. 여기서
논란의 여지가 있는 것은 역시 ‘잘’이란 부사이다. 데이터를 꺼내보기 좋게 ‘잘’ 저장하는 것이 우리가
데이터베이스를 공부하는 70%라고 봐도 된다. 데이터를 ‘잘
꺼내보는 것’은 30%에 해당한다. 그러므로 어떻게 데이터를
저장할 것인지를 결정하기 위한 일련의 작업들을 데이터베이스 모델링과 설계라고 봐도 된다. 잘 꺼내보는
것은 DBMS를 제작하는 기술과 DBMS를 이해하고 SQL문을 작성하는 것이다. 물론
DBMS를 제작하는 기술은 그야말로 어려운 일이므로 이를 제외하면 DBMS를 이해하고, SQL문을 작성하는 것만 남게 된다.
자, 그럼 데이터를
꺼내보기 좋게 잘 저장해 놓았다고 하자. 왜 이런 짓을 해야 할까? 바로
사용자의 정보욕구를 만족시키기 위해서다. 결국 데이터베이스는 보다 정보를 얻기 편리하게 해보자는 의도에서 만들어진 것이다. 그렇다면 다른 문서에서는 데이터베이스를 어떻게 정의하고 있는지 살펴보자.
데이터베이스의 정의 |
첫 번째로 논리적으로 연관된이란 글에 대해서 고려해보자. 연관되어있다는 것은 어떤 개념의 범위에 속해 있다는 뜻이된다. 지금
이 글을 보고 내용을 이해하고 있는 사람은 아마도 “한국어를 할 수 있는 사람” 좀 더 개념의 범위를 좁혀보면 “자랑스런 조선인으로써” 나와 연관될
수 있다.(매우 정성적이지만 그렇다치자) 이렇게 개념의 범위
좀 더 이론적으로 말한다면 집합의 명제속에 속하는 원소들 끼리는 바로 논리적으로 연관되었다고 볼 수 있는 것이다.
두 번째로 하나 이상의 자료의 모음이란 글에 대해서 따져보자. 사실 말이 좀 우습다. “두개 이상의 자료의 모음” 또는 “세개
이상의 자료의 모음”이라고 해도 별로 우습지 않다. 1개의 자료나 3개의
자료나 분명히 숫자에 대한 기본적인 지식만 알면 인간의 머리속에서 해결할 수 있다. 아마도 “하나 이상”의
뜻은 인간이 감당하기 힘들 정도의 자료의 양이 될 것이다. 정말이지 조그만한 강원도 두메산골 1평 남짓한 구멍하게를 운영한다고 하자. 상품은 30개가 되지 않는다. 하루 매출은
1만원을 넘지 않는다. 물건을 사러오는 사람도 몇 명되지 않는 동네 어르신들이다. 다른 구멍가게는 없다. 과연 매출장부가 필요할까? 그럼 대형할인마트를 생각해보자. 하루 몇 억개의 상품이 팔려나간다. 이러한 매출자료를 수작업으로 정리하려면 생각만해도 짜증스럽다. 어찌되었건
하나 이상의 자료의 모음이라는 것은 많은 양의 데이터를 뜻할 것이다.
세 번째로 그 내용을 고도로 구조화함으로써 검색과 갱신의
효율화를 꾀 한 것이란 글에 대해서 살펴보자. 위에서 예를 든 대형할인 마트로 다시 돌아가보자. 그 수많은 상품들을 아무런 진열도 하지 않고 그냥 쏟아 부어 놓았다고하자. 여러가지
상품이 산더미처럼 얼켜있을 것이다. 상품의 가치도 가치이거니와 원하는 물건을 사기위해서는 많이 뒤져봐야
할 것이다. 또한 A라는 상품이 없다고 어떤 고객이 눈앞에서
난리를 치고 있다. 할 수 없이 대형할인마트의 재고관리자는 포크레인으로 A상품을 쏟아 부었다고 하자. 그런데 내가 찾는 상품은 알고보니 제일
먼저 쏟아부어 제일 바닥에나 있다고 하자. 어찌되었던 내가 원하는 상품을 찾기 위해서는 다른 상품이
또 밑으로 내려가야 한다. 장사가 될까? 데이터베이스도 마찬가지이다. 자료를 잘 정리정돈 해놓아야 데이터를 잘 사용할 수 있는 것이다. (내용을
고도로 구조화하는 방법은 데이터 모델링과 설계부분이다. 이는 나중에 다룰 것이다.)
네 번째로 몇 개의 자료 파일을 조직적으로 통합이란 글을
살펴보자. 백과사전이라 그런지 몰라도 데이터베이스의 탄생배경을 생략해 놓은 듯한 글귀다. 우찌되었건 파일시스템을 사용할 적(물론 지금도 사용하고, 어떤 경우에는 데이터베이스보다 더 효율적이다)에 발생되었던 문제의
근본 원인인 “자료의 중복”을 들먹이고 있다. 물론 자료의 중복은 중복을 아예 없애라는 것이 아니라
“최소한의 중복”이다. 이러한 자료의 중복을 없애는 작업이 나중에 나오게 될 데이터베이스의 꽃인 “정규화”이다. 그럼 현재는 데이터베이스는 자료의 중복이 많이 없어졌을까? 알 수
없다. 필자가 본 많은 데이터베이스는 엄청나게 많은 자료의 중복이 있었다. 그로인해 많은 사람들이 괴로워하는 것도 많이 보았다. 데이터베이스를
잘 사용하지 못하면 오히려 파일시스템보다 더 중복이 일어날 수 있다. 데이터베이스 답게 사용하려면 자료의
중복을 없애는 일이 너무나도 중요하다. 자료의 중복을 없애는 것은 좋은 정보를 만들어내는 지름길이다.
데이터베이스의 특징 ü
똑같은 자료를 중복하여 저장하지
않는 통합된 자료 ü
컴퓨터가 액세스하여 처리할 수
있는 저장장치에 수록된 자료 ü
어떤 조직의 기능을 수행하는 데
없어서는 안 되며 존재 목적이 뚜렷하고 유용성 있는 운영 자료이기 때문에 임시로 필요해서 모아 놓은 데이터나 단순한 입출력 자료가 아니라는
점 ü
한 조직에서 가지는 데이터베이스는
그 조직 내의 모든 사람들이 소유하고 유지하며 이용하는 공동 자료로서 각 사용자는 같은 데이터라 할지라도 각자의 응용 목적에 따라 다르게 사용할
수 있다는 점이다. |