데이터 웨어하우스
Updated:
강의
http://www.kocw.net/home/search/kemView.do?kemId=317898
데이터 웨어하우스
1. Big Data
- 정보 자원의 연계 합병
- 질의 처리 성능 향상
- 의사 결정 기능의 분리
- 데이터 마이닝, 시각화
- 지식별견
2. 데이터 웨어 하우스
- 의사 결정 지원이라는 특별한 목적을 위해 설계된
- 주체 지향적
- 통합적
- 시간가변적
- 비휘발성의 데이터 집합체
- 기업 내의 의사 결정지원 애플리케이션을 위한 정보기반을 제공하는 통합된 데이터 공간
- 기업 내 여러 곳에 분산, 운용되는 트랜잭션 위주의 시스템들로부터, 필요한 정보를 추출한 후, 하나의 중앙 집중화된 저장소에 모아놓고, 이를 여러 계층의 사용자들이 더 손쉽게 효과적으로 이용하기 위하여 만든 데이터 창고
3. Extract-Transfer-Load (ETL)
- 기존의 다양한 시스템과 파일에 저장된 데이터를 하나의 데이터 웨어하우스로 통합하기 위한 데이터를 추출 가공 접속하는 일련의 과정을 통칭
3.1 추출(Extraction)
- 원본 파일과 트랜잭션 데이터베이스로부터 데이터 웨어하우스에 저장될 데이터를 추출하는 과정임
- 추출의 기준이 명확해야 함
- 초기 추출 : DW에 최초로 데이터를 구축할 때 사용
- 주기적 추출 : DW Mig. 후에 일/월 단위로 주기적인 보완
3.2 가공 (Transformation)
- 질적으로 문제가 있는 데이터를 데이터 정제
- 열수준 : 남/녀 구분 등 value Set의 정제
- 레코드 수준 : 선택, 결합, 집단화 가능 이용
- 적재 : 선택된 데이터를 데이터 웨어하우스에 전송하여 저장하고, 필요한 색인을 만드는것
3.3 적재 (Load)
- 선택된 데이터를 데이터 웨어하우스에 전송하여 저장하고, 필요한 색인을 만드는 것
4. OLAP (On Line Analytical processing)
- 분석가, 관리자, 임원의 다차원 분석을 지원하는 소프트웨어 기술
- 비정형 검색과 다차원 분석을 위한 사용자 분석도구와 데이터베이스 서버로 구성된 소프트웨어
- 의사결정과 중역 정보를 검색, 저장, 관리를 위한 다차원 분석 도구
- 시스템 구성요소
- 데이터저장
- 데이터관리
- 다차원 관리와 계산
- 다차원 인터페이스
4.1 MOLAP과 ROLAP위 주요 특성 비교
4.1.1 MOLAP(Multi Dimensional OLAP)
- 전문분야의 분석 시 획기적 기능
- 규모의 한계(소규모 데이터, 모델링의 난해, 전문 클라이언트 필요)
4.1.2 ROLAP (Relational OLAP)
- 대규모 데이터 분석
- 상대적을 단순, 복합 질의에 한계
5. 데이터 웨어하우스 모델링
- 사실 테이블 : 업무 특성을 표현하는 차원 모델의 중심 테이블
- 차원 테이블 : 사실 테이블의 속성 또는 척도를 표시하는 테이블
- 스타 스키마 : 사실 테이블 주위에 많은 수의 차원 테이블 존재
- 스노플레이크 스키마 : 스타 스키마의 차원 테이블을 정규화한 다차원 스키마
6. 스타스키마
- 테이블 모델의 한 가운데에 위치한 사실 테이블이 있으며, 그 주위를 많은 수의 차원테이블이 둘러쌓인 형태
- 사실 테이블과 차원 테이블 사이에 ER다이어그램에서의 같이 관계 포지션을 연결하여 상호관계를 표시함
6.1 특징
- 정규화되지 않음
- join 횟수 감소로 인한 검색 성능 향상
- 간단하고 사용자 중심의 모델
- 단점 : 융통성이 적고, 중복된 데이터를 가지며, 사실 테이블간 join이 어려움
7. 스노우 플레이크 스키마
- 스타스키마의 차원 테이블을 정규화한 다차원 스키마
- 정규화를 통해 차원 테이블에 중복된 데이터를 제거함으로써 저장 공간절약
- join 횟수 많아 검색 속도를 떨어뜨릴 수 있음