데이터 웨어하우스

Updated:

강의

http://www.kocw.net/home/search/kemView.do?kemId=317898

데이터 웨어하우스

1. Big Data

  • 정보 자원의 연계 합병
  • 질의 처리 성능 향상
  • 의사 결정 기능의 분리
  • 데이터 마이닝, 시각화
  • 지식별견

2. 데이터 웨어 하우스

  • 의사 결정 지원이라는 특별한 목적을 위해 설계된
    • 주체 지향적
    • 통합적
    • 시간가변적
    • 비휘발성의 데이터 집합체
  • 기업 내의 의사 결정지원 애플리케이션을 위한 정보기반을 제공하는 통합된 데이터 공간
  • 기업 내 여러 곳에 분산, 운용되는 트랜잭션 위주의 시스템들로부터, 필요한 정보를 추출한 후, 하나의 중앙 집중화된 저장소에 모아놓고, 이를 여러 계층의 사용자들이 더 손쉽게 효과적으로 이용하기 위하여 만든 데이터 창고

3. Extract-Transfer-Load (ETL)

  • 기존의 다양한 시스템과 파일에 저장된 데이터를 하나의 데이터 웨어하우스로 통합하기 위한 데이터를 추출 가공 접속하는 일련의 과정을 통칭

3.1 추출(Extraction)

  • 원본 파일과 트랜잭션 데이터베이스로부터 데이터 웨어하우스에 저장될 데이터를 추출하는 과정임
  • 추출의 기준이 명확해야 함
  • 초기 추출 : DW에 최초로 데이터를 구축할 때 사용
  • 주기적 추출 : DW Mig. 후에 일/월 단위로 주기적인 보완

3.2 가공 (Transformation)

  • 질적으로 문제가 있는 데이터를 데이터 정제
  • 열수준 : 남/녀 구분 등 value Set의 정제
  • 레코드 수준 : 선택, 결합, 집단화 가능 이용
  • 적재 : 선택된 데이터를 데이터 웨어하우스에 전송하여 저장하고, 필요한 색인을 만드는것

3.3 적재 (Load)

  • 선택된 데이터를 데이터 웨어하우스에 전송하여 저장하고, 필요한 색인을 만드는 것

4. OLAP (On Line Analytical processing)

  • 분석가, 관리자, 임원의 다차원 분석을 지원하는 소프트웨어 기술
  • 비정형 검색과 다차원 분석을 위한 사용자 분석도구와 데이터베이스 서버로 구성된 소프트웨어
  • 의사결정과 중역 정보를 검색, 저장, 관리를 위한 다차원 분석 도구
  • 시스템 구성요소
    • 데이터저장
    • 데이터관리
    • 다차원 관리와 계산
    • 다차원 인터페이스

4.1 MOLAP과 ROLAP위 주요 특성 비교

4.1.1 MOLAP(Multi Dimensional OLAP)
  • 전문분야의 분석 시 획기적 기능
  • 규모의 한계(소규모 데이터, 모델링의 난해, 전문 클라이언트 필요)
4.1.2 ROLAP (Relational OLAP)
  • 대규모 데이터 분석
  • 상대적을 단순, 복합 질의에 한계

5. 데이터 웨어하우스 모델링

  • 사실 테이블 : 업무 특성을 표현하는 차원 모델의 중심 테이블
  • 차원 테이블 : 사실 테이블의 속성 또는 척도를 표시하는 테이블
  • 스타 스키마 : 사실 테이블 주위에 많은 수의 차원 테이블 존재
  • 스노플레이크 스키마 : 스타 스키마의 차원 테이블을 정규화한 다차원 스키마

6. 스타스키마

  • 테이블 모델의 한 가운데에 위치한 사실 테이블이 있으며, 그 주위를 많은 수의 차원테이블이 둘러쌓인 형태
  • 사실 테이블과 차원 테이블 사이에 ER다이어그램에서의 같이 관계 포지션을 연결하여 상호관계를 표시함

6.1 특징

  • 정규화되지 않음
  • join 횟수 감소로 인한 검색 성능 향상
  • 간단하고 사용자 중심의 모델
  • 단점 : 융통성이 적고, 중복된 데이터를 가지며, 사실 테이블간 join이 어려움

7. 스노우 플레이크 스키마

  • 스타스키마의 차원 테이블을 정규화한 다차원 스키마
  • 정규화를 통해 차원 테이블에 중복된 데이터를 제거함으로써 저장 공간절약
  • join 횟수 많아 검색 속도를 떨어뜨릴 수 있음