본문 바로가기
TechBooks

[BigData] 빅데이터 기초 개념,동인,기법 #3장, 4장

by 꿈나무 김땡땡 2020. 7. 1.

책 소개

제목 : 빅데이터 기초 개념, 동인, 기법

저자 : Thomas Erl, Wajid Khattak, Paul Buhler

https://www.aladin.co.kr/shop/wproduct.aspx?ItemId=117002656

 

빅데이터 기초

빅데이터를 매우 실무적 차원에서 접근한 도서이다. 기업에서 빅데이터에 왜 관심이 있는지, 어떠한 비즈니스 문제를 해결하는 데 도움이 되는지, 이를 위해 기업은 전략적, 전술적, 오퍼레이션

www.aladin.co.kr

 

 

3장. 빅데이터 채택과 계획 고려사항

빅데이터 분석 수명주기

  1. 비즈니스 사례 평가
    • 실제 분석 전 비즈니스 사례 작성, 평가, 승인
    • 분석 프로젝트에 실제로 필요한 예산 결정
  2. 데이터 식별
    • 분석 프로젝트에 필요한 데이터 세트, 소스 식별
    • 다양한 데이터 출처를 식별하면 숨겨진 패턴, 연관성 찾아낼 가능성 높아짐
  3. 데이터 획득 및 여과
    • 이전 단계에서 식별된 데이터 출처에서 데이터 획득 -> 획득한 데이터는 분석 목표에 부합하는지, 오염되지 않았는지 확인 후 제거(여과 단계)
    • 여과 전에는 원본 데이터의 복사본 저장 해놓을 것!
  4. 데이터 추출
    • 여러 상이한 데이터 추출, 빅데이터 솔루션에 맞는 데이터 형식으로 변환 -> 분석에 사용할 수 있도록 함
  5. 데이터 검증 및 정제
    • 복잡한 검증 규칙을 만들거나, 알고 있는 잘못된 데이터 제거
  6. 데이터 통합 및 표현
    • 여러 개의 데이터 세트를 통합 된 관점으로 볼 수 있도록 하는 단계
    • 데이터 구조, 의미가 다를 수 있으므로 까다로운 과정
    • 데이터의 재사용을 높이기 위해, 향후의 데이터 분석 요구사항 고려 필요
  7. 데이터 분석
    • 한 가지 이상의 방법으로 실제 분석 작업 수행
    • 확증적 데이터 분석 : 관측된 현상의 원인을 제안하는 연역적 접근법. 데이터를 분석하여 가설 입증/반증 & 특정 질문에 대해 최종적인 답 제시
    • 탐색적 데이터 분석 : 데이터마이닝과 연관된 귀납적 방법. 현상의 원인에 대한 이해를 도출하기 위해 데이터를 탐색적으로 분석
  8. 데이터 시각화
    • 데이터 시각화 기법을 사용해서 분석 결과를 그림 형태로 제공 -> 비즈니스 사용자들이 해석하기 쉽게 함
  9. 분석 결과 활용
    • 분석된 데이터의 적합한 활용 장소, 방법 결정

 

 

4장. 엔터프라이즈 기술과 빅데이터 비즈니스 인텔리전스

분석 처리 시스템 (Analytic Processing System)

  1. 온라인 트랜젝션 처리 (OLTP)
    • 트랜젝션 지향 데이터를 처리하는 소프트웨어 시스템
    • 실시간 처리 (일괄 처리 X)
  2. 온라인 분석 처리 (OLAP)
    • 데이터 분석 쿼리 처리에 사용
    • 비즈니스 인텔리전스, 데이터마이닝, 기계 학습 프로세스의 필수 요소
    • 데이터 출력 뿐만 아니라 데이터를 수신할 수 있는 데이터 싱크 역할 가능
  3. 추출 변환 적재 (ETL, Extract Transform Load)
    • 출처가 되는 시스템에서 대상 시스템으로 데이터를 불러오는 프로세스
  4. 데이터 웨어하우스
    • 과거와 현재의 데이터로 구성된 중앙의 전사적 데이터 저장소
    • 서로 다른 운영 체제의 여러 비즈니스 개체 관련 데이터는 주기적으로 추출 되어 -> 유효성 검사/변환을 거친 후 -> 단일 비정규화 데이터베이스 (Single Denormalized Database)로 통합 된다.
  5. 데이터 마트
    • 부서, 부문, 특정 사업 라인에 속하는 데이터 웨어하우스에 저장된 데이터의 하위 집합
    • 데이터 웨어하우스 하위에는 여러 데이터 마트가 존재 가능

 

비즈니스 인텔리전스

  1. 전통적 비즈니스 인텔리전스
    • 주로 설명, 진단 분석을 사용해 과거/현재 이벤트에 대한 정보 제공
    • 애드혹 보고 : 데이터를 수동으로 처리하여 맞춤보고서 작성
    • 대시보드 : 핵심 사업 영역에 대한 전체적인 관점 제공
    • 데이터 마트가 있어서 효과적으로 기능할 수 있음
  2. 빅데이터 비즈니스 인텔리전스
    • 데이터 웨어하우스에서 정리되고 통합된 전사적 데이터 처리
    • 반정형 데이서 소스, 비정형 데이터 소스도 결합하여 구성
    • 보다 광범위한 범위의 패턴과 이상치 파악 가능

 

 

 

 

 

댓글