책 소개
제목 : 빅데이터 기초 개념, 동인, 기법
저자 : Thomas Erl, Wajid Khattak, Paul Buhler
https://www.aladin.co.kr/shop/wproduct.aspx?ItemId=117002656
3장. 빅데이터 채택과 계획 고려사항
빅데이터 분석 수명주기
- 비즈니스 사례 평가
- 실제 분석 전 비즈니스 사례 작성, 평가, 승인
- 분석 프로젝트에 실제로 필요한 예산 결정
- 데이터 식별
- 분석 프로젝트에 필요한 데이터 세트, 소스 식별
- 다양한 데이터 출처를 식별하면 숨겨진 패턴, 연관성 찾아낼 가능성 높아짐
- 데이터 획득 및 여과
- 이전 단계에서 식별된 데이터 출처에서 데이터 획득 -> 획득한 데이터는 분석 목표에 부합하는지, 오염되지 않았는지 확인 후 제거(여과 단계)
- 여과 전에는 원본 데이터의 복사본 저장 해놓을 것!
- 데이터 추출
- 여러 상이한 데이터 추출, 빅데이터 솔루션에 맞는 데이터 형식으로 변환 -> 분석에 사용할 수 있도록 함
- 데이터 검증 및 정제
- 복잡한 검증 규칙을 만들거나, 알고 있는 잘못된 데이터 제거
- 데이터 통합 및 표현
- 여러 개의 데이터 세트를 통합 된 관점으로 볼 수 있도록 하는 단계
- 데이터 구조, 의미가 다를 수 있으므로 까다로운 과정
- 데이터의 재사용을 높이기 위해, 향후의 데이터 분석 요구사항 고려 필요
- 데이터 분석
- 한 가지 이상의 방법으로 실제 분석 작업 수행
- 확증적 데이터 분석 : 관측된 현상의 원인을 제안하는 연역적 접근법. 데이터를 분석하여 가설 입증/반증 & 특정 질문에 대해 최종적인 답 제시
- 탐색적 데이터 분석 : 데이터마이닝과 연관된 귀납적 방법. 현상의 원인에 대한 이해를 도출하기 위해 데이터를 탐색적으로 분석
- 데이터 시각화
- 데이터 시각화 기법을 사용해서 분석 결과를 그림 형태로 제공 -> 비즈니스 사용자들이 해석하기 쉽게 함
- 분석 결과 활용
- 분석된 데이터의 적합한 활용 장소, 방법 결정
4장. 엔터프라이즈 기술과 빅데이터 비즈니스 인텔리전스
분석 처리 시스템 (Analytic Processing System)
- 온라인 트랜젝션 처리 (OLTP)
- 트랜젝션 지향 데이터를 처리하는 소프트웨어 시스템
- 실시간 처리 (일괄 처리 X)
- 온라인 분석 처리 (OLAP)
- 데이터 분석 쿼리 처리에 사용
- 비즈니스 인텔리전스, 데이터마이닝, 기계 학습 프로세스의 필수 요소
- 데이터 출력 뿐만 아니라 데이터를 수신할 수 있는 데이터 싱크 역할 가능
- 추출 변환 적재 (ETL, Extract Transform Load)
- 출처가 되는 시스템에서 대상 시스템으로 데이터를 불러오는 프로세스
- 데이터 웨어하우스
- 과거와 현재의 데이터로 구성된 중앙의 전사적 데이터 저장소
- 서로 다른 운영 체제의 여러 비즈니스 개체 관련 데이터는 주기적으로 추출 되어 -> 유효성 검사/변환을 거친 후 -> 단일 비정규화 데이터베이스 (Single Denormalized Database)로 통합 된다.
- 데이터 마트
- 부서, 부문, 특정 사업 라인에 속하는 데이터 웨어하우스에 저장된 데이터의 하위 집합
- 데이터 웨어하우스 하위에는 여러 데이터 마트가 존재 가능
비즈니스 인텔리전스
- 전통적 비즈니스 인텔리전스
- 주로 설명, 진단 분석을 사용해 과거/현재 이벤트에 대한 정보 제공
- 애드혹 보고 : 데이터를 수동으로 처리하여 맞춤보고서 작성
- 대시보드 : 핵심 사업 영역에 대한 전체적인 관점 제공
- 데이터 마트가 있어서 효과적으로 기능할 수 있음
- 빅데이터 비즈니스 인텔리전스
- 데이터 웨어하우스에서 정리되고 통합된 전사적 데이터 처리
- 반정형 데이서 소스, 비정형 데이터 소스도 결합하여 구성
- 보다 광범위한 범위의 패턴과 이상치 파악 가능
'TechBooks' 카테고리의 다른 글
[BigData] 빅데이터 기초 개념,동인,기법 #5장 (0) | 2020.07.03 |
---|---|
[Programming] 객체지향의 사실과 오해 #3장 (0) | 2020.07.03 |
[Programming] 객체지향의 사실과 오해 #2장 (0) | 2020.06.30 |
[BigData] 빅데이터 기초 개념,동인,기법 #1장 (0) | 2020.06.30 |
[Programming] 객체지향의 사실과 오해 #1장 (0) | 2020.06.29 |
댓글