본문 바로가기
TechBooks

[BigData] 빅데이터 기초 개념,동인,기법 #6장

by 꿈나무 김땡땡 2020. 7. 4.

책 소개

제목 : 빅데이터 기초 개념, 동인, 기법

저자 : Thomas Erl, Wajid Khattak, Paul Buhler

https://www.aladin.co.kr/shop/wproduct.aspx?ItemId=117002656

 

빅데이터 기초

빅데이터를 매우 실무적 차원에서 접근한 도서이다. 기업에서 빅데이터에 왜 관심이 있는지, 어떠한 비즈니스 문제를 해결하는 데 도움이 되는지, 이를 위해 기업은 전략적, 전술적, 오퍼레이션

www.aladin.co.kr

 

6장. 빅데이터 처리에 대한 개념

1. 병렬 데이터 처리

  • 하나의 큰 작업을 구성하는 여러 하위 작업의 동시 처리 개념

2. 분산 데이터 처리

  • 병렬 데이터 처리와 동일하게 '분할-정복(divide and conquer)' 원리 사용
  • 단, 물리적으로 분할 되어 있는 장치들이 하나의 클러스터를 이룬 형태에서만 이루어진다.

3. 하둡

  • 대규모의 데이터를 저장하고 처리하기 위한 오픈소스 프레임워크
  • 별도의 하드웨어 없이 범용 하드웨어로 구성 가능

4. 작업 부하 처리

  1. 일괄 형식 (오프라인 처리)
    • 데이터를 일괄적으로 처리함으로써 주로 지연을 야기하고 결과적으로 응답 시간을 늘린다.
    • 쿼리는 여러 번의 조인 연산으로 구성되거나 복잡해질 수 있다.
  2. 트랜젝션 처리 (온라인 처리)
    • 데이터가 지연 없이 상호적으로 처리 되어 결과적으로 응답에 소요 되는 대기 시간이 짧다.
    • 읽기 보다는 쓰기 작업에 초점

5. 클러스터

  • 클러스터링은 선형 확장성을 가지며, 분산 데이터 처리를 가능하게 하는 매커니즘 제공
  • 물리적으로 분리된 노드로 이루어져 있어서 고유의 중복성, 결함 포용성 제공

6. 일괄 처리 방식

  • 데이터는 오프라인에서 일괄적으로 처리
  • 반응 시간은 분 단위에서 시간 단위로 다양함
  • 빅데이터 처리 대부분은 일괄 방식으로 진행
  • 맵리듀스 : 일괄 처리 프레임워크에 사용. 높은 확장성과 신뢰도를 가진다.

7. 실시간 처리 방식

  • 속력 일관성 용량 (SCV) : 3개 중 2가지만 선택 가능
    1. 속력 : 생성된 데이터를 얼마나 빨리 처리할 수 있는지
    2. 일관성 : 결과의 정확성과 정밀성
    3. 용량 : 처리할 수 있는 데이터의 양
  • 빅데이터 처리 개념
    1. 이벤트 스트림 처리 (ESP) : 단일 소스로부터 시간에 따라 정렬된 이벤트의 수신 스트림 연속적으로 분석
    2. 복잡 이벤트 처리 (CEP) :서로 다른 소스에서 오는 다양한 실시간 이벤트를 패턴/작업 시작 탐지를 위해 분석

 

 

 

댓글