본문 바로가기
TechBooks

[BigData] 빅데이터 기초 개념,동인,기법 #1장

by 꿈나무 김땡땡 2020. 6. 30.

책 소개

제목 : 빅데이터 기초 개념, 동인, 기법

저자 : Thomas Erl, Wajid Khattak, Paul Buhler

https://www.aladin.co.kr/shop/wproduct.aspx?ItemId=117002656

 

빅데이터 기초

빅데이터를 매우 실무적 차원에서 접근한 도서이다. 기업에서 빅데이터에 왜 관심이 있는지, 어떠한 비즈니스 문제를 해결하는 데 도움이 되는지, 이를 위해 기업은 전략적, 전술적, 오퍼레이션

www.aladin.co.kr

 

1장. 빅데이터의 이해

개념과 용어

1. 데이터 세트

  • 관련 데이터의 모음이나 그룹

2. 데이터 분석 (Data Analysis)

  • 사실, 관계, 패턴, 인사이트, 트렌드를 찾기 위해 데이터를 검토하는 과정

3. 데이터 애널리틱스 (Data Analytics)

  • 데이터 분석을 포괄하는 더 광범위한 용어
  • 수집, 정리, 구성, 저장, 분석 및 데이터 관리를 포함하는 데이터 수명주기 전체를 관리하는 분야
  • 분석 방법, 과학적 기법 및 자동화 된 도구의 개발 포함
  • 대표적으로 4가지의 분석 범주가 있음
    1. 서술 (Descriptive) 분석 : 이미 발생한 사건에 대한 질문에 답하기 위해 수행
    2. 진단 (Diagnostic) 분석 : 사건의 원인에 초점을 둔 질문을 이용해 과거에 발생한 현상의 원인을 파악하는 것을 목표
    3. 예측 (Predictive) 분석 : 미래에 발생할 수 있는 사건의 결과 예측 (과거/현재 데이터의 패턴, 추세, 예외를 기분으로 이루어짐)
    4. 처방 (Prescriptive) 분석 : 예측 분석을 기반으로 어떤 조치를 취해야 할지 처방. '왜' 그 처방을 따라야 하는지가 핵심

4. 빅데이터 특성 : 5V

  1. 용량 (Volume)
  2. 속도 (Velocity)
  3. 다양성 (Variety) : 빅데이터 솔루션에서 지원해야 하는 여러 형식과 데이터 유형
  4. 정확성 (Veracity) : 데이터의 품질, 신뢰성
  5. 가치 (Value) : 기업에 대한 테이터의 유용성

5. 다양한 유형의 데이터

  1. 정형 데이터
    • 주로 테이블 형식으로 저장
    • 서로 다른 개체 간의 관계를 포착하는데 사용 >> 주로 관계형 데이터베이스에 저장
  2. 비정형 데이터
    • 데이터 모델, 데이터 스키마를 따르지 않는 데이터
    • 비디오, 이미지 파일, 오디오 등
  3. 반정형 데이터
    • 계층적이거나 그래프 기반
    • XML, JSON 파일 등
    • 일반적으로 텍스트가 포함된 파일에 저장 >> 텍스트적 특성 / 일부 수준의 구조 적합성으로 비정형 데이터보다 처리 쉬움
  4. 메타데이터
    • 데이터 세트의 특성 및 구조에 대한 정보 제공
    • 대부분 기계에서 생성되며 데이터에 추가 될 수 있다.
    • 문서 작성자 / 작성 날짜에 대한 정보를 제공하는 XML 태그, 디지털 사진의 파일 크기 / 해상도를 제공하는 속성 등

 

 

 

댓글