본문 바로가기

빅데이터 분석 기사 자료

1. 빅데이터의 이해

1. 빅데이터란?

- 정형 및 비정형 데이터(테라바이트-10^12 bytes 단위)

- 가치 추출 및 결과 분석

- DIKW(Data, Information, Knowledge, Wisdom) - 데이터에서 가치를 찾는 피라미드 구조

 

*DIKW

- Data : 객관적 사실, 다른 데이터와 상관관계가 없는 가공전의 순수 수치나 기호

- Information : 가공, 처리 후 데이터 간의 연관 관계가 함께 도출된 데이터

- Knowledge : 구조화, 분류, 일반화시킨 결과물,규칙 

- Wisdom : 도출되었던 결과물, 규칙을 적용하는 요소

 

2. 빅데이터의 특징?

- 3V(volume, variety, velocity) --> 5V(veracity,value) --> 7V(validity,volatility)

- volume : 데이터의 양, 규모의 증가

- variety : 데이터의 자원 유형의 다양성 증가, 비정형, 정형, 반정형 등..

- velocity : 수집,분석,활용의 가속화 필요 

- veracity(신뢰성) : 노이즈 제거 및 오류 제거를 통한 데이터 신뢰성 증가 

- value : 데이터를 통해 얻을 수 있는 가치

- validity(정확성) : 데이터의 타당성, 중요성 --> 의사결정의 중요한 요소 

- volatility(휘발성) : 수집 데이터의 수명, 의미 있는 기간

 

3. 빅데이터의 유형?

- 정형, 반정형, 비정형

- 정형 : 정형화된 스키마 구조, DBMS에 저장 가능 구조, 관계형 데이타베이스 ex) 오라클, MS-SQL

- 반정형 : 메타 정보가 포함된 구조, 고정된 필드는 없음, 스키마 정보를 포함하는 데이터 ex) XML, HTML, JSON

- 비정형 : 데이터 객체로 구분, 고정 필드와 스키마가 정의되지 않음, Crawler, API, RSS등의 수집 기술 활용 ex) 이미지, 동영상...

 

4. 데이터 지식경영 

- 암묵지와 형식지의 상호작용

- 암묵지 : 공유되기 어려움, 겉으로 드러나지 않지만 학습과 경험을 통해 개인들이 공통적으로 아는 지식

- 형식지 : 문서나 메뉴얼처럼 형상화된 지식, 전달과 공유에 용이

 

5. 데이터 지식경영 상호작용 : 내면화, 공통화, 표출화, 연결화

- 내면화 : 형식지가 개인의 암묵지로 체화되는 단계 

- 공통화 : 다른 사람과의 상호작용을 통해 개인이 암묵지를 습득하는 단계

- 표출화 : 암묵지를 객관적인 데이터나 문서화하여 형식지로 표출하는 단계

- 연결화 : 형식지가 상호결합하면서 새로운 형식지를 창출하는 단계

- 암묵지 : 공통화, 내면화

- 형식지 : 표출화, 연결화