본문 바로가기

전체 글

4-2 분산 컴퓨팅 환경 소프트웨어 구성요소 1. 분산 컴퓨팅 환경 소프트웨어 - 맵리듀스 " key -value 형태의 mapping, 통합하여 처리하는 Shuffling, 맵 처리된 데이터를 정리하는 reducing - 얀 : 하둡의 맵리듀스 처리부분을 새롭게 만든 자원 관리 플랫폼, 리소스 매니저와 노드 매니저로 구성 리소스 매니저 : 스케줄러 역할, 클러스터 이용률 최적화 노드 매니저 : 노드 내의 자원을 관리, 리소스 매니저에게 전달 수행, 컨테이너 관리 애플리케이션 마스터 : 컨테이너 실행 컨테이너 : 격리 환경을 지원하는 가상화 자원 - 아파치 스파크 : 하둡 기반 데이터 분산 처리 시스템, 실시간 데이터 처리, 파이썬,R 등에 사용 가능 - 하둡 분산 파일 시스템(HDFS) : Hadoop distributed file system,.. 더보기
4-2 분산 컴퓨팅 환경 소프트웨어 구성요소 1. 분산 컴퓨팅 환경 소프트웨어 - 맵리듀스 " key -value 형태의 mapping, 통합하여 처리하는 Shuffling, 맵 처리된 데이터를 정리하는 reducing - 얀 : 하둡의 맵리듀스 처리부분을 새롭게 만든 자원 관리 플랫폼, 리소스 매니저와 노드 매니저로 구성 리소스 매니저 : 스케줄러 역할, 클러스터 이용률 최적화 노드 매니저 : 노드 내의 자원을 관리, 리소스 매니저에게 전달 수행, 컨테이너 관리 애플리케이션 마스터 : 컨테이너 실행 컨테이너 : 격리 환경을 지원하는 가상화 자원 - 아파치 스파크 : 하둡 기반 데이터 분산 처리 시스템, 실시간 데이터 처리, 파이썬,R 등에 사용 가능 - 하둡 분산 파일 시스템(HDFS) : Hadoop distributed file system,.. 더보기
6. 개인정보 활용 1. 개인정보 비식별화 개념 - 데이터의 일부 또는 전체를 삭제하거나 대체함으로써 비식별화 시킴 - 절차 : 사전검토(개인정보인지 아닌지 확인) --> 비식별 조치 --> 적성성 평가 --> 사후관리 2. 개인정보 비식별 조치 방법 - 가명처리, 총계처리(통계적 기법을 활용하여 대체), 데이터 삭제, 데이터 범주화(수치를 구간화하여 표시), 데이터 마스킹(다른 기호로 대체) 3. 재식별 가능성 모니터링 - 정기적 모니터링의 필요성 - 재식별 가능 모니터링 점검 항목 : 내부 요인의 변화, 외부 환경의 변화 더보기
5. 개인정보보호법제도 1. 개인정보보호의 개념 - 개인정보보호는 정보 주체의 개인정보 자기 결정권을 철저히 보장하는 것을 의미 - 개인정보 자기 결정권 - 개인정보보호의 필요성 : 1) 유출 시 피해 심각, 2) 정보사회 핵심 인프라, 3) 개인정보 자기 통제권 2. 빅데이터 개인정보 가이드라인 - 개인정보 비식별화 - 개인정보 재식별시 조치 - 민감정보 처리 : 통신내용 - 투명성 확보 : 공개, 개인정보 취급방침, 수집 출처 고지 - 수집정보의 보호조치 3. 개인정보보호 관련 법령 - 법령 : 시행령, 시행 규칙 - 개인정보 보호법, 정보통신망법, 신용정보법, 위치정보법, ㅐ인정보의 안전성 확보조치 기준 - 주요 3법 : 개인정보 보호법, 정보통신망법, 신용정보법 4. 개인정보보호 내규 - 정보보호 업무처리 지침 : 행정.. 더보기
4. 빅데이터 플랫폼 1. 빅데이터 플랫폼 개념 - 과정 : 수집 --> 저장 --> 처리 --> 분석 --> 시각화 - 구성요소 : 수집, 저장, 분석, 활용 - 데이터 수집 : 원천 데이터의 정형/반정형/비정형 데이터 수집 ex) 크롤러, EAI(기업에서 운영하는 서로 다른 어필 및 시스템을 통합하는 솔루션), ETL - 데이터 저장 : 원천 데이터의 정형/반정형/비정형 데이터 저장 ex) RDBMS,NOSQL - 데이터 분석 : 텍스트 부석, 머신러닝, 통계, 데이터 마이닝 - 데이터 활용 : 데이터 가시화 및 BI, OPEN API 연계 ex) 히스토그램, 인포그래픽 2. 빅데이터 플랫폼 데이터 형식 - HTML,XML,JSON,CSV - HTML : HyperText Markup Language, 웹페이지를 만들 때.. 더보기
3. 빅데이터 조직 및 인력 1. 빅데이터 업무 프로세스 - 빅데이터 도입 --> 구축 --> 운영 2. 조직 설계의 절차 - 경영 전력 및 사업 전력 수림 - 전체 조직 구조 설계 - 핵심 업무 프로세스 검토 - 팀 조직 구조 설꼐 - 핵심 인력 선발 - 역할과 책임 할당 - 성과 측정 기준 수립 - 역량 교육 및 훈련 3. 조직 구조 설계의 요소 - 업무 활동, 부서화, 보고 체계 4. 조직 구조 유형 - 집중 구조, 기능 구조, 분산 구조 - DSCOE, 데이터 사이언스 전문가 조직 - 조직 구조 설계 특성 : 공식화, 분업화, 직무 전문화, 통제 범위, 의사소통 및 조정 5. 조직 역량 - 하드 스킬과 소프트 스킬 - 하드 스킬 : 빅데이터 관련 이론적 지식, 분석 기술의 숙련도 - 소프트 스킬 : 전달력, 설득력, 협업능력.. 더보기
2. 빅데이터의 가치 1. 빅데이터의 가치 - 경제적 자산 : 사회 및 경제 발전의 엔진 역할 - 불확실성 제거 : 여러 가능성에 대한 시나리오 시뮬레이션 - 리스크 감소 : 패턴분석 --> 위험 징후 및 이상 신호 포착, 사전 인지 및 분석 - 스마트한 경쟁력 : 상황인지, 인공지능 서비스 가능, 개인화, 지능화 서비스 제공 확대, 제품 경쟁력 확대 - 타 분야 융합 : 새로운 가치, 융향시장 창출 2. 빅데이터 가치 산정이 어려운 이유 - 데이터 활용 방식의 다양화 - 새로운 가치 창출 - 분석기술의 급속한 발전 3. 빅데이터의 영향 - 기업: 경쟁력, 제품 차별화, 생산성 향상 - 정부: 환경 탐색, 상황 분석, 미래 대응 가능 - 개인: 용의해진 서비스 활용 4. 빅데이터의 위기 요인 - 사생활 침해, 책임 원칙 훼손.. 더보기
1. 빅데이터의 이해 1. 빅데이터란? - 정형 및 비정형 데이터(테라바이트-10^12 bytes 단위) - 가치 추출 및 결과 분석 - DIKW(Data, Information, Knowledge, Wisdom) - 데이터에서 가치를 찾는 피라미드 구조 *DIKW - Data : 객관적 사실, 다른 데이터와 상관관계가 없는 가공전의 순수 수치나 기호 - Information : 가공, 처리 후 데이터 간의 연관 관계가 함께 도출된 데이터 - Knowledge : 구조화, 분류, 일반화시킨 결과물,규칙 - Wisdom : 도출되었던 결과물, 규칙을 적용하는 요소 2. 빅데이터의 특징? - 3V(volume, variety, velocity) --> 5V(veracity,value) --> 7V(validity,volatili.. 더보기