빅데이터 분석 기사 자료
4-2 분산 컴퓨팅 환경 소프트웨어 구성요소
parkjoohye
2021. 3. 10. 18:02
1. 분산 컴퓨팅 환경 소프트웨어
- 맵리듀스 " key -value 형태의 mapping, 통합하여 처리하는 Shuffling, 맵 처리된 데이터를 정리하는 reducing
- 얀 : 하둡의 맵리듀스 처리부분을 새롭게 만든 자원 관리 플랫폼, 리소스 매니저와 노드 매니저로 구성
리소스 매니저 : 스케줄러 역할, 클러스터 이용률 최적화
노드 매니저 : 노드 내의 자원을 관리, 리소스 매니저에게 전달 수행, 컨테이너 관리
애플리케이션 마스터 : 컨테이너 실행
컨테이너 : 격리 환경을 지원하는 가상화 자원
- 아파치 스파크 : 하둡 기반 데이터 분산 처리 시스템, 실시간 데이터 처리, 파이썬,R 등에 사용 가능
- 하둡 분산 파일 시스템(HDFS) : Hadoop distributed file system, 네임 노드(파일 이름, 권한 등의 속성 기록)와 데이터 노드(일정한 크기로 나눈 블록 형태로 저장)
- 아파치 하둡 : 하둡 분산 파일 시스템과 맵리듀스를 중심으로 다양한 프로그램으로 구성된 에코 시스템, 클라우드 플랫폼 위에서 클러스트를 구성해 데이터 분석 ex) Spark, Hive, YARN, Cassandra, Pig