카테고리 없음
데이터 전처리
parkjoohye
2021. 3. 11. 17:58
데이터 정제
1. 데이터 전처리의 중요성
- 결과에 굉장한 영향을 끼침
- 데이터 분석 중 데이터 수집과 전처리 부분에 많은 시간 소요
- 데이터 전처리 : 데이터 정제 --> 결측값 처리 --> 이상값 처리 --> 분석 변수 처리
2. 데이터 정제의 개념
- 결측값을 채우거나 이상값을 제거하는 과정
3. 데이터 정제 절차
- 오류 원인 분석 : 결측값(누락), 노이즈(오입력), 이상값(아웃라이어)
- 정제 대상 선정 : 모든 데이터를 대상으로 정제 활동, 내부 < 외부 데이터 , 정형 데이터 < 비정형 및 반정형 데이터
- 정제 방법 선정 : 정제 규칙 활용하여 위반하는 데이터 검색, 데이터 특성에 맞는 정제 규칙 수립 ex) 삭제, 대체, 예측값 삽입
4. 데이터 정제 기술
- 데이터 일관성 유지를 위한 정제 기법 : 변환, 파싱, 보강
- 변환 : 다양한 형태의 정보 --> 일관된 형태로 변환
- 파싱 : 유의미한 최소 단위로 분할하는 작업
- 보강 : 변환, 파싱 등을 진행하며 추가적인 정보를 반영하는 작업
- 데이터 정제 기술 : ETL, 맵리듀스, 스파크/스톰, CEP, 피크, 플럼
5. 데이터 세분화