자격증/빅데이터분석기사
빅데이터분석기획/빅데이터이해/빅데이터 기술 및 제도
tacoyaggi
2024. 8. 14. 12:56
빅데이터 플랫폼 구조
소프트웨어 계층 : 데이터 처리 및 분석과 데이터 수집, 정제한다.
플랫폼 계층 : 작업 스케줄링이나 데이터 및 자원 할당과 관리한다.
인프라스트럭처 계층 : 노드 및 네트워크를 통해 빅데이터 처리와 분석에 필요한 자원을 제공한다.
빅데이터 처리 과정
생성 -> 수집 -> 저장 -> 처리 -> 분석 -> 시각화
ETL(Extract Transform Load) 프로세스
데이터 추출 -> 가공 -> 적재 구성되어 있고 다양한 유형의 데이터를 취합하여 공통된 형식으로 변환하여 적재하는 과정을 의미한다.
맵리듀스(MapReduce)
구글에서 개발한 프로그래밍 모델로 효과적인 병렬 및 분산 처리를 지원한다. 빅데이터 처리 과정에서 처리 단계에 주로 사용 된다.
마이닝
데이터로부터 통계적인 의미가 있는 개념이나 특성을 추출하고 패턴 정보를 끌어내는 과정이다.
애노테이션(Anotation)
개인정보 비식별화 조치방법
가명처리, 총계 처리, 데이터삭제, 데이터 범주화, 데이터 마스킹
<오답노트>
맵리듀스 데이터 처리과정
데이터 분할 - 맵 처리 - 셔플 - 리듀스
빅데이터 플랫폼 등장배경
비즈니스 요구사항 변화, 데이터 처리 복잡도 증가, 데이터 규모 증가, 데이터 구조 변화, 데이터 분석 유연성 증대, 데이터 처리 신속성 요구
딥러닝 분석기법
CNN, RNN, LSTM, Auto-encoder
애노테이션
딥러닝 같은 학습 알고리즘이 무엇을 학습하여야 하는지 알려주는 표준 작업이다.