필기 / 목차 분석
Part1 빅데이터 분석 기획
1. 빅데이터 이해
- ETL, 가트너 3V, 데이터사이언티스트, 데이터 웨어하우스, 빅데이터 가치, 마이데이터, 데이터 분석 조직구조
- 딥러닝, 분석 5단계, 지도학습, 비식별화, 개인정보보호법, 데이터 거버넌스, 하둡, GDPR, API 게이트웨이, 스파크, 전이학습
2. 데이터 분석 계획
- EDA, 데이터 분석 기획, 절차, 접근 방법, 모델링, 진단분석, 분석 성숙도, 시급성, 메타 데이터
- 이상값, 데이터 수집, 분석 단계, 프로젝트 관리
3. 데이터 수집 및 저장 계획
- 정형 데이터 품질 보증, 민감 정보, 데이터 품질, 비식별 조치
- NoSQL, HDFS, 제타바이트, 저장 시스템
Part2 빅데이터 탐색
1. 데이터 전처리
- 데이터 정제, 이상치 판단
- 변수 선택, 파생 변수 생성, 학습데이터 불균형, 차원의 저주, 군집 불균형, 차원 축소, 변수 변환
2. 데이터 탐색
- 박스플롯, 산점도, 상관계수, median, 표본 추출, 왜도, 기초통계량, 이상치
- 주성분분석, 비정형데이터, 요인분석, 텍스트 마이닝
3. 통계기법 이해
- 전수조사, 불량률, 확률 계산, 확률분포, 포아송분포, 중심극한정리, 군집추출, 층화추출, 카이제곱, 확률밀도함수
- 최대우도, Z 계산, 점추정, 1종/2종 오류, 유의수준, 표본분산
part3 빅데이터 모델링
1. 분석 모형 설계
- 모델링 절차, 분석 시나리오, k-fold 검정, 데이터 분할
2. 분석기법 적용
- 변수 선택, 인공신경망, 합성곱 계층, 잔차진단, SVM, LASSO, 로지스틱 회귀, 양상블, 비지도학습, 지도학습-분류, 군집분석, 회귀분석, 활성화함수, 의사결정나무, DNN, CNN, RNN, 초매개변수
- 자료 분석, 다차원 척도, 베이즈 정리, 시계열 자료, 자기상관, 비정형 데이터 형태, 랜덤 포레스트, 비모수적 통계 검정법, 배깅, 부스팅, ARIMA
part4 빅데이터 결과 해석
1. 분석 모형 평가 및 개선
- 평향, 분산, 혼동 행렬, ROC, F1 score, 적합도 검정, 민감도, 특이도, 모형 진단, 잔차 진단, 정규성 가정, 홀드아웃, 초매개변수, 모형 선택, 매개변수 최적화, 가중치 감소
2. 분석결과 해석 및 활용
- MAE, MAPE, 선형회귀, ROC, 지지도, 신뢰도, 실루엣, 산점도, 막대그래프, 불균형 데이터셋, 인포그래픽, 버블차트, 카토그램, 히스토그램, 스타차트, 모델링 타입, 분석결과의 활용, 성과지표, 분석모형 전개
합격 조건
80문항 중 60점 이상 맞으면 합격, 과목당 40점 이하면 과락