1과목 정리
사분면 분석
정착형(준비도 낮음, 성숙도 높음)
확산형(준비도 높음, 성숙도 높음)
준비형(준비도 낮음, 성숙도 낮음)
도입형 (준비도 높음, 성숙도 낮음)
분석 준비도
분석 업무, 분석 인력 및 조직, 분석 기법, 분석 데이터, 분석 문화, 분석 인프라 6가지 영역으로 구성
거버넌스 구성요소
원칙, 조직, 프로세스
분석 마스터 플랜
과제의 목적이나 목표에 따라 전체적인 방향성을 제시하는 기본계획
데이터 분석 조직
집중형 : 전사 분석 업무를 별도의 전담조직에서 수행하는 조직
기능형 : 각 현업 부서에서 분석 업무를 직접 수행한다.
분산형 : 분석 전문 인력을 현업 부서에 배치하여 분석 업무를 수행한다.
ETL
OLAP
Hadoop
Data Mart
EDA
다양한 방법으로 데이터를 관찰하고 이해하는 과정
PCA
EDA방법 중 하나로, 이상치를 발견하기 위한 방법
빅데이터 플랫폼 등장배경
비즈니스 요구사항 변화, 데이터 규모와 처리 복잡도 증가, 데이터 구조의 변화와 신속성 요구, 데이터 분석 유연성 증대
빅데이터 플랫폼 계층
소프트웨어 계층 -> 플랫폼 계층 -> 인프라스트럭쳐 계층
빅데이터 처리과정
생성 : 내부 데이터, 외부 데이터
수집 : 크롤링, ETL, Open API
저장 : DBMS, NoSQL
처리 : 하둡, 맵리듀스
분석 : 데이터 마이닝, 머신러닝
시각화
애노테이션
데이터 주석 작업으로 무엇을 학습해야 하는지 알려주는 표식 작업
개인정보
살아 있는 개인에 대한 정보로서 개인을 알아볼 수 있는 정보
개인정보 비식별화 조치방법
가명처리, 총계처리, 데이터삭제, 데이터 범주화, 데이터 마스킹
개인정보 데이터 위기 요인
사생활 침해, 책임원칙 훼손, 데이터 오용
개인정보 데이터 위기 요인 해결방법
동의에서 책임, 결과 기반 책임 원칙, 알고리즘 접근 허용