지도학습(Supervised Learning)
입력값이 주어질 때 정답이 무엇인지 알려주면서 컴퓨터를 학습시키는 방법이다. 대표적으로 분류(Classification)와 회귀(Regression)로 구분할 수 있다.
비지도학습(Unsupervised Leaining)
정답 없는 데이터를 컴퓨터 스스로 학습하여 숨겨진 의미, 패턴을 찾아내는 방법이다.
준지도학습(Semi-supervised Learning)
정답이 있는 데이터와 정답이 없는 데이터를 동시에 학습에 사용하는 기법이다.
강화학습(Reinforcement Leaning)
주어진 환경에서 보상을 최대화하도록 에이전트를 학습하는 기법이다.
회귀분석
특정 변수가 다른 변수에 어떤 영향을 미치는지를 수학적 모형으로 설명, 예측하는 기법으로 독립변수로 종속변수를 예측하는 기법이다.
선형회귀분석
종속변수 y와 독립변수 x의 상관성을 파악하는 회귀분석 기법이다.
단순 선형회귀분석
가장 단순한 분석으로 한 개의 종속변수 y와 한개의 독립변수 x로 두개의 변수 사이의 관계를 분석한다. y = ax + b 여기서 a는 회귀계수, b는 y절편이다.
다중 선형회귀분석
독립변수가 두개 이상이고 종속변수가 하나인 경우에 사용하는 기법이다.
로지스틱 회귀분석(Logistic Regression)
종속변수와 독립변수와의 관계를 예측하는 것은 선형회귀분석과 유사하나 종속변수가 연속형이 아닌 범주형으로 입력 데이터가 주어졌을 때 특정 분류로 결과가 나타나는 것이 다른 점이다.
단순 로지스틱 회귀분석
종속변수가 이항형 문제인 회귀분석이다.
다중 로지스틱 회귀분석
종속변수가 이항형 문제가 아닌 두개 이상의 범주를 가지게 될 경우의 회귀분석이다.
의사결정나무(Decision Tree)
의사결정 규칙을 나무 모양으로 나타내어 전체 자료를 몇 개의 소집단으로 분류하거나 예측을 수행하는 기법이다. 종류로는 분류나무, 회귀나무가 있다. 알고리즘으로는 CART, C4.5 / C5.0, CHAID, 랜덤 포레스트가 있다.
지니 지수
엔트로피 지수
등분산성
랜덤 포레스트(Random Forest)
부트스트래핑 기반 샘플링을 활용한 의사결정나무 생성 이후 배깅 기반 나무들을 모아 앙상블 학습하여 숲을 형성하게 되면 이를 랜덤 포레스트라고 한다.
앙상블 학습(Ensemble Learning)
여러 모델을 학습시켜 결합하는 방식의 학습방법으로 일반화 성능을 향상시켜 과적합을 해결할 수 있다.
부트스트래핑
배깅(Begging)
부스팅(Boosting)
라쏘(Lasso)
릿지(Ridege)
딥러닝
종류로는 CNN, RNN, LSTM, 오토인코터(Auto encoder), GAN이 있다.
SVM(Support Vector Machine)
유클리드 거리(Enclidean Distance)
맨해튼 거리(Manhattan Distance)
민코프스키 거리(Minkowski Distance)
마할라노비스 거리(Mahalanobis Distance)
자카드 거리(Jaccard Distance)
k-평균
'자격증 > 빅데이터분석기사' 카테고리의 다른 글
빅데이터 결과 해석 / 분석모형 평가 및 개선 / 분석모형 평가 (0) | 2024.08.29 |
---|---|
빅데이터 모델링 / 분석 기법 적용 / 고급 분석기법 (0) | 2024.08.28 |
빅데이터 모델링 / 분석 모형 설계 / 분석 환경 구축 (0) | 2024.08.27 |
빅데이터 모델링 / 분석 모형 설계 / 분석 절차 수립 (0) | 2024.08.27 |
빅데이터 탐색 / 통계기법의 이해 / 추론통계 (0) | 2024.08.27 |