자격증/빅데이터분석기사
2과목 정리
tacoyaggi
2024. 9. 3. 19:27
표본 평균
주어진 데이터의 총합을 데이터의 개수로 나눈 값 => (2+4+6)/3 = 4
표본 분산
각 데이터와 표본평균 간의 차이를 제곱하여 모두 더한 후 (데이터의 개수-1)로 나눈 값
((2-4)^2 + (4-4)^2 + (6-4)^2) / 2 = 4
원-핫 인코딩
범주에 해당하는 인덱스만 1이고 나머지는 0인 벡터로 변환한다.
사과 : [1,0,0] , 바나나 : [0,1,0], 딸기 : [0,0,1]
차원
분석 데이터 종류
파생변수
기존 변수들을 기반으로 새로운 변수를 만드는 것
PCA
고차원 데이터를 저차원으로 변환하여 데이터의 구조를 더 잘 이해하고, 분석 및 시각화하기 쉽게 만드는 차원 축소 기법
연속형 변수
값 사이에 무한한 값을 가질 수 있는 것, 키,몸구게 등이 있다. 형액형은 4가지로 지정되어 있기 때문에 범주현 변수이다.