2과목 정리

tacoyaggi ㅣ 2024. 9. 3. 19:27

표본 평균

주어진 데이터의 총합을 데이터의 개수로 나눈 값 => (2+4+6)/3 = 4

 

표본 분산

각 데이터와 표본평균 간의 차이를 제곱하여 모두 더한 후 (데이터의 개수-1)로 나눈 값

((2-4)^2 + (4-4)^2 + (6-4)^2) / 2 = 4

 

원-핫 인코딩

범주에 해당하는 인덱스만 1이고 나머지는 0인 벡터로 변환한다. 

사과 : [1,0,0] , 바나나 : [0,1,0], 딸기 : [0,0,1]

 

차원

분석 데이터 종류

 

파생변수

기존 변수들을 기반으로 새로운 변수를 만드는 것

 

PCA

고차원 데이터를 저차원으로 변환하여 데이터의 구조를 더 잘 이해하고, 분석 및 시각화하기 쉽게 만드는 차원 축소 기법

 

연속형 변수

값 사이에 무한한 값을 가질 수 있는 것, 키,몸구게 등이 있다. 형액형은 4가지로 지정되어 있기 때문에 범주현 변수이다.