대표값이란
주어진 데이터를 대표하는 특정 값
데이터를 하나의 값으로 요약한 지표
ex) 평균값, 중앙값, 최빈값 등
평균값(mean,average)
# pandas 평균 구하는 두가지 방법
sum(df['age'])/len(df['age'])
df['age'].mean()
# numpy 평균 구하는 법
np.mean(df['age'])
중앙값(median)
데이터를 크기 순서대로 나열하였을 때, 정확하게 중앙에 위치한 값
※짝수일 때와 홀 수 일때 계산 방법이 다름
짝수일 경우 중앙에 가까운 두개 수를 평균낸 값을 중앙값으로 함
ex) 데이터 개수 n, 홀수라면 (n+1)/2번째 데이터가 중앙값
홀수일 경우 중앙에 있는 값을 중앙값으로 함
ex) 데이터 개수 n, 짝수라면 n/2,(n/2)+1 번째 데이터의 평균이 중앙값
# pandas 계산법
df['age'].medain()
# numpy 계산법
np.medain(df['age'])
최빈값
데이터에서 가장 많이 나나타는 값
# pandas
df['age'].mode()
# numpy
계산불가
'python' 카테고리의 다른 글
Polars 라이브러리 문법 정리 [1] (0) | 2023.08.22 |
---|---|
벡터와 벡터 유사성측정 (0) | 2022.05.14 |
[통계학] 3. 공분산과 상관계수 및 시각화 (0) | 2022.05.14 |
[통계학] 4. 확률 및 통계 (0) | 2022.05.14 |
[통계학] 1. 산포도 (분산, 표준편차, 사분위) (0) | 2022.05.11 |