python

[통계학] 4. 확률 및 통계

jinsuc28 2022. 5. 14. 01:36

※ 인공지능 회귀분석 강의 통계와 확률을 바탕으로 정리하였습니다.

통계 큰 흐름 두가지

1. 추측 통계 

일부 데이터로부터 전체의 통계적 성질을 추측하는 방식

관측 대상 전체의 통계쩍 성질을, 그 관측 대상의 일부분만 사용하여 추측

ex) 표본을 뽑고 표본으로 모집단의 성질(평균, 분산 등등)을 추측하는 것

 

2. 기술통계

전체 데이터의 통계 지표를 계산하는 방식

ex) 모집단을 가지고 모집단의 성질()을 계산하는 방식

 

통계 및 확률 용어 정리

모집단(population)

추측하고 싶은 관측 대상 전체

-모수 : 모집단의 평균(모평균),분산(모분산), 상관계수 등과 같은 모집단의 통계지표

 

표본(sample)

추측에 사용되는 모집단의 일부분

표본 추출(sampling): 모집단에서 표본을 골라내는 일

표본 크기(sample size): 골라낸 표본의 수

표본통계량: 표본을 마탕으로 계산한 평균(표본평균), 분산(표본분산) 등등

 

추정량(estimator)

표본평균으로 모평균을 추측할 때 이를 추정량이라고 한다.

ex) 모수를 추정하는 공식을 나타내는 '표본통계량'을 추정량이라고 함

위 처럼 특정 값이 아니라 공식을 추정량이라고 말한다.

 

추정치,추정값(estimate)

실제 표본의 데이터 값들을 이용하여 계산한 결과

ex) 전국 토익 수험생 모평균의 추정량으로 표본평균(표본들을 뽑고, 평균 낸 점수)을 선택하였으며

그 추정값(표본 평균)이 80점이었다.

 

표본 추출 방법

1. 무작위 추출(random sampling)

편향된 표본을 추출하지 않기 위하여 랜덤으로 추출하는 것

※ 무작위 추출 또한 편향될 수 있기 때문에 확률이 나옴

 

1-1 무작위 추출 방법 두가지

무작위 추출시, 같은 표본을 여러번 뽑을 가능성이 존재

ex) 주사위 표본을 뽑는데 {1,1,1,1,1,1} 이렇게 나올 수도

 

1) 복원 추출(sampling with replacement)

여러 차례 동일한 표본을 선택하는 것을 허용하는 추출 방법

 

2) 비복원 추출(sampling without replacement)

동일한 표본을 한번만 선택하는 추출 방법

넘파이로 무작위 표본 추출 법

np.random.choice([1,2,3], replace=False)
#replace False로 설정하면 비복원 추출


np.random.seed(42)
np.random.choice
#랜덤시드를 설정으로 동일한 난수(무작위 추출된 값)를 얻을 수 있다.

무작위 추출의 문제점

임의로 표본을 선택하는 것이므로, 추출 후 어떤 결과 나올 지 예측 불가

 

확률(Probability)

무작위 추출의 불확정성을 수반한 현상을 해석하기 위한 개념

무작위 추출을 상용하지만 이 결과를 해석하기 위해 나옴

 

확률 변수(Random Variable)

표본 공간의 각 단위 사건실수 값을 부여하는 변수이다

즉, 표본공간에서 부분집합(사건)실수 값으로 표현한 변수이다.

  • 실험(Experiment)은 하나의 행위가 하나 이상의 결과를 도출하는 것에 대한 과정 혹은 절차를 나타낸다.
    • 예시) 주사위를 던진다.
  • 결과(Outcome)는 어떤 실험에 의해 발생 가능한 결과이다. 특정 실험의 가능한 결과들은 각각 유일(unique)하다. 한번의 실험을 시행했을 때, 단 하나의 outcome만을 나타낸다.
    • 예시) 주사위의 눈 (ex. 3, 4, 6)
  • 표본 공간(Sample space)은 확률 실험에서 발생할 수 있는 모든 결과로 구성된 집합(set)이다. 발생할 수 있는 모든 결과의 집합이므로, 중복된 원소를 가질 수 있다.
    • 예시) 가능한 주사위의 모든 눈 집합 (ex. Ω = {1, 2, 3, 4, 5, 6})
  • 사건(Event)은 우리가 관심있는 Sample space의 부분집합이다.
    • 예시) 주사위 눈이 3이 나온다, 짝수/홀수가 나온다.

※ 출처 https://boostdevs.gitbook.io/ai-tech-interview/interview/1-statistics-math#3

  • 시행(Trial): 실제 경험을 통해 확률변수의 결과를 관측하는 것
  • 실현값(Realization): 시행의 의해 관측되는 값
  • 근원사건(Elementary Event): "눈이1"처럼 더이상 세부적으로 분해할 수 없는 사건

확률분포(Probability Distribution)

확률변수가 어떤 값과 확률로 움직이는지를 표현한 것

ex)

주사위 눈 1 2 3 4 5 6
확률 1/6 1/6 1/6 1/6 1/6 1/6

 

추정과 검정

추정

모수를 추측하는 것

점추정: 하나의 값으로 추정하는 것

ex) 모평균을 60점이라고 하나의 값으로 추정하는 것

 

구간추정: 구간으로 추정하는 것

ex) 모평균을 60~70점이라고 범위를 가지고 추정하는 것

 

검정

모집단의 통계적 성질에 대해 가설을 세우고,

그 가설이 옳은지 여부를 판단하는 기법