본문 바로가기
통계/통계_EXCEL.SPSS.R로 배우는 통계학 입문

[통계/기초] #5 이산형 확률변수

by yj-data 2025. 5. 8.
0. 이산형 vs 연속형
1. 확률변수
2. 이산형 확률분포
3. 평균과 표준편차
4. 이항분포
5. 포아송분포

 

0. 이산형(5장) vs 연속형(6장)

5~6장은 모집단에 대한 내용! 모집단을 추론하려면 모집단의 확률분포를 알거나 가정하여야 함.

이산형은 각 값을 셀 수 있으나(예, 주사위 눈), 연속형은 셀 수 없음(예, 키 - 170~175cm 사이에 수없이 많은 숫자가 있음)

이산형 확률분포에 해당하는 분포 종류: 균일분포, 베르누이분포, 이항분포, 다항분포, 음이항분포, 포아송분포 등.

1. 확률변수

정의: 확률 실험의 결과 또는 결과물에 대한 숫자적 표현.(예, 동전의 앞면이 나오면 0, 뒷면이 나오면 1이라 지칭)

=> ∴확률변수들은 X, Y 처럼 대문자로 표시하고, 확률변수가 취하게 되는 특정한 값은 x, y 처럼 소문자로 표기.

동전의 뒷면이 3번 나왔다해도, 3으로 지칭(번 떼고)하는 것이 확률변수이다. (단위가 있는 숫자 -> 단위 없는 숫자로 변경)


2. 이산형 확률분포

확률변수가 취할 수 있는 값에는 대응되는 확률이 있음.

=> 이산형 확률분포: 이산형 확률변수(X)에 대응되는 확률분포(혹은 확률질량함수, f(x))

       (= 확률변수 X가 값 x를 갖는 확률)


3. 평균과 표준편차

평균: 확률변수의 기대값 (E(X))

분산: 확률변수와 평균의 차이의 제곱의 기대값 ( E([X-E(X)]^2) )


4. 이항분포

베르누이 시행(이항분포의 근간)

  1. 각 시행은 성공과 실패로 표현될 수 있는 두가지 결과만을 갖는다.

  2. 각 시행에서 성공확률은 p, 실패확률은 1-p 이다.

 

이항분포의 정의

베르누이 시행을 독립적으로 n번 진행했을 때, 성공 횟수를 지칭하는 확률변수 X는 0, 1, 2, ... n을 취하는 이산형 확률변수이다. 이 확률변수의 확률분포를 이항분포라고 한다.

(예, 대선후보 지지율 조사, 신약에 대한 임상 실험)

 

확률질량함수: nCx * p^x * (1-p)^(n-x) (x=0,1,2,...,n)

이 확률질량함수를 갖는 X를 '모수가 (n, p)인 이항분포를 따른다'고 하며, X~B(n, p)로 표현함

 

E(X) = np, V(X) = np(1-p)

 

최빈값

  • (n+1)p가 정수인 경우: (n+1)p, (n+1)p-1 두개의 최빈값
  • (n+1)p가 정수가 아닌 경우: 소수점 자리를 버린 값

*np가 정수면 평균, 최빈값, 중앙값 모두 np, np가 정수가 아니면 중앙값은 np의 소수를 올림/내림 한 정수 값. 일반적으로 중앙값은 평균과 최빈값 사이에 존재함.


5. 포아송분포

  • 고정된 지역/시간/부피 등에서 관심있는 사건의 관찰수 / 발생 횟수 X를 표현할때 사용
  • 예, 어느 주말 일요일에 발생한 교통사고 사망자 수
  • 확률질량함수: f(x) = (λ^x * e^-λ) / x! (단, x= 0,1,..., λ >0)
  • λ =평균 = 분산
  • 이항분포(n,p)에서 n이 충분히 크고, p가 아주 작은 경우의 근사분포.