0. 이산형 vs 연속형
1. 확률변수
2. 이산형 확률분포
3. 평균과 표준편차
4. 이항분포
5. 포아송분포
0. 이산형(5장) vs 연속형(6장)
5~6장은 모집단에 대한 내용! 모집단을 추론하려면 모집단의 확률분포를 알거나 가정하여야 함.
이산형은 각 값을 셀 수 있으나(예, 주사위 눈), 연속형은 셀 수 없음(예, 키 - 170~175cm 사이에 수없이 많은 숫자가 있음)
이산형 확률분포에 해당하는 분포 종류: 균일분포, 베르누이분포, 이항분포, 다항분포, 음이항분포, 포아송분포 등.
1. 확률변수
정의: 확률 실험의 결과 또는 결과물에 대한 숫자적 표현.(예, 동전의 앞면이 나오면 0, 뒷면이 나오면 1이라 지칭)
=> ∴확률변수들은 X, Y 처럼 대문자로 표시하고, 확률변수가 취하게 되는 특정한 값은 x, y 처럼 소문자로 표기.
동전의 뒷면이 3번 나왔다해도, 3으로 지칭(번 떼고)하는 것이 확률변수이다. (단위가 있는 숫자 -> 단위 없는 숫자로 변경)
2. 이산형 확률분포
확률변수가 취할 수 있는 값에는 대응되는 확률이 있음.
=> 이산형 확률분포: 이산형 확률변수(X)에 대응되는 확률분포(혹은 확률질량함수, f(x))
(= 확률변수 X가 값 x를 갖는 확률)
3. 평균과 표준편차
평균: 확률변수의 기대값 (E(X))
분산: 확률변수와 평균의 차이의 제곱의 기대값 ( E([X-E(X)]^2) )
4. 이항분포
베르누이 시행(이항분포의 근간)
1. 각 시행은 성공과 실패로 표현될 수 있는 두가지 결과만을 갖는다.
2. 각 시행에서 성공확률은 p, 실패확률은 1-p 이다.
이항분포의 정의
베르누이 시행을 독립적으로 n번 진행했을 때, 성공 횟수를 지칭하는 확률변수 X는 0, 1, 2, ... n을 취하는 이산형 확률변수이다. 이 확률변수의 확률분포를 이항분포라고 한다.
(예, 대선후보 지지율 조사, 신약에 대한 임상 실험)
확률질량함수: nCx * p^x * (1-p)^(n-x) (x=0,1,2,...,n)
이 확률질량함수를 갖는 X를 '모수가 (n, p)인 이항분포를 따른다'고 하며, X~B(n, p)로 표현함
E(X) = np, V(X) = np(1-p)
최빈값
- (n+1)p가 정수인 경우: (n+1)p, (n+1)p-1 두개의 최빈값
- (n+1)p가 정수가 아닌 경우: 소수점 자리를 버린 값
*np가 정수면 평균, 최빈값, 중앙값 모두 np, np가 정수가 아니면 중앙값은 np의 소수를 올림/내림 한 정수 값. 일반적으로 중앙값은 평균과 최빈값 사이에 존재함.
5. 포아송분포
- 고정된 지역/시간/부피 등에서 관심있는 사건의 관찰수 / 발생 횟수 X를 표현할때 사용
- 예, 어느 주말 일요일에 발생한 교통사고 사망자 수
- 확률질량함수: f(x) = (λ^x * e^-λ) / x! (단, x= 0,1,..., λ >0)
- λ =평균 = 분산
- 이항분포(n,p)에서 n이 충분히 크고, p가 아주 작은 경우의 근사분포.
'통계 > 통계_EXCEL.SPSS.R로 배우는 통계학 입문' 카테고리의 다른 글
[통계/기초] #7 표본추출과 표집분포형 (2) | 2025.05.09 |
---|---|
[통계/기초] #6 연속형 확률변수 (0) | 2025.05.09 |
[통계/기초] #4 확률 (0) | 2025.05.07 |
[통계/기초] #3 수치 기술통계 (0) | 2025.05.07 |
[통계/기초] #2 기술통계 (2) | 2025.05.02 |