Studying/Statistics

[통계학 기초/001] 모집단 · 표본 · 표본추출 · 가중치 알아보기

gracie day 2025. 8. 22. 16:20
반응형

1. 통계학이란?

1.1 정의

내가 관심있거나 연구의 대상인 모집단의 특성을 파악하는 원리와 방법을 제공하는 학문이다.

 

 

1.2 기본절차

 

1) 모집단1의 일부 자료(표본) 수집

2) 수집된 표본을 정리/요약/분석하여 표본의 특성 파악

3) 표본의 특성을 활용해 모집단2의 특성에 대해 추론

 

 

1.3 모집단(population)이란?

연구대상이 되는 모든 개체의 집단을 말한다.

 

이런 모집단 전체를 대상으로 조사하는 것을 전수조사라고 하며,

예를들어 2010년까지는 총 인구에 대한 인구주태총조사를 실시했었다.

 

하지만, 대부분의 모집단은 너무 커서 조사하기에 어려움을 겪기 때문에, 여기서 일부 자료를 추출해 조사한다.

이를 표본이라 한다.

 

 

1.4 표본(sample)이란?

모집단의로 선택된 일부의 개체를 말한다.

 

우리는 표본을 수집할 때 고려해야할 사항이 있다.

 

1) 추출된 표본이 모집단을 대표할 수 있는가?

2) 몇 명(개)의 표본을 어떻게 뽑아야 하는가?

 

를 만족해야한다.


2. 표본추출 방법

2.1 표본추출방법

1) 확률표본추출 (probability sampling)

- 모집단을 구성하는 모든 추출단위에 대해 표본으로 추출될 확률을 알 수 있는 추출법이다 → 표본추출틀이 필요하다

   ex. 모집단 { 1,2,3,4,5 } → 2개의 표본을 뽑는다고하면, 어떤 개체가 표본을 뽑힐 확률은 2/5이다.

- 추출방법 : 단순확률추출(단순무작위추출), 계통추출, 집락추출, 층화추출 등 (**2.3에서 구체적으로 다룰 예정)

 

2) 비확률표본추출 (non-probability sampling)

- 특정 표본이 선정될 확률을 알 수 없기 때문에, 추론결과의 정확도를 알 수가 없다.

- 추출방법

   ① 편의추출 : 자발적 참여, 야외 설문조사, 포털사이트 인터넷 조사

   ② 유의추출 : 전문가 대상 조사

   ③ 할당추출 : 그룹 내 조사대상을 선택하여 조사 (랜덤화 과정이 없음)

 

 

2.2 모집단 분류

1) 목표모집단(target population)

관심대상이 되는 모든 기본단위들의 집단으로, 일반적으로 생각하는 모집단과 같은 의미를 가진다.

ex. 수도권 거주 고등학생 학부모 대상 조사

 

2) 조사모집단(survey population)

현실적인 제약을 고려하여, 표본추출 대상 기본단위들의 집단이다. 

ex. 전화여론조사

 

 

2.3 확률 표본추출 방법**

1) 단순확률추출(Simple Random Sampling, SRS)

크기가 N인 모집단에서 크기 n인 표본을 무작위로 추출한다. 모든 단위들이 표본에 선택될 확률이 동일하다

ex. 가구조사 P = n/N

 

2) 계통표본추출(Systematic sampling)

표집틀에서 1~n번째 단위들 중 하나를 랜덤하게 선택한 다음, 매 k 간격으로 단위들을 표본으로 추출하는 방법이다.

 

▣ 예시로 배우는 계통 표본의 추출과정

No 절차   예시
1 시작점(r) 설정 1~k 사이 난수 추출 모집단(N) = 500, 표본수(n) = 50
추출간격(k) = 500/50 = 10,

시작점은 1~10 중 무작위로 선택한다
2 추출간격(k) 설정 일반적으로 k = N / n 으로 계산 k = 10
3 표본 추출 r, r+k, r+2k, ... n개가 될때까지 선택 r = 3으로 무작위 선정 되었다면,
13, .... 493까지 50개를 추출한다.

 

3) 층화확률추출(stratified random sampling)

모집단을 서로 중복되지 않는 여러 개의 층으로 나누고, 각 층에서 단순확률추출에 의해 표본을 추출한다. 이때 우리는 부모집단의 구성 내역을 알고 있어야 한다.

 

▣ 층화확률추출 방법

No. 절차 예시) 서울 시내 서점의 월 매출액 추정
1 층 구성 - 성별, 연령, 지역 등으로 구분 서점의 대형, 중형, 소형으로 분류
2 각 층에서 독립적으로 표본 추출 각 분류층에서 일정 수 표본 추출 or 층 비율에 맞게 추출

 

 

4) 집락표본추출(cluster sampling)

서로 인접한 조사단위들을 묶어 구성한 집락(cluster)을 추출하고, 이들 집락 내의 조사단위들을 조사한다.

보통 SRS를 통해 추출했을 때, 조사 비용이 과다한 경우, 사용되는 표본 추출방법이다.

 

▣  집락추출 절차

      ex. 서울시 고등학교 월평균 사교육비 추정

- 1단계 : 고등학교추출(PSU, primary sampling unit)

- 2단계 : 학생추출 (학급 -> 학생)


3. 가중치란?

3.1 가중치(weight)

모집단의 구성정보는 표본을 추출하는데 매우 중요한 사전정보이다. 모집단이 다른 특성을 가지는 부모집단으로 이뤄진 경우, 부모집단의 구성비율과 표본의 구성비율이 다르다면 전체 모집단에 대해 왜곡된 결과가 나올 수 있다.

 

고로, 표본추출설계에서 가중치를 적용하여 실제 표본획득 과정에서 생기는 문제를 해결하고자 한다. 이때, 가중치를 한 표본이 몇 개를 대표하는지를 생각해보면 된다.

 

▣  예시

 

① 후보의 득표수 = 7×0.10×0.60 + 3×0.50×0.30 = 0.42 + 0.45 = 0.87

    → 득표율 = 0.87/(1.33+0.87) = 39.5%

② 후보의 득표수 = 7×0.10×0.40 + 3×0.50×0.70 = 0.28 + 1.05 = 1.33 

    → 득표율 = 1.33/(1.33+0.87) = 60.5%

 

하지만, 여기서 A지역의 개표율은 10%밖에 되지 않고, B지역의 개표율은 50%나 된다. 만약 후보 득표율이 일정하게 유지되어 최종 개표율이 각 100%가 된다면 어떻게 될까?

 

① 후보의 득표수 = 7×0.60 + 3×0.30 = 5.1 => 51%

② 후보의 득표수 = 7×0.40 + 3×0.70 = 4.9 => 49%

 

초반에는 2번 후보가 우세한 것 같아 보였으나, 해당 지역의 득표율이 유지된다고 보았을 때는 1번 후보자가 유리한 것으로 보인다.

 

 

3.2 기본 가중치

가중치는 ( 모집단 비중 ÷ 표본 비중  = (모집단 값 / 모집단 전체) ÷ (표본 값 / 표본 전체) )을 말한다. 

 

1) 단순확률추출법(SRS) : 각 표본에 대한 설계 가중치 동일 $w_j = N/n$

2) 계통추출법 : 각 표본에 대한 설계가중치 동일 $w_j = N/n = k$

3) 층화확률추출법 : 층의 크기와 해당 층에서의 표본 크기에 따라 달라진다

4) 집락추출법 : 집락의 크기와 해당 집락에서의 표본크기에 따라 달라진다.

 

 

3.3 확률 추출에 따른 가중치(W1)

1) 등확률 추출인 경우

- 표본으로 선택될 확률 = n/N

- 표본에서 차지하는 비중 = 1/n : 표본 1명이 N/n명을 대표

 

2) 등확률 추출이 아닌 경우

- 조정해야함

- 설계 가중치, 표본추출 가중치, 기초 가중치

 

 ▣ (예시) 대학졸업자 취업 현황 조사

구 분 수도권 지방
모집단 40만 20만
표본크기 500 500
추출률 5백/40만 = 1/800 1/400
설계가중치
(=1/추출률)
표본 1명이 800명을 대표
(가중치 800)
표본 1명이 400명을 대표
(가중치 400)

 

 

3.4 무응답에 따른 가중치(W2)

대체표본이 없거나, 일부 항목에 답을 하지 않은 경우

 

 ▣ (예시) 대학졸업자 취업 현황 조사 - 이어서

구 분 수도권 지방
응답률 60% 80%
응답가중치
(=1/응답률)
10/6
(수도권 응답자 1인당 800*10/6 = 1333.3명 대표)
10/8
(지방 응답자 1인당 400*10/8 = 500명 대표)

 

 

3.5 사후층화를 위한 가중치(W3)

가중 표본 분포가 어떤 특성에 대해 알려진 모집단 분포와 일치하도록 조정

 

 ▣ (예시) 대학졸업자 취업 현황 조사 - 이어서

       성별에 따라 취업 현황에 차이가 있고, 수도권 지방 졸업자의 성별 구성은 비슷하다.

구 분 남자 여자
실제 비율 45% 55%
표본 비율 60% 40%
사후층화 가중치 45/60 55/40

 

 

 ▣ (예시) 대학졸업자 취업 현황 조사 - 최종 가중치(Final weight)

$$w_f = w_1 × w_2 × w_3$$

 

반응형