반응형
기초용어 정리
- 통계학(Statistics) 데이터로부터 학습하는 기술
- Data collection (데이터 수집) 어떤 통계 분석은 이미 주어진 데이터로부터 시작하며, 다른 경우 아직 데이터가 없음으로 적절한 실험을 설계하여 데이터를 생성한다
- Population(모집단) 통계 연구의 전체 개체
- Sample(표본) 모집단의 일부분(정보를 얻기 위해 추출한 부분집합) → ex. 정치 여론조사 | 전체 유권자를 대표할 수 있는 무작위로 추출된 몇 천명의 유권자(sample)만 조사하여 이를 통해 전체유권자(Population)에 대한 추론을 진행함
- Random Sample(무작위 표본) 모집단에서 k개를 뽑았을 때, 가능한 모든 k개 조합이 동등한 확률로 선택될 경우 이를 무작위 표본이라고 함
- Variable(변수) 사람/사물마다 달라지는 특성
- Parameters(모수) 모집단을 요약하는 기술적 척도
- Statistic (통계량) 표본을 요약하는 기술의 척도
- Normal Data Sets (정규분포 데이터) 어떤 데이터 세트가 다음 특성을 갖는 히스토그램을 보이면 이를 정규(normal)하다고 하며, 실제 많은 대규모 데이터가 보이는 분포이다.
Organizing Data, 데이터 정리
- Data(데이터) 변수의 값
- Distribution(분포) 데이터가 가질 수 있는 값들과 그 값들이 관측되는 빈도
- Frequency distribution (도수분포표) : 고유값과 그 도수(frequency)를 나열
- Relate-frequency distribution (상대도수분포) : 고유값과 그 상대도수(relative frequency)를 나열
- pie chart (원그래프) 전체 데이터에서 각 범주가 차지하는 비율을 부채꼴로 나타낸 그래프
- bar chart (막대그래프) 가로축에 범주, 세로축에 빈도(또는 상대도수, 퍼센트)를 두어 막대 높이로 나타낸 그래프
- histogram (히스토그램) 가로축에는 계급(구간), 세로축에는 도수(또는 상대도수, 퍼센트)를 표시하며 직사각형 막대 높이로 시각
- Statistics (통계량) 데이터 집합에서 계산된 수치적 값들을 통계량(statistics)이라 한다.
Population and Sample Data, 모집단 데이터와 표본 데이터
- Population data (모집단 데이터) 모집단 전체에 대해 변수 x가 취하는 값
→ 모집단 데이터의 분포를 모집단 분포=해당 변수의 분포라고 부름 - Sample Data (표본 데이터) 표본에 대해서만 변수x가 취하는 값들 → 표본 데이터의 분포를 표본 분포라고 함
※ 단순무작위표본일 때 표본 분포는 모집단 분포를 근사하며, 표본 크기가 클수록 근사가 점점 좋아짐
Population Mean and Standard Deviation, 모집단 평균과 표준편차
- Population Mean (모집단 평균)
모든 관측값의 평균을 의미

- Population Standard Deviation (모집단 표준편차)
변수 x에 대해 모집단 전체의 표준편차는 해당 변수의 흩어짐(산포도)를 나타내며, 이는 전체 데이터가 평균(μ)으로부터 얼마나 떨어져 있는지를 나타내는 지표

Descriptive Statistics, 기술통계
데이터에 대한 기술 및 요약을 다루는 분야로, 그래프, 차트, 표 등을 구성하고 평균, 분산, 백분위수 등 여러 통계량을 계산하여 데이터의 특정을 요약
- 중심경향 척도, Measures of Center
- mean(평균) 모든 관측값을 더해 관측값의 개수로 나눈 값
- median(중앙값) 자료를 크기 순서대로 나열했을 때 한가운데 위치하는 값
- sample mean(표본평균) 표본에서 관측된 x값의 평균이며, x̄ 로 표기한다
- 산포도 척도, Measures of Variation
- range (범위) 최대값(Max) - 최소값(Min)
- sample standard deviation (표본표준편차)
- 분위수, Percentiles
- percentile (pth 분위수) 데이터를 오름차순으로 정렬했을 때, 하위 p%와 상위 (100-p)%로 나누는 지점
- 중앙값(median)은 50번째 분위수
- 분위수는 이상/이하를 포함하는 중복값이 있다.
- 자주 사용되는 분위수S
- deciles (데실) 10%, 20%, …, 90% 분위수
- quintiles (퀸틸) 20%, 40% 60% 80% 분위수
- quartiles (사분위수) 25% 50% 75% 분위수
- percentile (pth 분위수) 데이터를 오름차순으로 정렬했을 때, 하위 p%와 상위 (100-p)%로 나누는 지점
Inferential Statistics(추론통계)
표본 데이터를 바탕으로 모집단에 대해 결론을 내리는 분야로, 보통 확률모형(probability model)을 사용하여 이런 결론을 도출 (몇 천명의 여론조사 결과를 바탕으로 전체 유권자의 선호를 추정)
반응형
'Studying > Statistics' 카테고리의 다른 글
| [통계학 기초/001] 모집단 · 표본 · 표본추출 · 가중치 알아보기 (2) | 2025.08.22 |
|---|---|
| [경제통계학/002] 확률의 공리 및 이론 (3) | 2025.08.12 |