Studying/Statistics

[경제통계학/001] 용어 정의 및 입문하기

gracie day 2025. 7. 22. 16:20
반응형

기초용어 정리

  • 통계학(Statistics) 데이터로부터 학습하는 기술
  • Data collection (데이터 수집) 어떤 통계 분석은 이미 주어진 데이터로부터 시작하며, 다른 경우 아직 데이터가 없음으로 적절한 실험을 설계하여 데이터를 생성한다
  • Population(모집단) 통계 연구의 전체 개체
  • Sample(표본) 모집단의 일부분(정보를 얻기 위해 추출한 부분집합) → ex. 정치 여론조사 | 전체 유권자를 대표할 수 있는 무작위로 추출된 몇 천명의 유권자(sample)만 조사하여 이를 통해 전체유권자(Population)에 대한 추론을 진행함
  • Random Sample(무작위 표본) 모집단에서 k개를 뽑았을 때, 가능한 모든 k개 조합이 동등한 확률로 선택될 경우 이를 무작위 표본이라고 함
  • Variable(변수) 사람/사물마다 달라지는 특성
  • Parameters(모수) 모집단을 요약하는 기술적 척도
  • Statistic (통계량) 표본을 요약하는 기술의 척도
  • Normal Data Sets (정규분포 데이터) 어떤 데이터 세트가 다음 특성을 갖는 히스토그램을 보이면 이를 정규(normal)하다고 하며, 실제 많은 대규모 데이터가 보이는 분포이다.

Organizing Data, 데이터 정리

  • Data(데이터) 변수의 값
  • Distribution(분포) 데이터가 가질 수 있는 값들과 그 값들이 관측되는 빈도
    • Frequency distribution (도수분포표) : 고유값과 그 도수(frequency)를 나열
    • Relate-frequency distribution (상대도수분포) : 고유값과 그 상대도수(relative frequency)를 나열
  • pie chart (원그래프) 전체 데이터에서 각 범주가 차지하는 비율을 부채꼴로 나타낸 그래프
  • bar chart (막대그래프) 가로축에 범주, 세로축에 빈도(또는 상대도수, 퍼센트)를 두어 막대 높이로 나타낸 그래프
  • histogram (히스토그램) 가로축에는 계급(구간), 세로축에는 도수(또는 상대도수, 퍼센트)를 표시하며 직사각형 막대 높이로 시각
  • Statistics (통계량) 데이터 집합에서 계산된 수치적 값들을 통계량(statistics)이라 한다.

Population and Sample Data, 모집단 데이터와 표본 데이터

  • Population data (모집단 데이터) 모집단 전체에 대해 변수 x가 취하는 값
    → 모집단 데이터의 분포를 모집단 분포=해당 변수의 분포라고 부름
  • Sample Data (표본 데이터) 표본에 대해서만 변수x가 취하는 값들 → 표본 데이터의 분포를 표본 분포라고 함
    ※ 단순무작위표본일 때 표본 분포는 모집단 분포를 근사하며, 표본 크기가 클수록 근사가 점점 좋아짐

Population Mean and Standard Deviation, 모집단 평균과 표준편차

  • Population Mean (모집단 평균)
    모든 관측값의 평균을 의미

  • Population Standard Deviation (모집단 표준편차)
    변수 x에 대해 모집단 전체의 표준편차는 해당 변수의 흩어짐(산포도)를 나타내며, 이는 전체 데이터가 평균(μ)으로부터 얼마나 떨어져 있는지를 나타내는 지표


Descriptive Statistics, 기술통계

데이터에 대한 기술 및 요약을 다루는 분야로, 그래프, 차트, 표 등을 구성하고 평균, 분산, 백분위수 등 여러 통계량을 계산하여 데이터의 특정을 요약

  • 중심경향 척도, Measures of Center
    • mean(평균) 모든 관측값을 더해 관측값의 개수로 나눈 값
    • median(중앙값) 자료를 크기 순서대로 나열했을 때 한가운데 위치하는 값
    • sample mean(표본평균) 표본에서 관측된 x값의 평균이며, x̄ 로 표기한다
  • 산포도 척도, Measures of Variation
    • range (범위) 최대값(Max) - 최소값(Min)
    • sample standard deviation (표본표준편차)
  • 분위수, Percentiles
    • percentile (pth 분위수) 데이터를 오름차순으로 정렬했을 때, 하위 p%와 상위 (100-p)%로 나누는 지점
      • 중앙값(median)은 50번째 분위수
      • 분위수는 이상/이하를 포함하는 중복값이 있다.
      • 자주 사용되는 분위수S
        - deciles (데실) 10%, 20%, …, 90% 분위수
        - quintiles (퀸틸) 20%, 40% 60% 80% 분위수
        - quartiles (사분위수) 25% 50% 75% 분위수

Inferential Statistics(추론통계)

표본 데이터를 바탕으로 모집단에 대해 결론을 내리는 분야로, 보통 확률모형(probability model)을 사용하여 이런 결론을 도출 (몇 천명의 여론조사 결과를 바탕으로 전체 유권자의 선호를 추정)

반응형