Studying/Python

[데이터과학/001] 데이터 분석의 기초 - 데이터 수집 · 전처리에 대하여

gracie day 2025. 8. 19. 14:28
반응형

💻 데이터 과학이란?

1. 개념

데이터에 근거하여 대상을 탐구하고 문제를 해결하려는 노력

 

2. 데이터 분석의 과정

데이터 수집 → 데이터 전처리 → 데이터 분석 → 시각화


💻 데이터 수집

1. 데이터 수집 경로

데이터 수집 경로
1차 자료 1) 설문조사 : 종이 설문지 / 온라인 설문조사 도구 등 활용
2) 내부데이터 활용 : 비식별화
1.5차 자료 크롤링(스크레핑)
- 웹페이지의 데이터 수집
- python, AI기반 노코드 크롤링 도구 등 활용
2차 자료 기존에 모아져 있는 외부데이터 수집
- 공공 데이터, 통계청 자료, 패널 데이터 등 공개되어 있는 데이터 아카이브 활용
3차 자료 기존에 모아져 있고 일부 분석되어 있는 플랫폼을 통해 인사이트를 얻고 추가 데이터 분석 진행

2. 데이터 수집

2.1 설문지 작성

1) 설문번호 포함

2) 인구통계학적인 데모 그래픽 정보 입력

    ex. 성별

3) 리커트 척도 활용

    ex. 매우 그렇다 / 그런편이다 / 그렇지 않은 편이다 / 전혀 그렇지 않다

 

2.2 크롤링

1) 프로그래밍 언어 기반

python, R

 

2) AI 언어 기반

리스틀리 https://www.listly.io/

브라우저 https://www.browse.ai/


2.3 공공데이터/패널데이터 참고 사이트

1) 공공데이터

서비스 이름 웹사이트 주소
국가통계포털 kosis.kr
공공데이터포털 www.data.go.kr
마이크로데이터 통합서비스 mdis.kostat.go.kr
서울 열린 데이터 광장 data.seoul.go.kr
전주시 공공데이터 커뮤니티 센터 openapi.jeonju.go.kr
교육통계서비스 kess.kedi.re.kr
유치원알리미 e-childschoolinfo.moe.go.kr
어린이집·유치원 통합정보공시 www.childinfo.go.kr
학교 알리미 www.schoolinfo.go.kr
대학알리미 www.academyinfo.go.kr
학술정보 통계시스템 www.rinfo.kr
나이스 교육정보 개방포털 open.neis.go.kr
EDSS 에듀데이터서비스 edss.moe.go.kr
학구도안내서비스 schoolzone.emac.kr

 

2) 국외 패널 데이터 - Google Public Data Explorer 

 

Data Commons

Data Commons aggregates and harmonizes global, open data, giving everyone the power to uncover insights with natural language questions

datacommons.org


💻 데이터 전처리

1. 데이터 전처리(Data Preprocessing) 기본 개념

1) 데이터 전처리 중요성

- 데이터를 분석에 적합한 형태로 만드는 과정

- 데이터 모델이 이해할 수 있는 형태로 변환하거나 품질을 올리는 과정

 

2) 데이터 품질 저해 요인

- 측정 오류 : 인적 실수로 인한 데이터 오기입, 측정장비의 한계로 인한 과정상의 오류

- 수집 과정 오류 : 데이터 손실, 중복 등의 문제로 발생하는 문제

 

3) 데이터의 조건

- 완결성(Completeness) : 필수 데이터가 있어야 한다 ▶ 결측값 확인

- 유일성(Uniqueness) : 불필요한 중복 데이터가 없어야 한다 ▶ 중복값 확인

- 통일성(Conformity) : 저장된 형식이 동일해야한다 ▶ 데이터 타입, 단위, 표시 형식 확인

- 정확성(Accuracy) : 측정 과정에서 부정확성 발생 ▶ 데이터 수집 과정 검수, 이상치 확인


2. 데이터 전처리 관련 용어

1) 잡음 (Noise)

- 측정 과정에서 무작위로 발생하여 측정값의 에러를 발생시키는 것

- 만일 잡음을 최대한 삭제하게 된다면, 실제 값들이 과도하게 단순화될 수 있음

 

2) 아티펙트(Artifact)

- 어떠한 요인으로 인해 반복적으로 발생하는 왜곡이나 에러

- 특정 세션, 위치 또는 시간대에서 반복적으로 에러가 발생했을 경우 아티펙트인지 의심하고 제거하려는 노력 필요

 

3) 정밀도(Precision)

- 표준편차로 나타나며, 동일한 대상을 반복적으로 측정하였을 때 결과의 친밀성을 나타내는 것

 

4) 바이어스 (Bias)

- 측정장비에 포함된 시스템적인 변동 (ex. 영점 조절이 되지 않은 체중계)

 

5) 정확도 (Accuracy)

- 수의 정확도에 영향을 주는 숫자를 의미

 

6) 이상치 (Outlier)

- 대부분의 데이터와 다른 특성을 보이거나 특정 속성의 값이 다른 개체들과 달리 유별난 값을 가지는 데이터로 분석상황에 따라 이상치의 포함 여부를 선택한다.

*Noise는 임의로 발생하는 예측하기 어려운 요인이라면, Outlier는 적법한 하나의 데이터로서 중요한 분석 목적이 될 수도 있는 데이터를 말한다.

 

7) 결측지 (Missing values)

- 데이터셋에서 값이 비어있거나 누락된 상태를 의미

- 결측치 처리방법 : 개체 또는 속성 제거 / 결측치 추정 / 결측치 무시

- 결측치 제거(Lise Wise Direction) : 결측치가 5% 이하면 제거도 가능하다 (Cheema, 2014)

- 결측치 유형

   ① N/A 존재하는데 무엇인지 모름, 사용할 수 없음 (ex. 값은 있어도 터무니 없어서 사용불가한 경우)

   ② NULL 데이터 값이 없음 (ex. 입력되지 않은 경우)

   ③ Inf, -Inf 무한대를 뜻함 (ex. Inf : 1/0, -Inf : -1/0)    ④ NaN 숫자가 아님 (ex. 0/0)

 

8) 모순, 불일치 (Inconsistent values)

동일한 개체에 대한 측정 데이터가 다르게 나타나는 경우 ▶ 다르게 표시된 값들을 일치 시켜줘야 한다

 

9) 중복 (Duplicate data)

어떠한 요인으로 인해 반복적으로 발생하는 왜곡이나 에러

반응형

'Studying > Python' 카테고리의 다른 글

[Basic Python] 007. Numpy(3)  (1) 2025.08.15
[Basic Python] 006. Numpy(2)  (7) 2025.08.15
[Basic Python] 005. Numpy (1)  (3) 2025.08.15
[Basic Python] 004. 반복문과 제어 키워드  (5) 2025.08.14
[Basic python] 003. 연산자와 조건문  (3) 2025.08.14