💻 데이터 과학이란?
1. 개념
데이터에 근거하여 대상을 탐구하고 문제를 해결하려는 노력
2. 데이터 분석의 과정
데이터 수집 → 데이터 전처리 → 데이터 분석 → 시각화
💻 데이터 수집
1. 데이터 수집 경로
| 데이터 수집 | 경로 |
| 1차 자료 | 1) 설문조사 : 종이 설문지 / 온라인 설문조사 도구 등 활용 2) 내부데이터 활용 : 비식별화 |
| 1.5차 자료 | 크롤링(스크레핑) - 웹페이지의 데이터 수집 - python, AI기반 노코드 크롤링 도구 등 활용 |
| 2차 자료 | 기존에 모아져 있는 외부데이터 수집 - 공공 데이터, 통계청 자료, 패널 데이터 등 공개되어 있는 데이터 아카이브 활용 |
| 3차 자료 | 기존에 모아져 있고 일부 분석되어 있는 플랫폼을 통해 인사이트를 얻고 추가 데이터 분석 진행 |
2. 데이터 수집
2.1 설문지 작성
1) 설문번호 포함
2) 인구통계학적인 데모 그래픽 정보 입력
ex. 성별
3) 리커트 척도 활용
ex. 매우 그렇다 / 그런편이다 / 그렇지 않은 편이다 / 전혀 그렇지 않다
2.2 크롤링
1) 프로그래밍 언어 기반
python, R
2) AI 언어 기반
2.3 공공데이터/패널데이터 참고 사이트
1) 공공데이터
| 서비스 이름 | 웹사이트 주소 |
| 국가통계포털 | kosis.kr |
| 공공데이터포털 | www.data.go.kr |
| 마이크로데이터 통합서비스 | mdis.kostat.go.kr |
| 서울 열린 데이터 광장 | data.seoul.go.kr |
| 전주시 공공데이터 커뮤니티 센터 | openapi.jeonju.go.kr |
| 교육통계서비스 | kess.kedi.re.kr |
| 유치원알리미 | e-childschoolinfo.moe.go.kr |
| 어린이집·유치원 통합정보공시 | www.childinfo.go.kr |
| 학교 알리미 | www.schoolinfo.go.kr |
| 대학알리미 | www.academyinfo.go.kr |
| 학술정보 통계시스템 | www.rinfo.kr |
| 나이스 교육정보 개방포털 | open.neis.go.kr |
| EDSS 에듀데이터서비스 | edss.moe.go.kr |
| 학구도안내서비스 | schoolzone.emac.kr |
2) 국외 패널 데이터 - Google Public Data Explorer
Data Commons
Data Commons aggregates and harmonizes global, open data, giving everyone the power to uncover insights with natural language questions
datacommons.org
💻 데이터 전처리
1. 데이터 전처리(Data Preprocessing) 기본 개념
1) 데이터 전처리 중요성
- 데이터를 분석에 적합한 형태로 만드는 과정
- 데이터 모델이 이해할 수 있는 형태로 변환하거나 품질을 올리는 과정
2) 데이터 품질 저해 요인
- 측정 오류 : 인적 실수로 인한 데이터 오기입, 측정장비의 한계로 인한 과정상의 오류
- 수집 과정 오류 : 데이터 손실, 중복 등의 문제로 발생하는 문제
3) 데이터의 조건
- 완결성(Completeness) : 필수 데이터가 있어야 한다 ▶ 결측값 확인
- 유일성(Uniqueness) : 불필요한 중복 데이터가 없어야 한다 ▶ 중복값 확인
- 통일성(Conformity) : 저장된 형식이 동일해야한다 ▶ 데이터 타입, 단위, 표시 형식 확인
- 정확성(Accuracy) : 측정 과정에서 부정확성 발생 ▶ 데이터 수집 과정 검수, 이상치 확인
2. 데이터 전처리 관련 용어
1) 잡음 (Noise)
- 측정 과정에서 무작위로 발생하여 측정값의 에러를 발생시키는 것
- 만일 잡음을 최대한 삭제하게 된다면, 실제 값들이 과도하게 단순화될 수 있음
2) 아티펙트(Artifact)
- 어떠한 요인으로 인해 반복적으로 발생하는 왜곡이나 에러
- 특정 세션, 위치 또는 시간대에서 반복적으로 에러가 발생했을 경우 아티펙트인지 의심하고 제거하려는 노력 필요
3) 정밀도(Precision)
- 표준편차로 나타나며, 동일한 대상을 반복적으로 측정하였을 때 결과의 친밀성을 나타내는 것
4) 바이어스 (Bias)
- 측정장비에 포함된 시스템적인 변동 (ex. 영점 조절이 되지 않은 체중계)
5) 정확도 (Accuracy)
- 수의 정확도에 영향을 주는 숫자를 의미
6) 이상치 (Outlier)
- 대부분의 데이터와 다른 특성을 보이거나 특정 속성의 값이 다른 개체들과 달리 유별난 값을 가지는 데이터로 분석상황에 따라 이상치의 포함 여부를 선택한다.
*Noise는 임의로 발생하는 예측하기 어려운 요인이라면, Outlier는 적법한 하나의 데이터로서 중요한 분석 목적이 될 수도 있는 데이터를 말한다.
7) 결측지 (Missing values)
- 데이터셋에서 값이 비어있거나 누락된 상태를 의미
- 결측치 처리방법 : 개체 또는 속성 제거 / 결측치 추정 / 결측치 무시
- 결측치 제거(Lise Wise Direction) : 결측치가 5% 이하면 제거도 가능하다 (Cheema, 2014)
- 결측치 유형
① N/A 존재하는데 무엇인지 모름, 사용할 수 없음 (ex. 값은 있어도 터무니 없어서 사용불가한 경우)
② NULL 데이터 값이 없음 (ex. 입력되지 않은 경우)
③ Inf, -Inf 무한대를 뜻함 (ex. Inf : 1/0, -Inf : -1/0) ④ NaN 숫자가 아님 (ex. 0/0)
8) 모순, 불일치 (Inconsistent values)
동일한 개체에 대한 측정 데이터가 다르게 나타나는 경우 ▶ 다르게 표시된 값들을 일치 시켜줘야 한다
9) 중복 (Duplicate data)
어떠한 요인으로 인해 반복적으로 발생하는 왜곡이나 에러
'Studying > Python' 카테고리의 다른 글
| [Basic Python] 007. Numpy(3) (1) | 2025.08.15 |
|---|---|
| [Basic Python] 006. Numpy(2) (7) | 2025.08.15 |
| [Basic Python] 005. Numpy (1) (3) | 2025.08.15 |
| [Basic Python] 004. 반복문과 제어 키워드 (5) | 2025.08.14 |
| [Basic python] 003. 연산자와 조건문 (3) | 2025.08.14 |