#위클리 페이퍼 1

카테고리

#위클리 페이퍼

작성일

2025. 7. 14. 08:59

작성자

갱수터

1. 선형대수학이란 어떤 학문이며, 왜 머신러닝/딥러닝에 필요한지 설명해보세요.

선형대수학이란?

- 벡터와 행렬을 다루는 학문

- 행렬의 각각이 하나의 벡터가 되어 형성하는 공간을 벡터 공간

“벡터로 형성된 공간, 즉 벡터 공간에서 덧셈이나 상수곱 형태의 연산으로 변환을 하고, 그 공간의 성질에 대해 공부하는 것”

왜 머신러닝/딥러닝에 필요할까?

- 우리가 다룰려는 데이터들이 행과 열로 이루어져 있기 때문이다. > 데이터 처리의 기본단위

2. EDA(Exploratory Data Analysis)란 무엇인가요?

- 탐색적 데이터 분석

- 데이터를 단순히 수치적으로 처리하거나 모델링을 위한 준비만 하는 것이 아니라, 데이터를 다양한 관점에서 심층적으로 살펴보고 이해하려고 시도하는 과정을 의미합니다.

EDA에서 중요한 요소 4가지

특성 파악	데이터가 연속형인지, 범주형인지 파악하고 변수 간의 관계를 확인
패턴 탐색	규칙이나 경향(계절적 변화, 시간에 따른 변화)을 파악
이상치 탐색	데이터의 특이값을 찾아내고, 특이값이 중요한 정보인지 오류인지 판단
변수 간 관계 분석	변수 간에 어떤 상관 관계나 인과 관계가 있는지 파악

3. 대표적인 데이터 전처리 방법인 결측값, 중복값, 이상치 처리에 대해 각각 설명해 주세요.

결측값 처리

- 데이터 셋의 누락된 값을 그대로 두면 모델이 결과를 잘못 예측할 수 있기 때문에 결측값을 추가,삭제 등 다른방법을 사용해 데이터를 보완하는 방법

중복값 제거

- 중복된 데이터가 포함될 시 모델의 성능이 저하 될 수 있기 때문에 중복 데이터는 제거하는 것이 정확한 패턴 학습에 도움을 주는 방법

이상치 처리

- 데이터에 이상치가 포함되면 모델이 왜곡될 수 있기 때문에 이상치를 찾아내 제거하거나 조정하여 모델의 안정성을 높이는 방법

df[df.isna().any(axis=1)] > 이걸로 불린 인덱싱하면 nan값이 있는 행들만 가져올 수 있음

df = df.dropna() > 결측값있는 행 삭제
df = df.fillna(평균,중간값) >  결측값 채우기

df.duplicated() >중복값 찾기,불린값 시리즈 반환
df.duplicated().sum() >합계보기
df[df.duplicated()] >불린인덱싱으로 해당 행 보기
df[df.duplicated(subset='id')] >id값만 같아도 중복으로 체크하기
df[df.duplicated(subset='id', keep=False)] >겹치는 값 중 모든값을 중복으로 침(기본='first'첫번째건x)

df = df.drop_duplicates() >중복값 제거
df = df.drop_duplicates(subset='id') > id값만 같아도 중복이라 보고 제거
df = df.drop_duplicates(subset='id', keep='last') > 중복된 값중 마지막 값만 남기고 삭제하고 싶다면

q1 = df[컬럼].quantile(0.25)
q3 = df[컬럼].quantile(0.75)
iqr = q3 - q1
lower_limit = q1 - 1.5 *  iqr
upper_limit = q3 +  1.5 *  iqr

이상점 처리 방법
1. 그냥 두기
2. 기준점 안으로 두기 > lower_limit , upper_limit  으로 바꿔버리기
3. 이상점 삭제해버리기

저작자표시 (새창열림)

'#위클리 페이퍼' 카테고리의 다른 글

# 위클리 페이퍼 6 (3)	2025.08.15
#위클리 페이퍼 5 (3)	2025.08.08
#위클리 페이퍼 4 (2)	2025.07.31
#위클리 페이퍼 3 (3)	2025.07.26
#위클리 페이퍼 2 (6)	2025.07.20