1. 선형대수학이란 어떤 학문이며, 왜 머신러닝/딥러닝에 필요한지 설명해보세요.
선형대수학이란?
- 벡터와 행렬을 다루는 학문
- 행렬의 각각이 하나의 벡터가 되어 형성하는 공간을 벡터 공간
“벡터로 형성된 공간, 즉 벡터 공간에서 덧셈이나 상수곱 형태의 연산으로 변환을 하고, 그 공간의 성질에 대해 공부하는 것”
왜 머신러닝/딥러닝에 필요할까?
- 우리가 다룰려는 데이터들이 행과 열로 이루어져 있기 때문이다. > 데이터 처리의 기본단위
2. EDA(Exploratory Data Analysis)란 무엇인가요?
- 탐색적 데이터 분석
- 데이터를 단순히 수치적으로 처리하거나 모델링을 위한 준비만 하는 것이 아니라, 데이터를 다양한 관점에서 심층적으로 살펴보고 이해하려고 시도하는 과정을 의미합니다.
EDA에서 중요한 요소 4가지
| 특성 파악 | 데이터가 연속형인지, 범주형인지 파악하고 변수 간의 관계를 확인 |
| 패턴 탐색 | 규칙이나 경향(계절적 변화, 시간에 따른 변화)을 파악 |
| 이상치 탐색 | 데이터의 특이값을 찾아내고, 특이값이 중요한 정보인지 오류인지 판단 |
| 변수 간 관계 분석 | 변수 간에 어떤 상관 관계나 인과 관계가 있는지 파악 |
3. 대표적인 데이터 전처리 방법인 결측값, 중복값, 이상치 처리에 대해 각각 설명해 주세요.
결측값 처리
- 데이터 셋의 누락된 값을 그대로 두면 모델이 결과를 잘못 예측할 수 있기 때문에 결측값을 추가,삭제 등 다른방법을 사용해 데이터를 보완하는 방법
중복값 제거
- 중복된 데이터가 포함될 시 모델의 성능이 저하 될 수 있기 때문에 중복 데이터는 제거하는 것이 정확한 패턴 학습에 도움을 주는 방법
이상치 처리
- 데이터에 이상치가 포함되면 모델이 왜곡될 수 있기 때문에 이상치를 찾아내 제거하거나 조정하여 모델의 안정성을 높이는 방법

df[df.isna().any(axis=1)] > 이걸로 불린 인덱싱하면 nan값이 있는 행들만 가져올 수 있음
df = df.dropna() > 결측값있는 행 삭제
df = df.fillna(평균,중간값) > 결측값 채우기
df.duplicated() >중복값 찾기,불린값 시리즈 반환
df.duplicated().sum() >합계보기
df[df.duplicated()] >불린인덱싱으로 해당 행 보기
df[df.duplicated(subset='id')] >id값만 같아도 중복으로 체크하기
df[df.duplicated(subset='id', keep=False)] >겹치는 값 중 모든값을 중복으로 침(기본='first'첫번째건x)
df = df.drop_duplicates() >중복값 제거
df = df.drop_duplicates(subset='id') > id값만 같아도 중복이라 보고 제거
df = df.drop_duplicates(subset='id', keep='last') > 중복된 값중 마지막 값만 남기고 삭제하고 싶다면
q1 = df[컬럼].quantile(0.25)
q3 = df[컬럼].quantile(0.75)
iqr = q3 - q1
lower_limit = q1 - 1.5 * iqr
upper_limit = q3 + 1.5 * iqr
이상점 처리 방법
1. 그냥 두기
2. 기준점 안으로 두기 > lower_limit , upper_limit 으로 바꿔버리기
3. 이상점 삭제해버리기
'#위클리 페이퍼' 카테고리의 다른 글
| # 위클리 페이퍼 6 (3) | 2025.08.15 |
|---|---|
| #위클리 페이퍼 5 (3) | 2025.08.08 |
| #위클리 페이퍼 4 (2) | 2025.07.31 |
| #위클리 페이퍼 3 (3) | 2025.07.26 |
| #위클리 페이퍼 2 (6) | 2025.07.20 |

