#위클리 페이퍼 2

카테고리

작성일

2025. 7. 20. 21:30

작성자

갱수터

1. 지도 학습과 비지도 학습의 차이는 무엇인가요?

지도 학습은 답이 정해져 있고, 그 답을 맞추는게 학습의 목적이다. 그래서 학습데이터의 답을 꼭 알려줘야 한다. 비지도 학습은 답이라는 개념이 없다. 예를 들어 인터넷 기사 데이터를 학습시킨다 하면 지도 학습은 이건 사회, 이건 연예, 이건 경제 하면서 답을 알려줘야 하는데 비지도 학습은 비슷한 기사 끼리 묶어봐 하는 것이다. 그리고 지도 학습은 스팸 메일을 가려내는 분류와 아파트 가격을 예측하는 회귀로 나눌 수 있다.

강사님 답

> 지도학습은 정답(lable)이 있는 데이터를 학습해 예측하는 방식이고, 비지도학습은 정답 없이 데이터의 구조 나 패턴을 찾는 방식입니다.

2. 손실 함수(loss function)란 무엇이며, 왜 중요한가요?

손실 함수는 가설 함수를 평가하기 위한 함수이다. 모델이 예측한 값과 실제 값 간의 차이를 보여주기 때문에 손실함수의 아웃풋이 작을수록 더 좋은 모델이라고 할 수 있다.

선형회귀에서 해야하는 것: 데이터에 가장 잘 맞는 가설 함수 찾기
가설 함수에서 해야 하는 것 : 세타값 조율해서 가설함수 최적선 만들기
가설 함수를 평가하는 기준이 되는 것: 손실 함수의 아웃풋 최소화

이게 머신러닝 전반에서 이어지는 것 같음

강사님 답

> 손실함수는 모델이 예측한 값과 실제 정답 사이의 오차를 수치로 표현한 함수입니다. 이 함수의 값을 최소화하 는 방향으로 모델을 학습시키기 때문에 모델이 얼마나 잘 예측하고 있는지를 측정하고 개선하는 기준이 됩니 다.
⇒ 손실 함수는 모델의 예측과 실제 값 사이의 오차를 계산해, 모델이 더 정확하게 학습되도록 도와주는 핵심 도구입니다.

3. 모델 학습 시 발생할 수 있는 편향과 분산에 대해 설명하고, 두 개념의 관계에 대해 설명해 주세요.

직선과 같은 모델이 너무 간단해서 데이터의 관계를 잘 학습하지 못하는 경우 모델의 편향이 높다고 한다. 편향이 작은 모델을 만들려면 차항이 높은 회귀를 사용해서 거의 training 데이터에 맞춰진 복잡한 곡선모양으로 만들어야 한다. 직선 모델과 복잡한 곡선 모델을 이용해서 test 데이터를 예측할 때 곡선모델은 training 데이터에 대해서는 완벽한 성능을 보이지만 test 데이터에 대해서는 상당히 안좋은 성능을 보인다. 모델이 관계를 배우기보다는 데이터 자체를 외워버리기 때문에 처음 보는 데이터 셋에 모델을 적용해 보면 성능이 아주 떨어진다. 데이터 셋 별로 모델이 얼마나 일관된 성능을 보여주는지를 분산이라 한다. 다양한 데이터 셋 간에 성능 차이가 많이 나면 분산이 높다고 하고, 성능이 비슷하면 분산이 낮다고 한다. 복잡한 곡선 모델은 데이터 셋마다 성능 차이가 많이 나니까 분산이 높다고 할 수 있다. 직선 모델은 training 데이터와 test 데이터를 사용했을 때 성능에 큰 차이가 없다. 다양한 데이터 셋을 사용해도 일관된 성능을 보이는데 이건 분산이 작다는 의미이다. 즉 편향과 분산은 트레이드오프 관계이다. 편향을 줄이려면 모델을 복잡하게 만들어야 하지만, 이럴 경우 분산이 커질 가능성이 있다. 반대로 분산을 줄이려면 모델을 단순하게 만들어야 하지만, 이 경우 편향이 증가하게 된다. 이처럼 두 요소가 상반되는 경향을 보이기 때문에 트레이드오프가 발생한다.

강사님 답

> 편향은 모델이 실제 데이터의 복잡한 관계를 학습하지 못하고, 특정 패턴이나 가정에 너무 많이 의존하여 발생 하는 오류입니다. 따라서 편향이 높을경우 과소적합(Underfitting)이 발생할 수 있습니다.

과소적합(Underfitting)?
모델이 훈련 데이터에 너무 단순하게 맞춰져 실제 데이터의 특징을 제대로 반영하지 못하는 경우를 말하며, 훈 련 데이터와 테스트 데이터 모두에서 성능이 좋지 않게 나타납니다.

분산은 모델이 훈련 데이터의 작은 변동에도 너무 민감하게 반응하여 발생하는 오류입니다. 즉, 모델이 훈련 데이터의 노이즈까지 학습하여, 새로운 데이터에 대해 일반화 성능이 떨어지는 현상입니다. 따라서 분산이 높 을경우 과대적합(Overfitting)이 발생할 수 있습니다.

과대적합(Overfitting)?
모델이 훈련 데이터에 너무 잘 맞춰져서 훈련 데이터에서는 좋은 성능을 보이지만, 새로운 데이터가 들어왔을 때 모델의 성능이 좋지 않은 것입니다.

편향과 분산의 관계 (Bias-Variance Trade-off)
편향과 분산은 서로 상충(Trade-off) 관계에 있습니다. 즉, 편향을 줄이면 분산이 증가하고, 분산을 줄이면 면 향이 증가하는 경향이 있습니다.

♦ 단순한 모델에선,
높은 편향, 낮은 분산 모델이 단순하기 때문에 훈련 데이터의 복잡한 패턴을 잘 학습하지 못하여 편향이 높다. 하지만 훈련 데이터에는 덜 민감하게 반응하므로 분산이 낮다. => 과소적합

높은 편향, 낮은 분산 모델이 단순하기 때문에 훈련 데이터의 복잡한 패턴을 잘 학습하지 못하여 편향이 높다. 하지만 훈련 데이터에는 덜 민감하게 반응하므로 분산이 낮다. 과소적합
+ 복잡한 모델에선,
낮은 편향, 높은 분산 모델이 복잡하기 때문에 훈련 데이터의 패턴을 세밀하게 학습하여 편향은 낮은 편. 하지만 훈련 데이터의 노이즈까지 학습하기 때문에 새로운 데이터에 대한 일반화 능력이 떨어지므로 분산 은 높다. 과대적합
관련 문서: 위키피디아

4. K-폴드 교차 검증에서 K의 값을 선택할 때 고려해야 할 점은 무엇인가요?

일반적으로는 5 또는 10을 많이 사용한다. 편향과 분산 사이의 균형을 잘 맞추기 때문이다. 5는 적절한 속도와 신뢰성 있는 평가와 결과를 제공하고, 10은 더 높은 신뢰도를 제공하지만 연산 비용이 더 크다.

강사님 답

> 전체 데이터 셋 크기와 계산 비용을 고려해야한다.
K를 너무 크게 설정하면 각 폴드의 훈련 세트가 거의 전체 데이터 셋과 같아지므로, 모델의 분신은 낮아지지만 편향은 높아져 과소적합이 발생할 수 있다. 반대로 K가 너무 작으면 훈련 데이터가 너무 적어져 각 모델이 충분 히 학습하지 못할 수 있게 된다.
K값이 커질수록 계산 비용이 증가하게 된다. 충분히 큰 데이터셋에서는 K를 너무 크게 설정할 필요가 없을 수 있으며, 적절한 K값을 지정해야하는데, K = 10 또는 K=5를 가장 일반적으로 사용한다.
⇒ 데이터셋의 크기가 작으면 K값을 더 작게 조절해야함

강사 Tip
또는 K = 5? K = 10
k = 10일때 편향과 분산 사이의 균형을 맞춘다고 알려져 있습니다. 또한 대부분의 상황에서 합리적인 계산 비 용으로 안정적인 성능 추청치를 제공합니다. 따라서 K폴드 교차검증 실행시 K=10으로 일단 먼저 학습한 뒤 K 의 값을 변화시켜 모델 성능을 확인할 수 있습니다.
K = 5일때 계산 비용이 10에 비해 적으며 비교적 안정적인 결과를 제공한다고 알려져 있습니다. 10에 비해 계 산비용이 적기 때문에 대규모 데이터 처리에 적절합니다. 강사 기준, 수십만 로우가 넘어가는 데이터 셋에선 K=5를 우선적으로 하게 됩니다.

저작자표시 (새창열림)

'#위클리 페이퍼' 카테고리의 다른 글

# 위클리 페이퍼 6 (3)	2025.08.15
#위클리 페이퍼 5 (3)	2025.08.08
#위클리 페이퍼 4 (2)	2025.07.31
#위클리 페이퍼 3 (3)	2025.07.26
#위클리 페이퍼 1 (2)	2025.07.14

1. 지도 학습과 비지도 학습의 차이는 무엇인가요?

2. 손실 함수(loss function)란 무엇이며, 왜 중요한가요?

3. 모델 학습 시 발생할 수 있는 편향과 분산에 대해 설명하고, 두 개념의 관계에 대해 설명해 주세요.

'#위클리 페이퍼' 카테고리의 다른 글

티스토리툴바