1. 결정 트리의 장점과 단점은 무엇인가요?
결정트리는 분석 결과를 해석하기 쉬우며, 변수 간의 상호작용과 비선형성을 반영하여 정확한 예측이 가능하다는 장점이 있다. 또한 모델의 직관성과 가시성이 높아, 어떤 결정에 대한 이유를 설명하기 용이하다는 특징이 있다.
그러나 결정트리는 과적합(overfitting) 문제가 발생할 수 있기 때문에, 적절한 가지치기와 데이터의 적절한 샘플링이 필요하다. 또한 결정 트리 기반의 모델은 데이터 분포가 일정하지 않거나 데이터에 노이즈가 포함된 경우 정확한 예측이 어려울 수 있다는 한계도 있다.
2 . 부스팅은 어떤 특징을 가진 앙상블 기법인가요? 토픽에서 배운 AdaBoost 이외의 부스팅 모델에는 무엇이 있는지에 대해 구글 등을 활용하여 직접 리서치해보고, 각 부스팅 모델의 특징, 장단점에 대해 말해주세요.
부스팅은 배깅과는 달리 모델들을 순차적으로 학습시키는 방식이다. 첫번째 모델이 예측한 결과에서 잘못 예측한 데이터에 더 많은 가중치를 부여하거나, 이전 모델의 오류를 다음 모델이 학습하도록 하여 점진적으로 모델의 성능을 개선시킨다.
종류 특징 장점 단점 GradientBoost GBM은 순차적으로 모델을 학습시키면서 각 단계에서 이전 모델의 오차를 줄이는 방향으로 새로운 모델을 추가합니다. 주로 결정 트리를 약한 학습기로 사용합니다. 높은 예측 성능을 가지고 있으며, 다양한 손실 함수를 지원합니다. 계산 시간이 오래 걸릴 수 있으며, 하이퍼파라미터 튜닝이 필요합니다. XGBoost XGBoost는 GBM의 확장 버전으로, 성능과 효율성을 높이기 위해 여러 최적화 기법을 적용했습니다. 예를 들어, 병렬 처리, 정규화, 트리 부스트 알고리즘 등을 포함합니다. 매우 빠르고, 성능이 뛰어나며, 과적합을 방지하는 다양한 기법을 포함합니다. 복잡한 모델로 인해 해석이 어려울 수 있습니다 LightGBM LightGBM은 대용량 데이터와 높은 차원 데이터에서 효율적으로 학습할 수 있도록 설계되었습니다. 리프 중심 트리 분할 방식을 사용하여 빠른 학습 속도와 낮은 메모리 사용을 실현합니다. 매우 빠르고, 대용량 데이터에서 성능이 뛰어납니다. 적은 데이터에서는 과적합이 발생할 수 있습니다. CatBoost CatBoost는 범주형 데이터를 처리하는 데 최적화된 부스팅 알고리즘입니다. 순서 인코딩을 사용하여 범주형 특성을 자동으로 처리합니다. 범주형 데이터에 대한 강력한 성능과, 오버피팅을 방지하는 여러 기법을 포함합니다. 학습 속도가 다른 부스팅 알고리즘보다 느릴 수 있습니다. NGBoost NGBoost는 확률적 예측을 목표로 하는 부스팅 알고리즘으로, 각 예측에 대해 불확실성을 추정합니다. 자연 그라디언트(Natural Gradient)를 사용하여 확률 분포를 예측합니다. 예측의 불확실성을 제공하여 더 많은 정보를 제공합니다. 다른 부스팅 알고리즘에 비해 덜 알려져 있으며, 구현이 복잡할 수 있습니다.
3. 차원 축소 기법인 주성분 분석과 요인 분석의 차이는 무엇인지 설명해 주세요.
분산의 종류
주성분 분석에서 차원축소를 위해 사용한 분산은 공분산이었다. 여러 변수 간의 상관관계를 공통의 분산으로 밝히고 일정한 기준(=상관계수)으로 우선순위를 설정하는 과정, 즉 종속변수 y에 영향도가 높은 1개 이상의 독립변수 xn을 찾는 것이 주성분 분석이다.
이와 달리 요인분석에서는 고유분산을 이용한다. 예를 들어 국어, 영어, 수학 점수를 통해 '언어 능력'을 측정한다는 가정에서, 각 점수에 영향을 끼친 고유한 원인을 찾는 과정이 요인분석이다. 각 변수마다 독립적인 특성을 확인해야 하므로 고유분산을 사용한다.
나중에 생각해 볼 글
https://m.blog.naver.com/shoutjoy/221811868153
'#위클리 페이퍼' 카테고리의 다른 글
| # 위클리 페이퍼 6 (3) | 2025.08.15 |
|---|---|
| #위클리 페이퍼 5 (3) | 2025.08.08 |
| #위클리 페이퍼 4 (2) | 2025.07.31 |
| #위클리 페이퍼 2 (6) | 2025.07.20 |
| #위클리 페이퍼 1 (2) | 2025.07.14 |



