everyday com-eat

#위클리 페이퍼 9

카테고리

#위클리 페이퍼

작성일

2025. 9. 7. 00:29

작성자

갱수터

728x90

1. Semantic Segmentation이란 무엇이며, 이미지 분류(Classification)와 어떤 차이가 있나요?

Semantic Segmentation이란?
이미지의 모든 픽셀에 대해 어떤 클래스인지 예측해, 입력과 동일한 해상도의 픽셀별 레이블 맵을 생성하는 테스크를 의미한다.
"어디에 무엇이 있는지"를 구분한다.

이미지 분류와의 차이점
분류는 이미지 전체에 하나의 레이블을 예측해 "무엇이 있는지" 판단하는데, 세그멘테이션은 픽셀 단위로 레이블을 예측한다. 따라서 출력이 분류는 단일 레이블(또는 확률 벡터)로 나오는 반면, 세그멘테이션은 입력과 같은 크기의 다채널 마스크(픽세별 클래스)로 나온다.

2. Fully Convolutional Networks(FCN)의 주요 특징과 기존 CNN 기반 분류 모델과의 차이점은 무엇인가요?

FCN(Fully Convolutional Networks)의 주요 특징

전층 합성곱화

완전연결(FC) 레이어를 제거하고, 모두 합성곱/업샘플링(Deconv/Interpolation)으로 구성한다.

임의 크기 입력을 처리하고, 공간적 출력을 직접 생성한다.

픽셀 단위 예측

분류 점수 대신 클래스별 점수 맵을 출력한다.

업샘플링을 통해 입력 해상도와 맞춘 픽셀별 라벨 지도를 예측한다.

스킵 연결로 세부 복원

깊은 층의 추상적 특징과 얕은 층의 세밀한 특징을 결합해 경계·세부를 보완한다(예: FCN-32s/16s/8s).

엔드투엔드 학습

이미지→픽셀 라벨 맵까지 하나의 네트워크로 학습한다.

크로스엔트로피(픽셀 단위) 등 손실로 직접 최적화한다.

유연한 입력 크기와 효율

FC가 없어 파라미터가 줄고, 슬라이딩 윈도우 없이 전체 이미지 단일 패스로 처리된다.

기존 CNN 기반 분류 모델과의 차이점

FCN 기존 CNN 기반 분류 모델

출력 형태 입력과 동일(또는 복원된) 해상도의
픽셀별 클래스 맵을 출력한다(공간적 지도) 이미지 전체에 하나(또는 다중)의
라벨 확률을 출력한다(전역 요약)

아키텍처 구성 FC를 합성곱으로 대체하고, 업샘플링/스킵 연결로
공간 해상도를 복원한다 백본 특징 추출 후 Global Pool/FC로
전역 벡터→클래스 확률을 산출한다

입력 크기 제약 전층 합성곱이므로 다양한 크기 입력을 자연스럽게
처리한다(출력도 그에 맞게 스케일된다) 보통 고정 크기로 리사이즈해서 넣는다

학습 라벨과 손실 픽셀 레벨 마스크, 픽셀 단위 손실
(크로스엔트로피/Dice 등)을 사용한다 이미지 레벨 레이블, 이미지 단위 손실을 사용한다

용도 "어디에 무엇이 있는가"를 픽셀 단위로
분할한다(세그멘테이션) "무엇이 있는가"를 전역적으로 판단한다

3. GAN에서 생성자(Generator)와 판별자(Discriminator)의 역할은 각각 무엇인가요?

생성자(Generator)의 역할

무작위 노이즈(잠재 벡터) 또는 조건 정보(레이블, 텍스트 등)를 입력으로 받아, 실제 데이터와 구분하기 어려운 샘플을 “생성”하는 모델을 의미한다.

목표: 판별자를 속일 만큼 그럴듯한 데이터를 만들어 판별자의 구분 능력을 낮추는 방향으로 학습된다.

학습 신호: 판별자의 피드백(진짜/가짜 판정 손실)으로부터 역전파 받아 파라미터가 업데이트된다.

판별자(Discriminator)의 역할

입력된 샘플이 “진짜 데이터 분포에서 온 것인지” 혹은 “생성자가 만든 가짜인지”를 구분·판단하는 모델을 의미한다.

목표: 진짜는 높게, 가짜는 낮게 점수 주어 생성자를 분별하는 능력을 극대화한다.

학습 신호: 진짜/가짜 라벨을 기준으로 분류 손실을 최소화하도록 업데이트된다.

두 모델의 상호작용(적대적 학습)

판별자는 진짜와 가짜를 더 잘 구분하도록 학습되고, 생성자는 판별자를 속이도록 더 정교한 샘플을 만들도록 학습된다.

이 “적대적 게임”이 균형을 이루면, 생성자는 데이터 분포를 잘 근사하는 고품질 샘플을 만들어 낼 수 있게 된다.

4. Diffusion 모델이 이미지 생성에서 어떻게 활용되며, 어떤 장점이 있나요?

이미지 생성에서 Diffusion 모델의 활용 방법

역과정 학습한다

학습 시: 실제 이미지를 점점 더 강한 가우시안 노이즈로 훼손하는 순과정(Forward) 분포를 정의한다.

모델은 이 과정을 거꾸로 되돌리는 역과정(Reverse)을 학습해, “노이즈 → 덜 노이즈 → 이미지”로 점진적으로 복원하는 방법을 익힌다.

샘플링 시: 순수 노이즈에서 시작해 T 스텝에 걸쳐 노이즈를 제거한다

매 스텝에서 U-Net 등 예측기가 현재 상태의 노이즈(또는 깨끗한 데이터, 또는 분산 파라미터)를 추정하고, 스케줄에 따라 한 단계씩 더 선명한 상태로 이동한다.

텍스트 조건부(예: CLIP/텍스트 인코더)로 프롬프트에 맞춘 이미지를 생성한다. Classifier-Free Guidance로 조건 신호를 강화해 프롬프트 적합도를 높일 수 있다.

가속/변형

DDPM 기본 다단계 샘플링을, DDIM, DPM-Solver, 샘플러(Heun, Euler 등)로 가속한다.

Latent Diffusion(예: Stable Diffusion)은 픽셀 공간 대신 VAE 잠재공간에서 확산을 수행해 메모리·속도를 크게 개선한다.

ControlNet, LoRA, T2I-Adapter 등으로 조건(스케치, 깊이, 포즈, 세그멘트)을 추가해 제어 가능한 생성이 가능해진다.

Diffusion 모델의 장점

고품질·안정적 생성

모드 붕괴가 상대적으로 적고, 세부 디테일과 질감 표현이 뛰어나 다양한 도메인에서 높은 FID/IS를 달성한다.

조건부 제어 용이성

텍스트, 스케치, 포즈, 깊이 지도, 엣지 등 다양한 조건을 유연하게 붙일 수 있어 원하는 구도를 정교하게 유도한다.

학습의 안정성

GAN 대비 학습이 안정적으로 수렴하는 경향이 있어 대규모 데이터·모델에서 재현성이 높다.

해상도·도메인 확장성

잠재 확산으로 자원 효율이 좋아지고, 업스케일러/리파이너와 결합해 고해상도 이미지를 생성한다. 포토, 일러스트, 의료/위성 등 도메인 적응이 수월하다.

안전·편집 워크플로 적합성

Inpainting/Outpainting, 이미지-투-이미지, 스타일 전환, 컨트롤 지도로의 편집이 자연스럽게 된다. 콘텐츠 필터링·가이드 강도 조절로 안전 제어가 비교적 용이하다.

저작자표시 (새창열림)

'#위클리 페이퍼' 카테고리의 다른 글

#위클리 페이퍼 11 (0)	2025.10.19
#위클리 페이퍼 10 (0)	2025.10.02
#위클리 페이퍼 8 (3)	2025.08.29
#위클리 페이퍼 7 (0)	2025.08.22
# 위클리 페이퍼 6 (3)	2025.08.15

티스토리툴바