#위클리 페이퍼 11

카테고리

#위클리 페이퍼

작성일

2025. 10. 19. 23:53

작성자

갱수터

728x90

1. BERT와 GPT의 주요 차이점은 무엇인가요?

각각의 기본 구조와 작동 방식, 적합한 NLP 응용 분야를 위주로 설명해주세요.

BERT GPT

개요 요약 양방향(비순차) 컨텍스트를 학습하는 인코더 기반 모델로, 입력 저체 문맥을 동시에 고려해 문장 이해(표현 학습)에 강하다.
주로 분류, 태깅, 질의응답 등 이해 과제에 적합 Autoregressive(왼→오)디코더 기반 생성 모델로,이전 토큰을 조건으로 다음 토큰을 예측하는 방식으로 학습한다.
텍스트 생성, 완성, 대화형 응용에 강함

아키텍처 트랜스포머의 인코더 블록만 사용
입력 전체의 모든 토큰이 서로를 참조하는 self-attention(양방향)을 사용함 트랜스포머의 디코더 구조를 사용.
마스킹된 어텐션을 써서 각 시점은 이전 토큰들만 참조한다(단방향)

입력 처리 전체 문장을 한 번에 넣어 [CLS],[SEP] 같은 특수 토큰으로 문장 경계,문제 유형을 표기.
문장 전체 문맥을 이용한 표현을 생성 주로 프롬프트(토큰 시퀀스)를 입력으로 받고, 이어서 올 텍스트를 생성하도록 조건부 확률을 계산

사전학습 목표 Masked Language Modling(입력 일부 토큰을 마스킹하고 이를 예측) + Next Sentence Prediction(초기 버전) 등으로 양방향 문맥 학습 Causal Language Modeling(다음 토큰 예측)을 통해 자연스럽고 일관된 텍스트 생성 능력을 학습

미세조정(파인튜닝)과
사용 방식 분류,태깅,QA 등 다운스트림 태스크에 맞춰 출력 헤드를 붙여 파인튜닝한다.
소량의 레이블 데이터로도 좋은 성능을 냄 프롬프트 엔지니어링(제로샷, 원샷, 퓨샷)으로 바로 활용하거나, 파인튜닝/LoRA 같은 경량 파인튜닝으로 생성 성능, 도메인 특화 능력을 개선

적합한 NLP 응용 분야 문장/문서 분류, 개체명 인식(NER), 관계 추출, 문장 쌍 유사도, 읽기 이해(QA; extractive QA), 문장 수준 임베딩 기반 검색(semantic search) 등 이해 중심 태스크에 유리 자유 텍스트 생성(요약, 번역(생성형), 스토리/콘텐츠 작성), 대화형 에이전트(챗봇), 공백 채우기(conditional completion), 코드 생성/보완, 스타일·창의적 생성 등 생성 중심 태스크에 유리

장점 - 문맥을 양방향으로 학습해 문장 이해력이 우수
- 전형적으로 파인튜닝만으로 소량 데이터에서도 빠르게 좋은 성능을 얻기 쉬움
- 인퍼런스 시 입력 길이에 대해 안정적인 표현을 제공 - 자연스럽고 유연한 텍스트 생성 능력이 탁월함
- 프롬프트만으로 다양한 태스크를 수행할 수 있음(특히 대규모 모델)
- 대화,창작,조건부 생성에서 직관적이며 실무 적용이 쉬움

단점 - 오토리그레시브 생성이 직접적이지 않아 텍스트 생성 작업에는 추가적 구조(디코더 또는 생성 헤드)가 필요
- 문장 생성, 연속 텍스트 생성 용도에는 제약이 따름 - 단방향 학습 특성상 문장 이해(특정 위치 토큰의 양방향 맥락 활용)에서 BERT 계열보다 불리할 수 있음
- 파인튜닝 없이 프롬프트마으로 해결하기 어려운 세밀한 이해 태스크는 성능이 제한될 수 있음
- 생성 모델 특성상 통제되지 않은 출력(허위 정보 생성 등) 관리가 필요함

선택 가이드

문장 이해·정확한 라벨 예측(분류·NER·추출형 QA 등) → BERT 또는 양방향 인코더 계열을 우선 고려

텍스트 생성·대화·콘텐츠 자동화·조건부 생성(프롬프트 기반) → GPT(디코더형) 계열을 우선 고려

혼합 요구(예: 이해 후 자연어 생성) → 하이브리드 또는 seq2seq(인코더-디코더) 모델(T5, BART 등)을 고려. 인코더의 이해 능력과 디코더의 생성 능력을 함께 활용할 수 있다.

2. Hugging Face Transformers 라이브러리는 무엇이며, 어떤 기능을 제공하나요?

Hugging Face Transformers는 트랜스포머(Transformer) 기반의 사전학습 모델과 관련 도구들을 모아 놓은 파이썬 라이브러리로, 자연어처리(NLP)를 포함해 이미지·오디오 등 멀티모달 작업에도 널리 사용됨. 모델 허브와 토크나이저, 학습·배포 도구들을 일관된 API로 제공해 연구 및 실무 적용을 크게 단순화한다.

모델 허브(Model Hub) 수천 개의 사전학습 모델(예: BERT, GPT 계열, T5, ViT, CLIP 등)을 다운로드·공유할 수 있음.
모델 페이지에 가중치, 토크나이저, 사용 예시가 포함되어 있어 즉시 활용 가능함.

Transformers (모델 API) 다양한 아키텍처의 사전학습 모델과 토크나이저를 통일된 인터페이스로 제공함.
AutoModel / AutoTokenizer 계층으로 모델 종류를 신경 쓰지 않고 불러올 수 있음.

Tokenizers (고속 토크나이저) Hugging Face 토크나이저는 Rust 기반으로 매우 빠르며,
BPE/WordPiece/Unigram 같은 서브워드 토크나이저를 지원함.
병렬 처리와 커스텀 학습도 가능함.

Datasets 대규모 데이터셋을 메모리 효율적으로 로드·전처리하는 기능을 제공함.
스트리밍, 캐시, 매핑(map) 변환, 필터링을 손쉽게 처리함.

Trainer / Training utilities 표준 학습 루프(학습/검증/로깅/체크포인트)를 자동화해 파인튜닝을 간단히 함.
옵티마이저, 스케줄러, 분산 학습 옵션을 내장함.

Pipelines (간단 추론 파이프라인) 텍스트 생성, 분류, NER, 요약, 질의응답 등 자주 쓰는 작업을 짧은 코드로 실행할 수 있음.
프로토타입 제작과 데모에 유리함.

Accelerate / PEFT /
BitsAndBytes 등
최적화 도구 연동 멀티GPU/멀티노드 학습, 혼합정밀(FP16/bfloat16), 저비용 파인튜닝(LoRA, PEFT),
8비트/4비트 양자화 등을 지원해 대규모 모델을 효율적으로 다룰 수 있음.

모델 변환·배포
(ONNX, TorchScript,
Transformers Export)
ONNX/TensorRT 등으로 변환해 추론 속도를 높이고, Hugging Face Hub 또는 자체 서버로 배포할 수 있음.

커뮤니티·생태계
허브 기반 공유, 예제 노트북, 평가 스크립트, 튜토리얼이 풍부해 연구→제품화로 이어지기 쉬움.

3. BERT와 GPT 이후 등장한 주요 사전학습 모델에는 어떤 것들이 있으며, 특징은 무엇인가요?

구글링 등을 통해 자유롭게 리서치해서 정리해보세요.

1) RoBERTa (Robustly optimized BERT pretraining approach)

핵심: BERT의 MLM(마스크 언어모델) 설정을 재검토해 더 긴 학습, 큰 배치, 더 많은 데이터, 동적 마스크(dynamic masking)로 학습한 모델이다. NSP(Next Sentence Prediction)를 제거해 사전학습 목표를 단순화함.

장점·응용: BERT보다 일반화 성능이 좋아 분류·QA·검색 임무에서 베이스라인 성능을 끌어올릴 때 유용함.

2) ALBERT (A Lite BERT)

핵심: 파라미터 공유와 팩터라이즈드 임베딩(matrix factorization)으로 모델 크기에 비해 파라미터 수를 절약하고 학습 효율을 높임. 추가로 Sentence Order Prediction(SOP) 같은 사전학습 목표를 도입함.

장점·응용: 메모리/연산 제약이 있는 환경에서 큰 모델 성능을 얻고자 할 때 유리함.

3) XLNet

핵심: 순열 언어모델(permutation LM)을 사용해 양방향 문맥을 캡처하면서도 오토리그레시브 우수성을 유지하려는 접근법을 제안함. Transformer-XL의 장기 의존성 처리를 결합함.

장점·응용: 긴 문맥을 다루거나 양방향 문맥의 표현이 중요한 태스크에서 성능 향상 가능함(번역·요약·QA 등).

4) ELECTRA

핵심: 재생성 방식(replaced token detection)으로 효율적으로 사전학습을 수행함. 생성자(작은 MLM)와 판별자(진위 판별)를 두고 판별자만 최종 사용함 → 같은 계산량으로 더 빠르게 학습 가능.

장점·응용: 데이터·연산이 제한된 상황에서 BERT 계열보다 빠르게 좋은 표현을 학습할 때 유리함.

5) T5 (Text-to-Text Transfer Transformer)

핵심: 모든 NLP 문제를 텍스트→텍스트 형식으로 통일해 Seq2Seq(인코더-디코더)로 학습함. 다양한 태스크(요약·번역·분류)를 같은 포맷으로 다룸.

장점·응용: 태스크 통합, 멀티태스크 전이, 생성 기반 작업(요약·질문응답·번역)에 강함.

6) BART

핵심: 인코더-디코더 구조로, 텍스트를 부분적으로 손상시키고 복원하는 denoising 목표로 학습함(디노이징 오토인코더). 생성 품질과 이해 능력 간 균형이 좋음.

장점·응용: 추출/생성형 요약, 번역, 인페인팅형 텍스트 생성에 강함.

7) DeBERTa

핵심: disentangled attention(쿼리·키의 분리 표현)과 향상된 포지셔널 인코딩(relative position) 도입으로 표현력을 높임.

장점·응용: 다양한 이해 태스크에서 강한 성능을 보이며, BERT/RoBERTa를 대체할 수 있는 고성능 백본으로 사용됨.

8) Transformer-XL / Longformer / Reformer / BigBird (긴 문맥 처리 모델들)

핵심: 시퀀스 길이 확장 문제를 해결하려는 모델군

Transformer-XL: 재사용 가능한 상태(segment recurrence)로 장기 의존성 처리 향상

Longformer / BigBird: 희소(sparse) 어텐션으로 O(n^2) 비용 완화 → 긴 문서 처리

Reformer: 해시 어텐션·역수학적 트릭으로 메모리·시간 절감

장점·응용: 문서 검색, 법률·의학 문서 처리, 긴 컨텍스트 기반 QA/요약에 적합함.

9) PEGASUS / ProphetNet (생성·요약 특화)

핵심: 요약 태스크 성능을 높이기 위해 사전학습 데이터 생성 목표를 요약 친화적으로 설계함(문장 마스킹/중요 문장 예측 등).

장점·응용: 지도학습 데이터가 적어도 추상적 요약 성능을 끌어올리는 데 강함.

10) UniLM / MASS (통합·마스킹 기반 Seq2Seq)

핵심: 인코더-디코더 구성에서 단일 모델로 다양한 언어모델링 목적(양방향·단방향·시퀀스-투-시퀀스)을 통합 학습할 수 있게 설계함.

장점·응용: 번역·생성·이해 태스크를 하나의 모델로 대응하려는 경우 유리함.

11) mBERT / mT5 / mBART (다국어 모델)

핵심: 여러 언어를 동시에 학습해 다국어 전이 가능하게 설계함. mT5는 T5의 다국어 확장, mBART는 다언어 인코더-디코더.

장점·응용: 저자원 언어 전이, 다국어 번역·요약·분류에 활용됨.

12) GPT-2 / GPT-3 / PaLM / LLaMA / BLOOM (대규모 생성형·디코더형 모델)

핵심: 대규모 파라미터로 강력한 오토리그레시브 생성 능력 확보. GPT-3부터는 제로/원샷 성능이 크게 향상됨. PaLM/LLaMA/BLOOM 등은 아키텍처·토크나이저·학습 데이터/스케일의 차이로 성능·비용 트레이드오프를 제공함.

장점·응용: 대화형 에이전트, 창작·요약·코드 생성, 프롬프트 기반 태스크에 강력함. 파인튜닝·LoRA로 도메인 특화가 가능함.

13) Retrieval-augmented 및 혼합 아키텍처 (RAG, REALM 등)

핵심: 외부 지식베이스(검색)와 결합해 생성/응답 시 실시간 문서 검색으로 정확성 향상. 모델이 메모리에 모든 지식을 담지 않아도 됨.

장점·응용: 사실성 높은 응답, 지식 기반 QA, 도메인 지식 통합 응용에 적합함.

14) 멀티모달·비전-언어 모델 (CLIP, DALL·E, Flamingo, BLIP 등)

핵심: 텍스트와 이미지를 함께 임베딩하거나 조건부 생성하는 모델군. CLIP은 텍스트-이미지 매칭을, DALL·E/Stable Diffusion은 텍스트-투-이미지 생성을, Flamingo/BLIP는 멀티모달 컨텍스트 기반 생성·응답을 다룸.

장점·응용: 이미지 검색, 캡셔닝, 텍스트-이미지 생성·편집, 멀티모달 검색·QA에 활용됨.

728x90

저작자표시 (새창열림)

'#위클리 페이퍼' 카테고리의 다른 글

#위클리 페이퍼12 (0)	2025.10.24
#위클리 페이퍼 10 (0)	2025.10.02
#위클리 페이퍼 9 (0)	2025.09.07
#위클리 페이퍼 8 (3)	2025.08.29
#위클리 페이퍼 7 (0)	2025.08.22

	BERT	GPT
개요 요약	양방향(비순차) 컨텍스트를 학습하는 인코더 기반 모델로, 입력 저체 문맥을 동시에 고려해 문장 이해(표현 학습)에 강하다. 주로 분류, 태깅, 질의응답 등 이해 과제에 적합	Autoregressive(왼→오)디코더 기반 생성 모델로,이전 토큰을 조건으로 다음 토큰을 예측하는 방식으로 학습한다. 텍스트 생성, 완성, 대화형 응용에 강함
아키텍처	트랜스포머의 인코더 블록만 사용 입력 전체의 모든 토큰이 서로를 참조하는 self-attention(양방향)을 사용함	트랜스포머의 디코더 구조를 사용. 마스킹된 어텐션을 써서 각 시점은 이전 토큰들만 참조한다(단방향)
입력 처리	전체 문장을 한 번에 넣어 [CLS],[SEP] 같은 특수 토큰으로 문장 경계,문제 유형을 표기. 문장 전체 문맥을 이용한 표현을 생성	주로 프롬프트(토큰 시퀀스)를 입력으로 받고, 이어서 올 텍스트를 생성하도록 조건부 확률을 계산
사전학습 목표	Masked Language Modling(입력 일부 토큰을 마스킹하고 이를 예측) + Next Sentence Prediction(초기 버전) 등으로 양방향 문맥 학습	Causal Language Modeling(다음 토큰 예측)을 통해 자연스럽고 일관된 텍스트 생성 능력을 학습
미세조정(파인튜닝)과 사용 방식	분류,태깅,QA 등 다운스트림 태스크에 맞춰 출력 헤드를 붙여 파인튜닝한다. 소량의 레이블 데이터로도 좋은 성능을 냄	프롬프트 엔지니어링(제로샷, 원샷, 퓨샷)으로 바로 활용하거나, 파인튜닝/LoRA 같은 경량 파인튜닝으로 생성 성능, 도메인 특화 능력을 개선
적합한 NLP 응용 분야	문장/문서 분류, 개체명 인식(NER), 관계 추출, 문장 쌍 유사도, 읽기 이해(QA; extractive QA), 문장 수준 임베딩 기반 검색(semantic search) 등 이해 중심 태스크에 유리	자유 텍스트 생성(요약, 번역(생성형), 스토리/콘텐츠 작성), 대화형 에이전트(챗봇), 공백 채우기(conditional completion), 코드 생성/보완, 스타일·창의적 생성 등 생성 중심 태스크에 유리
장점	- 문맥을 양방향으로 학습해 문장 이해력이 우수 - 전형적으로 파인튜닝만으로 소량 데이터에서도 빠르게 좋은 성능을 얻기 쉬움 - 인퍼런스 시 입력 길이에 대해 안정적인 표현을 제공	- 자연스럽고 유연한 텍스트 생성 능력이 탁월함 - 프롬프트만으로 다양한 태스크를 수행할 수 있음(특히 대규모 모델) - 대화,창작,조건부 생성에서 직관적이며 실무 적용이 쉬움
단점	- 오토리그레시브 생성이 직접적이지 않아 텍스트 생성 작업에는 추가적 구조(디코더 또는 생성 헤드)가 필요 - 문장 생성, 연속 텍스트 생성 용도에는 제약이 따름	- 단방향 학습 특성상 문장 이해(특정 위치 토큰의 양방향 맥락 활용)에서 BERT 계열보다 불리할 수 있음 - 파인튜닝 없이 프롬프트마으로 해결하기 어려운 세밀한 이해 태스크는 성능이 제한될 수 있음 - 생성 모델 특성상 통제되지 않은 출력(허위 정보 생성 등) 관리가 필요함

모델 허브(Model Hub)	수천 개의 사전학습 모델(예: BERT, GPT 계열, T5, ViT, CLIP 등)을 다운로드·공유할 수 있음. 모델 페이지에 가중치, 토크나이저, 사용 예시가 포함되어 있어 즉시 활용 가능함.
Transformers (모델 API)	다양한 아키텍처의 사전학습 모델과 토크나이저를 통일된 인터페이스로 제공함. AutoModel / AutoTokenizer 계층으로 모델 종류를 신경 쓰지 않고 불러올 수 있음.
Tokenizers (고속 토크나이저)	Hugging Face 토크나이저는 Rust 기반으로 매우 빠르며, BPE/WordPiece/Unigram 같은 서브워드 토크나이저를 지원함. 병렬 처리와 커스텀 학습도 가능함.
Datasets	대규모 데이터셋을 메모리 효율적으로 로드·전처리하는 기능을 제공함. 스트리밍, 캐시, 매핑(map) 변환, 필터링을 손쉽게 처리함.
Trainer / Training utilities	표준 학습 루프(학습/검증/로깅/체크포인트)를 자동화해 파인튜닝을 간단히 함. 옵티마이저, 스케줄러, 분산 학습 옵션을 내장함.
Pipelines (간단 추론 파이프라인)	텍스트 생성, 분류, NER, 요약, 질의응답 등 자주 쓰는 작업을 짧은 코드로 실행할 수 있음. 프로토타입 제작과 데모에 유리함.
Accelerate / PEFT / BitsAndBytes 등 최적화 도구 연동	멀티GPU/멀티노드 학습, 혼합정밀(FP16/bfloat16), 저비용 파인튜닝(LoRA, PEFT), 8비트/4비트 양자화 등을 지원해 대규모 모델을 효율적으로 다룰 수 있음.
모델 변환·배포 (ONNX, TorchScript, Transformers Export)	ONNX/TensorRT 등으로 변환해 추론 속도를 높이고, Hugging Face Hub 또는 자체 서버로 배포할 수 있음.
커뮤니티·생태계	허브 기반 공유, 예제 노트북, 평가 스크립트, 튜토리얼이 풍부해 연구→제품화로 이어지기 쉬움.

1. BERT와 GPT의 주요 차이점은 무엇인가요?

2. Hugging Face Transformers 라이브러리는 무엇이며, 어떤 기능을 제공하나요?

3. BERT와 GPT 이후 등장한 주요 사전학습 모델에는 어떤 것들이 있으며, 특징은 무엇인가요?

1) RoBERTa (Robustly optimized BERT pretraining approach)

2) ALBERT (A Lite BERT)

3) XLNet

4) ELECTRA

5) T5 (Text-to-Text Transfer Transformer)

6) BART

7) DeBERTa

8) Transformer-XL / Longformer / Reformer / BigBird (긴 문맥 처리 모델들)

9) PEGASUS / ProphetNet (생성·요약 특화)

10) UniLM / MASS (통합·마스킹 기반 Seq2Seq)

11) mBERT / mT5 / mBART (다국어 모델)

12) GPT-2 / GPT-3 / PaLM / LLaMA / BLOOM (대규모 생성형·디코더형 모델)

13) Retrieval-augmented 및 혼합 아키텍처 (RAG, REALM 등)

14) 멀티모달·비전-언어 모델 (CLIP, DALL·E, Flamingo, BLIP 등)

'#위클리 페이퍼' 카테고리의 다른 글

티스토리툴바