욜로 비전 선전
선전
지금 참여하기
용어집

Sequence-to-Sequence 모델

Sequence-to-sequence 모델이 입력 시퀀스를 출력 시퀀스로 변환하여 번역, 챗봇, 음성 인식과 같은 AI 작업을 지원하는 방법을 알아보세요.

Sequence-to-Sequence(Seq2Seq) 모델은 입력 시퀀스를 출력 시퀀스로 변환하도록 설계된 딥러닝 모델의 한 종류이며, 입력과 출력의 길이는 서로 다를 수 있습니다. 이러한 유연성 덕분에 자연어 처리(NLP)를 비롯한 광범위한 작업에 매우 강력하게 사용됩니다. 이 핵심 아이디어는 GoogleYoshua Bengio 연구소의 연구진이 발표한 논문에서 소개되었으며, 기계 번역과 같은 분야에 혁명을 일으켰습니다.

Seq2Seq 모델 작동 방식

Seq2Seq 모델은 인코더-디코더 아키텍처를 기반으로 구축되었습니다. 이 구조 덕분에 모델은 가변 길이 시퀀스를 효과적으로 처리할 수 있습니다.

  • 인코더: 이 구성 요소는 영어 문장과 같은 전체 입력 시퀀스를 처리합니다. 시퀀스를 한 번에 하나씩(예: 단어별로) 읽고 정보를 컨텍스트 벡터 또는 "사고 벡터"라고 하는 고정 길이의 숫자 표현으로 압축합니다. 전통적으로 인코더는 순환 신경망(RNN) 또는 순차적 정보 캡처에 능숙한 LSTM(Long Short-Term Memory)과 같은 고급 변형입니다.

  • 디코더: 이 구성 요소는 인코더의 컨텍스트 벡터를 초기 입력으로 사용합니다. 그 역할은 출력 시퀀스를 한 번에 하나씩 생성하는 것입니다. 예를 들어 번역 작업에서는 번역된 문장을 단어별로 생성합니다. 각 단계의 출력은 다음 단계에서 디코더로 다시 공급되어 일관성 있는 시퀀스를 생성할 수 있습니다. 이 프로세스는 특수한 시퀀스 종료 토큰이 생성될 때까지 계속됩니다. Seq2Seq 성능을 크게 향상시킨 핵심 혁신은 어텐션 메커니즘으로, 디코더가 출력을 생성하는 동안 원래 입력 시퀀스의 여러 부분을 다시 살펴볼 수 있습니다.

Seq2Seq 모델의 응용

가변 길이 입력을 가변 길이 출력에 매핑하는 기능은 Seq2Seq 모델을 매우 다재다능하게 만듭니다.

  • 기계 번역: 이는 전형적인 응용 분야입니다. 모델은 한 언어(예: "How are you?")의 문장을 다른 언어(예: "Wie geht es Ihnen?")로 번역할 수 있습니다. Google 번역과 같은 서비스는 이러한 원리를 광범위하게 활용해 왔습니다.
  • 텍스트 요약: Seq2Seq 모델은 긴 기사나 문서(입력 시퀀스)를 읽고 간결한 요약(출력 시퀀스)을 생성할 수 있습니다. 이는 대량의 텍스트를 이해하기 쉬운 통찰력으로 압축하는 데 유용합니다.
  • 챗봇 및 대화형 AI: 모델은 사용자 쿼리 또는 진술(입력 시퀀스)에 대한 관련성 있고 상황에 맞는 응답(출력 시퀀스)을 생성하도록 훈련될 수 있습니다.
  • Image Captioning(이미지 캡셔닝): 이는 컴퓨터 비전과 관련이 있지만 원리는 유사합니다. CNN은 이미지를 처리하고 컨텍스트 벡터를 생성하는 인코더 역할을 하며, 디코더는 이를 사용하여 설명적인 텍스트 시퀀스를 생성합니다. 이는 다중 모드 모델의 예입니다.

Seq2Seq vs. 기타 아키텍처

RNN 기반의 Seq2Seq 모델은 획기적이었지만, 이 분야는 다음과 같이 진화했습니다.

  • 표준 RNN(Standard RNNs): 일반적으로 시퀀스를 동일한 길이의 시퀀스에 매핑하거나 전체 시퀀스를 분류하며, 가변 출력 길이에 대한 인코더-디코더 구조의 유연성이 부족합니다.
  • Transformers: 이제 이전에 RNN 기반 Seq2Seq 모델에서 처리했던 많은 NLP 작업을 지배합니다. 재귀 대신 셀프 어텐션 및 위치 인코딩을 사용하여 더 나은 병렬화를 허용하고 장거리 종속성을 보다 효과적으로 캡처합니다. 그러나 기본 인코더-디코더 개념은 많은 Transformer 기반 모델의 중심으로 남아 있습니다. Ultralytics에서 지원하는 Baidu의 RT-DETR과 같은 모델은 객체 감지를 위해 Transformer 구성 요소를 통합합니다.
  • CNN: 주로 이미지와 같은 그리드 형태의 데이터에 사용되지만(Ultralytics YOLO 모델에서 감지 및 분할에 사용), 시퀀스 작업에 맞게 조정되기도 합니다.

Seq2Seq는 종종 RNN 기반 인코더-디코더 구조를 지칭하지만, 중간 표현을 사용하여 입력 시퀀스를 출력 시퀀스에 매핑하는 일반적인 원칙은 많은 최신 아키텍처의 핵심으로 남아 있습니다. PyTorchTensorFlow와 같은 도구는 기존 시퀀스 모델과 최신 시퀀스 모델을 모두 구현하기 위한 빌딩 블록을 제공합니다. 학습 프로세스 관리는 전체 모델 배포 파이프라인을 간소화하는 Ultralytics HUB와 같은 플랫폼을 사용하여 간소화할 수 있습니다.

Ultralytics 커뮤니티에 참여하세요

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기
클립보드에 링크가 복사되었습니다.