용어집

대규모 언어 모델(LLM)

대규모 언어 모델(LLM)이 어떻게 고급 NLP를 통해 AI를 혁신하고 챗봇, 콘텐츠 제작 등을 지원하는지 알아보세요. 핵심 개념을 알아보세요!

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

대규모 언어 모델(LLM)은 인공 지능(AI) 분야, 특히 자연어 처리(NLP) 분야에서 상당한 발전을 이루었습니다. 이러한 모델은 수십억 개의 매개변수를 포함하는 엄청난 규모를 특징으로 하며, 텍스트와 코드로 구성된 방대한 데이터 세트를 학습합니다. 이러한 광범위한 훈련을 통해 LLM은 문맥을 이해하고, 일관성 있고 인간과 유사한 텍스트를 생성하며, 언어를 번역하고, 질문에 답하고, 다양한 언어 기반 작업을 놀라운 능숙도로 수행할 수 있습니다. LLM은 특정 유형의 딥러닝(DL) 모델로, 수많은 애플리케이션에서 혁신을 주도하며 최신 제너레이티브 AI의 초석을 형성하고 있습니다.

정의

대규모 언어 모델은 기본적으로 영향력 있는 논문인"주의력만 있으면 된다"에서 소개된 트랜스포머 아키텍처를 기반으로 하는 정교한 신경망(NN)입니다. LLM의 '대규모'는 수십억 개에서 수조 개에 이르는 엄청난 수의 매개변수, 즉학습 중에 조정되는 변수를의미합니다. 일반적으로 매개변수 수가 많을수록 모델이 데이터에서 더 복잡한 패턴을 학습할 수 있습니다.

LLM은 인터넷, 서적 및 기타 출처에서 수집한 방대한 텍스트 말뭉치에 대한 비지도 학습을 통해 이러한 패턴을 학습하며, 이를 흔히 빅 데이터라고 합니다. 이 과정을 통해 문법, 사실, 추론 능력, 어조와 스타일 같은 뉘앙스까지 파악할 수 있지만, 학습 데이터에 존재하는 편견도 학습할 수 있습니다. 학습 과정에서 개발되는 핵심 기능은 문장의 다음 단어를 예측하는 것입니다. 이러한 예측 능력은 텍스트 생성, 언어 모델링, 질문 답변과 같은 보다 복잡한 작업의 기초를 형성합니다.

잘 알려진 예로는 OpenAI의 GPT 시리즈 (예: GPT-4), Llama 3와 같은 Meta AI의 Llama 모델, Google DeepMind의 Gemini, Claude의 Anthropic.

애플리케이션

LLM의 다용도성 덕분에 다양한 영역에 적용할 수 있습니다. 다음은 두 가지 구체적인 예입니다:

  • 대화형 AI: LLM은 많은 고급 챗봇과 가상 비서의 기반이 되는 엔진입니다. 이를 통해 이러한 시스템은 사용자 질문을 이해하고, 대화에 대한 맥락을 유지하며, 자연스러운 답변을 생성할 수 있습니다. 대표적인 예로 LLM을 사용하여 상세한 대화에 참여하고, 후속 질문에 답하고, 실수를 인정하는 OpenAI의 ChatGPT 들 수 있습니다.
  • 콘텐츠 제작 및 요약: LLM은 기사, 이메일, 마케팅 카피, 창작 글쓰기 등 다양한 형태의 서면 콘텐츠를 생성하는 데 도움을 줄 수 있습니다. 또한 긴 문서를 간결한 개요로 압축하는 텍스트 요약에도 능숙하여 정보 과부하를 방지하는 데 도움이 됩니다. JasperMicrosoft Copilot과 같은 도구는 이러한 목적으로 LLM을 활용합니다.

주요 개념

LLM을 이해하려면 몇 가지 관련 개념을 숙지해야 합니다:

  • 파운데이션 모델: LLM은 광범위한 데이터에 대해 학습되고 처음부터 학습할 필요 없이 다양한 다운스트림 작업에 맞게 조정(또는 미세 조정)할 수 있기 때문에 종종 기초 모델로 간주됩니다.
  • 주의 메커니즘: 특히 자기 주의 메커니즘을 통해 모델은 특정 단어를 처리할 때 입력 시퀀스에서 여러 단어(토큰)의 중요도를 평가할 수 있습니다. 이는 텍스트 내의 문맥과 관계를 이해하는 데 매우 중요합니다.
  • 프롬프트 엔지니어링: 이는 LLM이 원하는 출력을 생성하도록 안내하는 효과적인 입력 프롬프트를 설계하는 기술 및 과학을 말합니다. 프롬프트의 품질은 응답의 정확성과 관련성에 큰 영향을 미칩니다. 연쇄 사고 프롬프트와 같은 기법은 복잡한 작업에서 추론을 개선하는 데 도움이 됩니다.
  • 토큰화: 텍스트를 처리하기 전에 LLM은 텍스트를 토큰이라는 작은 단위로 분해합니다. 이러한 토큰은 단어, 하위 단어 또는 문자가 될 수 있습니다. 토큰화는 원시 텍스트를 모델이 이해할 수 있는 숫자 형식으로 변환합니다. 다음과 같은 플랫폼 Hugging Face 와 같은 플랫폼은 다양한 토큰화 전략에 대한 도구와 정보를 제공합니다.

LLM과 컴퓨터 비전 모델 비교

LLM은 언어 작업에는 탁월하지만 주로 컴퓨터 비전(CV)을 위해 설계된 모델과는 크게 다릅니다. 다음과 같은 CV 모델은 Ultralytics YOLO 모델(예 YOLOv8, YOLOv9, YOLOv10, YOLO11)은 이미지나 비디오의 시각적 정보를 해석하는 데 특화되어 있습니다. 객체 감지, 이미지 분류, 인스턴스 세분화 등의 작업을 수행합니다.

그러나 다중 모달 모델과 비전 언어 모델(VLM)의 등장으로 그 경계가 모호해지고 있습니다. OpenAI의 GPT-4o나 Google Gemini와 같은 이러한 모델은 텍스트와 이미지 등 다양한 양식에 걸쳐 이해를 통합하여 이미지를 설명하거나 시각적 콘텐츠에 대한 질문에 답하는 등의 작업을 가능하게 합니다.

Ultralytics HUB와 같은 플랫폼은 비전 작업을 포함한 다양한 AI 모델을 훈련하고 배포할 수 있는 도구와 인프라를 제공하여 다양한 AI 애플리케이션의 개발을 촉진합니다. LLM 및 기타 AI 모델이 더욱 강력해짐에 따라 AI 윤리, 알고리즘 편향성, 데이터 개인정보 보호에 대한 고려 사항이 점점 더 중요해지고 있습니다. AI 개념과 모델 비교에 대한 자세한 내용은 Ultralytics 설명서모델 비교 페이지를 참조하세요.

모두 보기