Yolo 비전 선전
선전
지금 참여하기
용어집

대규모 언어 모델(LLM)

대규모 언어 모델(LLM)이 고급 NLP로 AI를 혁신하여 챗봇, 콘텐츠 생성 등에 전력을 공급합니다. 주요 개념을 알아보세요!

A Large Language Model (LLM) is a sophisticated type of Artificial Intelligence (AI) trained on massive datasets to understand, generate, and manipulate human language. These models represent a significant evolution in Deep Learning (DL), utilizing neural networks with billions of parameters to capture complex linguistic patterns, grammar, and semantic relationships. At their core, most modern LLMs rely on the Transformer architecture, which allows them to process sequences of data in parallel rather than sequentially. This architecture employs a self-attention mechanism, enabling the model to weigh the importance of different words in a sentence relative to one another, regardless of their distance in the text.

LLM의 핵심 메커니즘

LLM의 기능은 토큰화에서 시작됩니다. 이 과정은 원시 텍스트를 토큰(단어 또는 하위 단어)이라 불리는 더 작은 단위로 분해하는 것입니다. 모델 훈련 단계에서 시스템은 인터넷, 서적, 기사에서 페타바이트 규모의 텍스트를 분석합니다. 비지도 학습을 통해 시퀀스 내 다음 토큰을 예측함으로써 언어의 통계적 구조를 효과적으로 학습합니다.

초기 훈련 이후 개발자들은 종종 의료 분석이나 코딩 지원과 같은 특정 작업을 위해 모델을 전문화하기 위해 미세 조정을 적용합니다. 이러한 적응성 때문에 스탠퍼드 기초 모델 연구 센터와 같은 기관들은 classify "기초 모델" classify 특정 응용 프로그램이 구축되는 광범위한 기반입니다.

실제 애플리케이션

LLM은 이론적 연구를 넘어 다양한 산업 분야에서 실질적이고 영향력 있는 응용 분야로 확장되었습니다:

  • Intelligent Virtual Assistants: Modern customer service relies heavily on chatbots powered by LLMs. Unlike older rule-based systems, these agents can handle nuanced queries. To improve accuracy and reduce hallucinations, developers integrate Retrieval Augmented Generation (RAG), allowing the model to reference external, up-to-date company documentation before answering.
  • Multimodal Vision-Language Systems: The frontier of AI connects text with visual data. Vision-Language Models (VLMs) allow users to query images using natural language. For instance, combining a linguistic interface with a robust detector like YOLO26 enables systems to identify and describe objects in real-time video feeds based on spoken commands.

텍스트와 비전을 코드로 연결하다

While standard LLMs process text, the industry is shifting toward Multimodal AI. The following example demonstrates how linguistic prompts can control computer vision tasks using YOLO-World, a model that understands text descriptors for open-vocabulary detection.

from ultralytics import YOLOWorld

# Load a model capable of understanding natural language prompts
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using text descriptions rather than fixed labels
model.set_classes(["person wearing a red helmet", "blue industrial machine"])

# Run inference to detect these specific text-defined objects
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show results
results[0].show()

관련 개념 구분하기

LLM을 더 광범위하거나 유사한 용어와 구분하는 것이 중요합니다:

  • LLM vs. Natural Language Processing (NLP): NLP is the overarching academic field concerned with the interaction between computers and human language. An LLM is a specific tool or technology used within that field to achieve state-of-the-art results.
  • LLM vs. Generative AI: Generative AI is a category that encompasses any AI capable of creating new content. LLMs are the text-based subset of this category, whereas models like Stable Diffusion represent the image-generation subset.

과제 및 향후 전망

LLM은 뛰어난 능력에도 불구하고 훈련 데이터에 존재하는 편견을 무의식적으로 재생산할 수 있어 AI 편향성 문제에 직면해 있습니다. 또한 GPT-4나 Google 같은 모델 훈련에 필요한 막대한 연산 능력은 에너지 소비에 대한 우려를 불러일으킵니다. 현재 연구는 이러한 시스템을 에지 하드웨어에서 실행할 수 있을 만큼 효율적으로 만들기 위한 모델 양자화에 집중되고 있습니다.

더 깊은 기술적 통찰을 위해, 원본 논문 Attention Is All You Need는 트랜스포머의 기초 이론을 제공합니다. 또한 어떻게 NVIDIA 이 이러한 대규모 워크로드를 위해 하드웨어를 최적화하는 방법도 살펴볼 수 있습니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기