용어집

언어 모델링

언어 모델링이 고급 기술을 통해 텍스트 생성, 기계 번역 및 음성 인식과 같은 NLP 및 AI 애플리케이션에 어떻게 전력을 공급하는지 알아보세요.

언어 모델링은 인공 지능(AI) 및 자연어 처리(NLP) 의 기본 기술로, 일련의 단어나 문자가 나올 확률을 예측하는 데 중점을 둡니다. 방대한 텍스트의 패턴을 분석하여 코퍼스의 패턴을 분석하여 언어 모델(LM)은 언어에 내재된 통계적 구조, 문법 및 의미 관계를 학습합니다. 언어. 주요 목표는 다음 문맥에서 특정 단어가 다음에 나타날 가능성을 결정하는 것입니다. 가능성을 파악하는 것입니다. 예를 들어, "자동화된 자동차가 운전했다"라는 문구에서 잘 훈련된 모델은 "보라색"보다 "원활하게"에 더 높은 확률을 할당할 것입니다. 이러한 예측 기능은 컴퓨터가 인간의 언어를 이해하고, 생성하고, 조작할 수 있게 해주는 많은 지능형 시스템의 중추적인 역할을 합니다. 유창하게 이해할 수 있게 해줍니다.

메커니즘 및 아키텍처

언어 모델링 프로세스는 일반적으로 텍스트를 숫자 표현으로 변환하는 것으로 시작됩니다. 임베딩으로 변환하는 것으로 시작됩니다. 이 조밀한 벡터는 고차원 공간에서 단어의 의미론적 고차원 공간에서 단어의 의미를 포착합니다. 역사적으로 다음과 같은 통계적 AI 접근 방식 인접한 단어의 단순한 개수를 기반으로 확률을 추정한 확률을 추정하는 방식이 사용되었습니다. 그러나 이 분야는 다음과 같은 혁신을 거듭해 왔습니다. 딥 러닝(DL) 및 고급 신경망(NN) 아키텍처가 등장했습니다.

동안 순환 신경망(RNN)은 시퀀스 작업의 표준이었지만 트랜스포머 아키텍처가 표준 프레임워크가 되었습니다. 연구 논문 "주의만 있으면 충분하다"라는 연구 논문에서 처음 소개된 Transformer는 자체 주의 메커니즘을 활용하여 모델이 전체 문장에서 여러 단어의 중요도를 동시에 평가할 수 있습니다. 이를 통해 다음을 캡처할 수 있습니다. 장거리 종속성과 문맥을 이전 방법보다 더 효과적으로 포착할 수 있습니다. 훈련 과정에는 다음을 사용하여 모델 가중치 최적화 역전파를 사용하여 모델 가중치를 최적화하여 방대한 데이터 세트에 대한 공통 크롤링.

실제 애플리케이션

언어 모델링은 우리가 매일 접하는 많은 기술을 움직이는 엔진입니다:

텍스트 생성: 이메일 초안을 작성하고, 소프트웨어 코드를 작성하고, 창의적인 콘텐츠를 만들 수 있는 LM의 강력한 도구입니다. 다음과 같은 고급 시스템 Microsoft Copilot과 같은 고급 시스템은 이러한 모델을 활용하여 사용자의 생산성 작업을 지원합니다.
기계 번역: Google 번역과 같은 서비스는 정교한 시퀀스 간 모델을 사용하여 뉘앙스와 문법 구조를 유지하면서 언어 간 텍스트를 번역합니다.
음성 인식: Amazon Alexa와 같은 음성 어시스턴트에서 언어 모델 은 발화된 문장의 문맥을 분석하여 동음이의어(같은 소리를 내는 단어)를 구별하는 데 도움을 줍니다.
감정 분석: 기업은 LM을 사용하여 고객 피드백과 소셜 미디어 모니터링을 분석하여 여론을 측정하고 브랜드 감정의 이상 징후를detect .

주요 개념 구분

언어 모델링을 해당 분야의 유사한 용어와 구별하는 것이 도움이 됩니다:

언어 모델링 대 대규모 언어 모델(LLM): 언어 모델링은 작업 또는 기술입니다. LLM은 이 작업을 수행하는 특정 유형의 모델(수십억 개의 파라미터로 확장되고 수십억 개의 매개변수로 확장되고 페타바이트 단위의 데이터로 학습된 특정 유형의 모델입니다. 예를 들면 일반적인 기초 모델 및 특수 반복이 포함됩니다.
언어 모델링 대 컴퓨터 비전: LM이 텍스트 데이터를 처리하는 반면, 컴퓨터 비전은 시각적 입력을 해석하는 데 중점을 둡니다. 다음과 같은 모델 YOLO11 과 같은 모델은 다음과 같은 작업을 위해 설계되었습니다. 물체 감지. 그러나 두 필드 다중 모드 모델에서 수렴되며, 텍스트와 이미지를 모두 처리할 수 있는 텍스트와 이미지를 모두 처리할 수 있습니다. 비전-언어 모델.
언어 모델링 대 NLP: NLP는 컴퓨터와 인간의 언어 간의 상호 작용과 관련된 가장 중요한 연구 분야입니다. 언어 모델링은 NLP의 핵심 작업 중 하나에 불과합니다, 다음과 같은 다른 작업들과 함께 명명된 엔티티 인식(NER).

다음 Python 코드는 언어 모델링의 기본 구성 요소인 불연속형 단어를 다음과 같이 연속 벡터 임베딩으로 변환하는 PyTorch.

import torch
import torch.nn as nn

# Initialize an embedding layer (vocabulary size: 1000, vector dimension: 128)
# Embeddings map integer indices to dense vectors, capturing semantic relationships.
embedding_layer = nn.Embedding(num_embeddings=1000, embedding_dim=128)

# Simulate a batch of text sequences (batch_size=2, sequence_length=4)
# Each integer represents a specific word in the vocabulary.
input_indices = torch.tensor([[10, 55, 99, 1], [2, 400, 33, 7]])

# Generate vector representations for the input sequences
vector_output = embedding_layer(input_indices)

# The output shape (2, 4, 128) corresponds to (Batch, Sequence, Embedding Dim)
print(f"Output shape: {vector_output.shape}")

고급 AI를 워크플로에 통합하려는 개발자에게는 이러한 기본 메커니즘을 이해하는 것이 매우 중요합니다. 동안 ultralytics 는 시력 전문 기업으로서 모델 학습 및 최적화는 두 도메인 모두에서 공유됩니다. 도메인에서 공유됩니다. 효율적인 모델 트레이닝에 대한 자세한 내용은 다음을 참조하세요. 하이퍼파라미터 튜닝 가이드.

언어 모델링

산업 전반의 워크플로우를 간소화하기 위한 Ultralytics YOLO 모델 교육

혁신을 강화하는 유연한 엔터프라이즈 라이선스 솔루션

Ultralytics YOLO 몇 초 만에 AI 모델 훈련하기

메커니즘 및 아키텍처

실제 애플리케이션

주요 개념 구분

이 카테고리에서 더 읽어보기

미래의 물체 감지 트렌드: 주목해야 할 7가지 주요 사항

Ultralytics YOLO 모델을 통한 차량 재식별 강화

Ultralytics YOLO 모델을 통한 충돌 예측 개선

Ultralytics 커뮤니티 가입