Глоссарий

Большая языковая модель (LLM)

Изучите основы больших языковых моделей (LLM). Узнайте об архитектуре Transformer, токенизации и о том, как сочетать LLM с Ultralytics .

Большая языковая модель (LLM) — это сложный тип искусственного интеллекта (ИИ), обученный на огромных наборах данных для понимания, генерации и манипулирования человеческим языком. Эти модели представляют собой значительную эволюцию в области глубокого обучения (DL), используя нейронные сети с миллиардами параметров для захвата сложных лингвистических паттернов, грамматики и семантических отношений. В своей основе большинство современных LLM полагаются на архитектуре Transformer, которая позволяет им обрабатывать последовательности данных параллельно, а не последовательно. Эта архитектура использует механизм самовнимания, позволяющий модели взвешивать важность различных слов в предложении относительно друг друга, независимо от их расстояния в тексте.

Основные механизмы LLM

Функциональность LLM начинается с токенизации, процесса, при котором исходный текст разбивается на более мелкие единицы, называемые токенами (словами или частями слов). На этапе обучения модели система анализирует петабайты текста из Интернета, книг и статей. Она занимается неконтролируемым обучением, чтобы предсказать следующий токен в последовательности, эффективно изучая статистическую структуру языка.

После этого начального обучения разработчики часто применяют тонкую настройку, чтобы специализировать модель для конкретных задач, таких как медицинский анализ или помощь в кодировании. Именно благодаря этой адаптивности такие организации, как Стэнфордский центр исследований фундаментальных моделей, classify как «фундаментальные модели» — широкие основы, на которых строятся конкретные приложения.

Применение в реальном мире

LLM вышли за рамки теоретических исследований и нашли практическое применение в различных отраслях промышленности, где они оказывают значительное влияние:

Интеллектуальные виртуальные помощники: современное обслуживание клиентов в значительной степени опирается на чат-ботов, работающих на основе LLM. В отличие от старых систем, основанных на правилах, эти агенты могут обрабатывать запросы с нюансами. Для повышения точности и уменьшения галлюцинаций разработчики интегрируют Retrieval Augmented Generation (RAG), что позволяет модели обращаться к внешней актуальной документации компании перед тем, как дать ответ.
Мультимодальные системы «зрение-язык»: передовые технологии искусственного интеллекта связывают текст с визуальными данными. Модели «зрение-язык» (VLM) позволяют пользователям искать изображения с помощью естественного языка. Например, сочетание лингвистического интерфейса с надежным детектором, таким как YOLO26, позволяет системам идентифицировать и описывать объекты в видеопотоках в реальном времени на основе голосовых команд.

Соединяя текст и видение с помощью кода

В то время как стандартные LLM обрабатывают текст, отрасль переходит к мультимодальному ИИ. Следующий пример демонстрирует, как лингвистические подсказки могут контролировать задачи компьютерного зрения с помощью YOLO, модели, которая понимает текстовые дескрипторы для обнаружения открытого словаря.

from ultralytics import YOLOWorld

# Load a model capable of understanding natural language prompts
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using text descriptions rather than fixed labels
model.set_classes(["person wearing a red helmet", "blue industrial machine"])

# Run inference to detect these specific text-defined objects
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show results
results[0].show()

Различение смежных понятий

Важно отличать LLM от более широких или параллельных терминов:

LLM против обработки естественного языка (NLP): NLP — это общая академическая область, занимающаяся взаимодействием между компьютерами и человеческим языком. LLM — это специфический инструмент или технология, используемая в этой области для достижения передовых результатов.
LLM против генеративного ИИ: Генеративный ИИ — это категория, которая включает в себя любой ИИ, способный создавать новый контент. LLM — это текстовое подмножество этой категории, тогда как модели, такие как Stable Diffusion, представляют собой подмножество, генерирующее изображения .

Проблемы и перспективы

Несмотря на свои возможности, LLM сталкиваются с проблемами, связанными с предвзятостью ИИ, поскольку они могут непреднамеренно воспроизводить предвзятость, присутствующую в их обучающих данных. Кроме того, огромные вычислительные мощности, необходимые для обучения моделей, таких как GPT-4 или Google , вызывают опасения по поводу энергопотребления. В настоящее время исследования сосредоточены на квантовании моделей, чтобы сделать эти системы достаточно эффективными для работы на периферийном оборудовании.

Для более глубокого технического понимания в оригинальной статье «Внимание — это все, что вам нужно» представлена основополагающая теория трансформаторов. Вы также можете узнать, как NVIDIA оптимизирует аппаратное обеспечение для этих массивных рабочих нагрузок.

Большая языковая модель (LLM)

Обучение моделям Ultralytics YOLO для оптимизации рабочих процессов в разных отраслях

Гибкое корпоративное лицензирование для развития ваших инноваций

Обучайте модели искусственного интеллекта за считанные секунды с помощью Ultralytics YOLO

Основные механизмы LLM

Применение в реальном мире

Соединяя текст и видение с помощью кода

Различение смежных понятий

Проблемы и перспективы

Читать больше в этой категории

12 примеров использования аэрофотоснимков с помощью компьютерного зрения

Что такое монокулярная оценка глубины? Обзор

Обзор использованияYOLO Ultralytics YOLO для обнаружения угроз с помощью искусственного интеллекта

Присоединяйтесь к сообществу Ultralytics