Глоссарий

Языковое моделирование

Изучите основы языкового моделирования и его роль в NLP. Узнайте, как Ultralytics и мультимодальный ИИ преодолевают разрыв между текстом и изображением.

Языковое моделирование — это основной статистический метод, используемый для обучения компьютеров пониманию, генерации и прогнозированию человеческого языка. На самом базовом уровне языковая модель определяет вероятность появления определенной последовательности слов в предложении. Эта способность служит основой для всей области обработки естественного языка (NLP), позволяя машинам выйти за рамки простого сопоставления ключевых слов и понять контекст, грамматику и смысл. Анализируя огромные объемы обучающих данных, эти системы изучают статистическую вероятность того, какие слова обычно следуют за другими, что позволяет им строить связные предложения или расшифровывать неоднозначные аудиозаписи в задачах распознавания речи.

Механизмы и эволюция

История моделирования языка прослеживает эволюцию искусственного интеллекта (ИИ) как такового. Ранние итерации опирались на «n-граммы», которые просто рассчитывали статистическую вероятность слова на основе $n$ слов, непосредственно предшествующих ему. Однако современные подходы используют глубокое обучение (DL) для улавливания гораздо более сложных взаимосвязей.

Современные модели используют вложения, которые преобразуют слова в высокоразмерные векторы, позволяя системе понимать, что «король» и «королева» семантически связаны. Эта эволюция завершилась появлением архитектуры Transformer, которая использует механизмы самовнимания для параллельной обработки целых последовательностей текста. Это позволяет модели оценивать важность слов независимо от их расстояния друг от друга в абзаце, что является важной функцией для сохранения контекста при генерации длинных текстов.

Применение в реальном мире

Моделирование языка перешло из области академических исследований в сферу повседневного использования, обеспечивая цифровые взаимодействия во всех отраслях:

Машинный перевод: Такие сервисы, как Google , используют передовые модели последовательности-в-последовательность для преобразования текста с одного языка на другой. Модель предсказывает вероятность последовательности целевого языка, исходя из последовательности исходного языка, обеспечивая грамматическую точность.
Интеллектуальные помощники по кодированию: такие инструменты, как GitHub Copilot, функционируют как специализированные языковые модели, обученные на репозиториях кода. Они предсказывают синтаксис и логику для автозаполнения блоков кода, что значительно ускоряет разработку программного обеспечения .
Прогнозирование текста и автокоррекция: на мобильных устройствах легкие модели выполняют локальное вычисление, чтобы предложить следующее слово в сообщении, адаптируясь со временем к конкретному стилю набора текста пользователя.
Интеграция зрения и языка: в области компьютерного зрения (CV) языковые модели сочетаются с визуальными кодировщиками. Это позволяет осуществлять обнаружение с «открытым словарем», когда пользователь может искать объекты с помощью описаний на естественном языке, а не по заранее заданным категориям.

Соединяя текст и видение

Хотя языковое моделирование в первую очередь касается текста, его принципы все чаще применяются к мультимодальному ИИ. Такие модели, как YOLO, интегрируют лингвистические возможности, позволяя пользователям динамически определять классы обнаружения с помощью текстовых подсказок. Это устраняет необходимость в переобучении при поиске новых объектов.

Следующие Python фрагмент кода демонстрирует, как использовать ultralytics пакет для использования языковых описаний для обнаружения объектов:

from ultralytics import YOLOWorld

# Load a model capable of understanding natural language prompts
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using text descriptions via the language model encoder
# The model uses internal embeddings to map 'text' to 'visual features'
model.set_classes(["person in red shirt", "blue car"])

# Run inference to detect these specific text-defined objects
results = model.predict("street_scene.jpg")

# Display the results
results[0].show()

Различение смежных понятий

Полезно отличать языковое моделирование от смежных терминов, которые часто используются как синонимы:

Языковое моделирование против крупных языковых моделей (LLM): Языковое моделирование — это фундаментальная задача или математическая техника. LLM, такая как серия GPT, представляет собой конкретный, массивный экземпляр модели, предназначенный для выполнения этой задачи, обученный на петабайтах данных с миллиардами параметров.
Языковое моделирование против генеративного ИИ: Генеративный ИИ — это широкая категория, охватывающая любой ИИ, который создает новый контент (изображения, аудио, код). Языковое моделирование — это специфический механизм, который обеспечивает работу текстового подмножества генеративного ИИ.
Языковое моделирование против обнаружения объектов: Традиционные модели обнаружения, такие как YOLO26, обучаются на фиксированных визуальных метках. Языковые модели имеют дело с вероятностью последовательности в тексте. Однако такие технологии, как CLIP, преодолевают этот разрыв, обучаясь связывать визуальные концепции с лингвистическими описаниями.

Проблемы и перспективы

Несмотря на свою полезность, языковые модели сталкиваются с проблемами, связанными с предвзятостью в ИИ, поскольку они могут непреднамеренно воспроизводить предвзятость, присутствующую в их обучающих наборах данных. Кроме того, обучение этих моделей требует огромных вычислительных ресурсов. Такие решения, как Ultralytics , помогают оптимизировать управление наборами данных и рабочими процессами обучения, упрощая настройку моделей для конкретных приложений. Будущие исследования сосредоточены на повышении эффективности этих моделей за счет квантования моделей, что позволяет мощному языковому пониманию работать непосредственно на периферийных устройствах искусственного интеллекта без привязки к облачному подключению.

Языковое моделирование

Обучение моделям Ultralytics YOLO для оптимизации рабочих процессов в разных отраслях

Гибкое корпоративное лицензирование для развития ваших инноваций

Обучайте модели искусственного интеллекта за считанные секунды с помощью Ultralytics YOLO

Механизмы и эволюция

Применение в реальном мире

Соединяя текст и видение

Различение смежных понятий

Проблемы и перспективы

Читать больше в этой категории

12 примеров использования аэрофотоснимков с помощью компьютерного зрения

Что такое монокулярная оценка глубины? Обзор

Обзор использованияYOLO Ultralytics YOLO для обнаружения угроз с помощью искусственного интеллекта

Присоединяйтесь к сообществу Ultralytics