Встречай YOLO26: ИИ компьютерного зрения нового поколения.
Ultralytics
Руководства

Введение в развивающуюся область нейро-символического ИИ

Узнай, как нейро-символический ИИ стремится объединить обучение и логику для создания систем, которые понимают контекст и обеспечивают более прозрачные и объяснимые решения.

АБАбирами Вина
6 min read
Нейро-символический ИИ, объединяющий нейронные сети с рассуждениями

В наше время, благодаря быстрому росту искусственного интеллекта (ИИ) и растущей доступности вычислительных мощностей, передовые модели ИИ выпускаются быстрее, чем когда-либо прежде. На самом деле, сфера ИИ стимулирует значимые инновации во многих отраслях.

Например, в здравоохранении системы ИИ используются для помощи в таких задачах, как анализ медицинских изображений для ранней диагностики. Однако, как и у любой технологии, у ИИ есть свои ограничения.

Одной из главных проблем является прозрачность. Например, модель обнаружения объектов может точно локализовать опухоль на МРТ головного мозга, но может быть трудно понять, как именно модель пришла к такому выводу. Этот недостаток интерпретируемости затрудняет врачам и исследователям возможность полностью доверять результатам ИИ или проверять их.

Именно поэтому растет интерес к развивающейся области нейросимволического ИИ. Нейросимволический ИИ объединяет сильные стороны глубокого обучения в распознавании образов со структурированным, основанным на правилах логическим выводом, характерным для символьного ИИ. Цель состоит в том, чтобы создать системы, которые делают точные прогнозы, но при этом могут объяснить свою логику понятным для человека образом.

В этой статье мы рассмотрим, как работает нейросимволический искусственный интеллект и как он объединяет обучение и логические выводы для создания более прозрачных и контекстно-зависимых систем. Давай начнем!

Link to this sectionДве стороны нейросимволического ИИ: обучение и логический вывод#

Прежде чем погрузиться в нейросимволический ИИ, давай подробнее рассмотрим две подобласти, которые он объединяет: глубокое обучение и символьный ИИ.

Глубокое обучение сосредоточено на распознавании образов в данных, в то время как символьный ИИ использует правила, логику или здравый смысл для рассуждения при решении проблем. У каждого есть свои сильные стороны, но есть и ограничения. Объединяя их, нейросимволический ИИ создает системы, которые могут как обучаться на данных, так и более четко объяснять свои решения.

Link to this sectionОбзор глубокого обучения#

Глубокое обучение — это направление машинного обучения, использующее искусственные нейронные сети, частично вдохновленные тем, как мозг обрабатывает информацию. Эти сети обучаются, анализируя большие объемы данных и настраивая свои внутренние связи для повышения производительности.

Это позволяет им распознавать образы на изображениях, звуках и в тексте без необходимости ручного создания правил для каждой ситуации. Благодаря этому глубокое обучение крайне эффективно для задач, ориентированных на восприятие, таких как распознавание изображений, обработка речи и перевод языков.

Хорошим примером является модель компьютерного зрения, обученная сегментировать объекты на изображениях. При наличии достаточного количества размеченных примеров она может научиться отделять дороги, транспортные средства и пешеходов на видеозаписях дорожного движения в режиме реального времени.

Однако, несмотря на их точность, модели глубокого обучения часто с трудом могут четко объяснить, как они пришли к конкретному результату. Эта проблема, широко известная как проблема «черного ящика», затрудняет интерпретацию или проверку решений модели пользователями, особенно в таких чувствительных областях, как здравоохранение или финансы. Это важно, поскольку ответственный ИИ требует прозрачности, доверия и способности понять, почему модель сделала тот или иной прогноз.

Link to this sectionИзучение символьного ИИ#

Символьный ИИ применяет более структурированный подход к интеллекту и принятию решений. Он представляет знания с помощью символов и применяет логические правила для работы с этими знаниями, подобно тому, как мы используем рассуждения и язык для решения проблем. Каждый шаг в процессе рассуждения определен, что делает решения символьного ИИ прозрачными и более легкими для объяснения.

Символьные знания особенно хорошо работают в задачах, которые следуют четким и хорошо определенным правилам, таким как планирование, составление графиков или управление структурированными знаниями. Однако символьный ИИ с трудом справляется с неструктурированными данными или ситуациями, которые не вписываются в заранее определенные категории.

Распространенным примером символьных подходов в действии являются ранние шахматные программы. Они следовали заранее заданным правилам и фиксированным стратегиям, а не обучались на предыдущих играх или адаптировались к разным противникам. В результате их игровой процесс был жестким и предсказуемым.

Взгляд на структуру ИИ и его подполя

Рис 1. Взгляд на структуру ИИ и его подобластей. (Изображение автора)

Link to this sectionЧто такое нейросимволический ИИ?#

В 2010-х годах, по мере того как глубокое обучение становилось все более популярным, исследователи начали искать способы выйти за рамки простого распознавания образов и перейти к пониманию связей и контекста. Этот сдвиг позволил моделям ИИ не только обнаруживать объекты в сцене, например кота и коврик, но и интерпретировать, как эти объекты связаны, например, понимая, что кот сидит на коврике.

Однако этот прогресс также подчеркнул основное ограничение. Модели глубокого обучения могут отлично распознавать образы, но они часто не могут объяснить свои рассуждения или справиться с незнакомыми ситуациями. Это обновленное внимание к рассуждениям вернуло исследователей к области, существующей с 1980-х годов: нейросимволическому ИИ.

Нейросимволический ИИ объединяет глубокое обучение и символьный ИИ. Он позволяет моделям обучаться на примерах так же, как это делает глубокое обучение, одновременно применяя логику и рассуждения, как это делает символьный ИИ.

Проще говоря, нейросимволический ИИ может распознавать информацию, понимать контекст и предоставлять более четкие объяснения своих решений. Этот подход приближает нас к разработке систем ИИ, которые ведут себя более надежно и по-человечески.

Понимание нейро-символьного ИИ

Рис 2. Понимание нейросимволического ИИ (Изображение автора)

Link to this sectionОсновы работы нейросимволического ИИ#

Нейросимволическая архитектура объединяет обучение и рассуждения в рамках единой структуры. Она обычно включает в себя три основные части: слой нейронного восприятия, который интерпретирует необработанные данные, слой символьного логического вывода, который применяет логику, и слой интеграции, который соединяет их. Далее мы более подробно рассмотрим каждый слой.

Link to this sectionСлой нейронного восприятия#

Компонент нейронного восприятия обрабатывает неструктурированные данные, такие как изображения, видео, текст или аудио, и преобразует их во внутренние представления, с которыми может работать система. Обычно он использует модели глубокого обучения для обнаружения паттернов и идентификации объектов или признаков во входных данных. На этом этапе система распознает, что присутствует в данных, но еще не рассуждает о значении, связях или контексте.

Вот некоторые распространенные типы моделей глубокого обучения, используемые в этом слое:

  • Сверточные нейронные сети (CNN): это тип нейронной сети, предназначенный для обработки сеточных данных, таких как изображения. CNN используют сверточные фильтры для сканирования изображения и обнаружения паттернов, таких как края, текстуры и формы. Накладывая эти паттерны друг на друга, они учатся распознавать такие объекты, как автомобили, фрукты и люди.
  • Трансформеры: трансформеры — это модели, разработанные для понимания того, как различные части входных данных связаны друг с другом. Вместо того чтобы считывать информацию строго по порядку, они могут одновременно просматривать несколько частей данных и определять, какие из них наиболее важны. Это помогает им понимать контекст в тексте, изображениях или и в том, и в другом. Благодаря такой гибкости трансформеры являются основной архитектурой современных языковых моделей и многих систем, работающих с текстом и изображениями.
  • Рекуррентные нейронные сети (RNN): этот тип модели предназначен для анализа последовательных данных, таких как речь или временные ряды. Она хранит память о предыдущих входных данных, что означает, что ее прогнозы могут учитывать контекст во времени.

В конечном итоге эти нейронные модели извлекают и представляют значимые признаки из необработанных данных. Этот результат затем становится входными данными для слоя символьного логического вывода, который интерпретирует то, что обнаружила система, и рассуждает о нем.

Link to this sectionСлой символьного логического вывода#

Слой символьного логического вывода берет информацию, полученную слоем нейронного восприятия, и осмысляет ее с помощью логики. Вместо того чтобы работать только на основе паттернов, он полагается на такие вещи, как правила, графы знаний, базы знаний и онтологии (организованные описания концептов и связей между ними). Они помогают системе понять, как различные элементы сочетаются друг с другом и какие действия имеют смысл в данной ситуации.

Например, в беспилотном автомобиле слой нейронного восприятия может распознать красный сигнал светофора в потоке с камеры. Слой символьного логического вывода может затем применить правило: «Если сигнал красный, автомобиль должен остановиться». Поскольку логический вывод основан на четких правилах, решения системы легче объяснить и проверить, что особенно важно в ситуациях, где имеют значение безопасность и ответственность.

Link to this sectionСлой интеграции#

Слой интеграции соединяет слой нейронного восприятия и слой символьного логического вывода, гарантируя, что обучение и логика работают вместе. В одном направлении он преобразует выходные данные нейронных моделей (например, обнаружение пешехода) в символьные представления, которые описывают объект и его атрибуты.

В другом направлении он берет символьные правила (например, «автомобиль должен остановиться, если пешеход находится на переходе») и переводит их в сигналы, которые направляют работу нейронных моделей. Это может включать выделение релевантных областей изображения, влияние на внимание или формирование путей принятия решений моделью.

Этот двусторонний обмен формирует цикл обратной связи. Нейронная сторона получает структуру и интерпретируемость от символьных правил, в то время как символьная сторона может более эффективно адаптироваться на основе данных из реального мира. Такие методы, как логические нейронные сети (LNN), помогают обеспечить это взаимодействие, встраивая логические ограничения непосредственно в нейронные архитектуры.

Связывая восприятие и рассуждение таким образом, нейросимволический ИИ может принимать решения, которые одновременно точны и легче интерпретируются. Многие исследователи рассматривают этот подход как многообещающий шаг к более надежному и согласованному с человеческими ценностями ИИ, и, возможно, как основу для будущего прогресса на пути к искусственному общему интеллекту (AGI).

Link to this sectionПрименение нейросимволического ИИ#

Теперь, когда у нас есть лучшее понимание того, что такое нейросимволический ИИ и как он работает, давай взглянем на некоторые варианты его реального применения.

Link to this sectionБезопасное вождение: от обнаружения пешеходов к их пониманию#

Автономным транспортным средствам необходимо понимать окружающую обстановку, чтобы работать безопасно. Они используют такие технологии, как компьютерное зрение, для обнаружения пешеходов, транспортных средств, дорожной разметки и дорожных знаков.

Хотя модели глубокого обучения могут точно идентифицировать эти объекты, они не всегда понимают, что эти объекты означают в контексте и как они связаны друг с другом в реальной ситуации. Например, нейронная модель может распознать пешехода на переходе, но не может сказать, собирается ли он переходить дорогу или просто стоит и ждет.

Нейросимволический ИИ пытается преодолеть этот разрыв, позволяя беспилотным автомобилям сочетать визуальное распознавание с логическим выводом, чтобы они могли интерпретировать ситуации, а не просто идентифицировать объекты. Недавние исследования в области ИИ показали, что системы, сочетающие нейронное восприятие с символьными правилами, могут улучшить прогнозирование поведения пешеходов.

В таких системах нейронный компонент анализирует визуальные сигналы, такие как поза, движение и положение пешехода. Символьный компонент затем применяет логические правила, учитывая такие факторы, как нахождение человека рядом с переходом или состояние светофора.

Сочетая эти две перспективы, нейросимволическая система может делать больше, чем просто обнаруживать пешехода. Она может сделать разумный прогноз о том, собирается ли пешеход переходить дорогу, и объяснить, почему она приняла такое решение. Это ведет к более безопасному и прозрачному поведению автономных транспортных средств.

Создание прогнозов на основе наблюдаемого поведения пешеходов с использованием нейро-символьного ИИ

Рис 3. Составление прогнозов на основе наблюдаемого поведения пешеходов с помощью нейросимволического ИИ. (Источник)

Link to this sectionЛогическая интерпретация в визуальных вопросно-ответных системах#

Еще одним важным применением нейросимволического ИИ является визуальное вопросно-ответное взаимодействие (VQA). Системы VQA предназначены для ответов на вопросы об изображениях.

Это объединяет большие языковые модели (LLM) и визуальные модели для выполнения мультимодальных рассуждений, сочетая то, что видит система, с тем, что она понимает. Например, если системе VQA показать изображение и спросить: «Чашка стоит на столе?», ей нужно не только распознать объекты, но и понять связь между ними. Ей необходимо определить, действительно ли чашка находится на поверхности стола на этом изображении.

Недавнее исследование продемонстрировало, как нейросимволический ИИ может улучшить VQA путем интеграции нейронного восприятия с символьным логическим выводом. В предлагаемой системе нейронная сеть сначала анализирует изображение, чтобы распознать объекты и их атрибуты, такие как цвет, форма или размер.

Затем компонент символьного логического вывода применяет логические правила, чтобы интерпретировать, как эти объекты связаны друг с другом, и ответить на вопрос. Если спросить: «Сколько серых цилиндров на сцене?», нейронная часть идентифицирует все цилиндры и их цвета, а символьная часть отфильтровывает их на основе критериев и подсчитывает правильные.

Примеры сценариев VQA, где требуются абстрактные знания и логика

Рис 4. Примеры сценариев VQA, где необходимы абстрактные знания и логика. (Источник)

Такие исследования показывают, как нейросимволический VQA может выйти за рамки простого предоставления ответов. Поскольку модель может показать шаги, которые она предприняла для достижения вывода, это поддерживает объяснимый ИИ, где системы делают прогнозы и обосновывают свои рассуждения понятным для людей образом.

Link to this sectionПлюсы и минусы нейросимволического ИИ#

Вот некоторые из ключевых преимуществ использования нейросимволического ИИ:

  • Более сильные способности к рассуждению: В отличие от моделей чистого глубокого обучения, нейросимволический ИИ может выполнять задачи, требующие многоэтапного рассуждения, планирования, следования правилам и работы со структурированными областями знаний, где традиционно преуспевает символьный ИИ.
  • Адаптивность: Эти системы хорошо справляются с новыми или ранее не виденными задачами, поскольку они могут рассуждать логически, выходя за рамки того, на чем их обучали. Вместо того чтобы просто запоминать данные, они понимают связи и паттерны.
  • Устойчивость к шуму и неопределенности: Логические ограничения могут помочь предотвратить ошибки, когда данные являются зашумленными, неполными или неоднозначными. Слой логического вывода может навязывать правила, которые направляют или корректируют нейронные прогнозы.

Несмотря на свой потенциал, нейросимволический ИИ все еще развивается и сопряжен с определенными практическими трудностями. Вот некоторые из его ключевых ограничений:

  • Сложная интеграция: Хотя эта гибридная структура предлагает высокую интерпретируемость, разработка алгоритмов, объединяющих восприятие и рассуждение, остается сложной задачей.
  • Масштабируемость: Символьный логический вывод может стать медленным или вычислительно дорогим при работе с большими графами знаний или сложными наборами правил. Это может затруднить эффективное развертывание приложений реального времени, таких как автономное вождение, обработка видео или масштабные логические рассуждения.
  • Устойчивость логических выводов: Если символьные правила слишком жесткие, системы могут с трудом справляться с неоднозначными или непредсказуемыми сценариями реального мира. Баланс между гибким обучением и надежным логическим выводом остается постоянной проблемой.

Link to this sectionОсновные выводы#

Нейросимволический ИИ представляет собой важный шаг к созданию систем ИИ, которые могут не только воспринимать мир, но и рассуждать о нем и объяснять свои решения. В отличие от традиционных систем глубокого обучения, которые полагаются в основном на паттерны, изученные на данных, нейросимволический ИИ сочетает статистическое обучение со структурированной логикой и знаниями. Вместо того чтобы заменять глубокое обучение, он надстраивается над ним, приближая нас еще немного к разработке ИИ, который может понимать и рассуждать более человечным образом.

Присоединяйся к нашему сообществу и изучи наш репозиторий на GitHub. Загляни на наши страницы с решениями, чтобы открыть для себя различные применения ИИ в сельском хозяйстве и компьютерного зрения в здравоохранении. Ознакомься с нашими вариантами лицензирования и начни создавать свой проект в области визуального ИИ!

Explore solutions

Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.
Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.
Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.
Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.
Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.
Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.
Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.
Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.
Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.
Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.
Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.
Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.
Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.
Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.
Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.
Узнать больше

Давай строить будущее ИИ вместе!

Начни свой путь в будущее машинного обучения