Зарождающаяся область нейросимволического ИИ: введение

Сегодня, благодаря стремительному развитию искусственного интеллекта (ИИ) и увеличению доступности вычислительных мощностей, передовые модели ИИ появляются быстрее, чем когда-либо прежде. Фактически, пространство ИИ является движущей силой значимых инноваций во многих отраслях.

Например, в здравоохранении системы ИИ используются для решения таких задач, как анализ медицинских снимков для ранней диагностики. Однако, как и у любой другой технологии, у ИИ есть свои ограничения.

Одна из главных проблем - прозрачность. Например, модель обнаружения объектов может точно определить местоположение опухоли на МРТ-скане мозга, но при этом может быть сложно понять, как модель пришла к такому выводу. Из-за отсутствия объяснений врачам и исследователям становится сложнее полностью доверять результатам ИИ или подтверждать их.

Именно поэтому растет интерес к зарождающейся области нейросимволического ИИ. Нейросимволический ИИ сочетает в себе возможности глубокого обучения по распознаванию образов со структурированными, основанными на правилах рассуждениями, характерными для символического ИИ. Цель состоит в том, чтобы создать системы, которые будут делать точные прогнозы, но при этом смогут объяснить свои рассуждения так, чтобы их мог понять человек.

В этой статье мы рассмотрим, как работает нейросимволический искусственный интеллект и как он объединяет обучение и рассуждения для создания более прозрачных, учитывающих контекст систем. Давайте начнем!

Две стороны нейросимволического ИИ: обучение и рассуждения

Прежде чем мы погрузимся в нейросимволический ИИ, давайте подробнее рассмотрим две области, которые он объединяет: глубокое обучение и символьный ИИ.

Глубокое обучение направлено на распознавание закономерностей в данных, а символьный ИИ использует правила, логику или здравый смысл для решения проблем. У каждого из них есть свои сильные стороны, но есть и ограничения. Комбинируя их, нейро-символический ИИ создает системы, которые могут как учиться на данных, так и объяснять свои решения более четко.

Обзор глубокого обучения

Глубокое обучение - это направление машинного обучения, в котором используются искусственные нейронные сети, в общих чертах напоминающие о том, как мозг обрабатывает информацию. Эти сети обучаются, анализируя большие объемы данных и изменяя свои внутренние связи для повышения производительности.

Это позволяет им распознавать закономерности в изображениях, звуках и текстах, не прибегая к ручному созданию правил для каждой ситуации. Благодаря этому глубокое обучение очень эффективно для задач, ориентированных на восприятие, таких как распознавание изображений, обработка речи и перевод языка.

Хороший пример - модель компьютерного зрения, обученная segment объекты на изображениях. При достаточном количестве помеченных примеров она может научиться разделять дороги, автомобили и пешеходов на дорожных кадрах в реальном времени.

Однако, несмотря на свою точность, модели глубокого обучения часто не могут четко объяснить, как они пришли к тому или иному результату. Эта проблема, обычно называемая проблемой "черного ящика", затрудняет интерпретацию и проверку решений модели, особенно в таких чувствительных областях, как здравоохранение или финансы. Это важно, поскольку ответственный ИИ требует прозрачности, доверия и возможности понять, почему модель сделала тот или иной прогноз.

Изучение символического ИИ

Символьный ИИ использует более структурированный подход к интеллекту и принятию решений. Он представляет знания с помощью символов и применяет логические правила для работы с этими знаниями, подобно тому, как мы используем рассуждения и язык для решения проблем. Каждый шаг в процессе рассуждений определен, что делает решения символического ИИ прозрачными и легко объяснимыми.

Символические знания особенно хорошо работают в задачах, которые подчиняются четким и определенным правилам, таких как планирование, составление расписания или управление структурированными знаниями. Однако символический ИИ испытывает трудности при работе с неструктурированными данными или ситуациями, которые не укладываются в заранее определенные категории.

Частым примером применения символических подходов в действии являются ранние шахматные программы. Они следовали созданным вручную правилам и фиксированным стратегиям, вместо того чтобы учиться на предыдущих партиях или адаптироваться к различным соперникам. В результате их игровой процесс, как правило, был жестким и предсказуемым.

Рис. 1. Взгляд на структуру ИИ и его подполей. (Изображение автора)

‍

Что такое нейросимволический ИИ?

В 2010-х годах, когда глубокое обучение получило широкое распространение, исследователи начали искать способы выйти за рамки простого распознавания образов и перейти к пониманию взаимосвязей и контекста. Этот сдвиг позволил моделям ИИ не только detect объекты в сцене, например кошку и коврик, но и интерпретировать их взаимосвязь, например, понимать, что кошка сидит на коврике.

Однако этот прогресс выявил и основное ограничение. Модели глубокого обучения могут очень хорошо распознавать закономерности, но они часто не могут объяснить свои рассуждения или справиться с незнакомыми ситуациями. Возобновление внимания к рассуждениям привело исследователей к области, существующей с 1980-х годов: нейросимволическому ИИ.

Нейросимволический ИИ объединяет глубокое обучение и символьный ИИ. Он позволяет моделям обучаться на примерах так же, как это делает глубокое обучение, и при этом применять логику и рассуждения, как это делает символьный ИИ.

Проще говоря, нейросимволический ИИ может распознавать информацию, понимать контекст и давать более четкие объяснения своим решениям. Такой подход приближает нас к разработке систем ИИ, которые будут вести себя более надежно и подобно человеку.

Рис. 2. Понимание нейросимволического ИИ (изображение автора)

‍

Основы работы нейросимволического ИИ

Нейро-символические архитектуры объединяют обучение и рассуждения в единую структуру. Обычно она включает в себя три основные части: слой нейронного восприятия, который интерпретирует исходные данные, слой символических рассуждений, который применяет логику, и слой интеграции, который соединяет эти два слоя. Далее мы подробнее рассмотрим каждый слой.

Нейронный слой восприятия

Компонент нейронного восприятия обрабатывает неструктурированные данные, такие как изображения, видео, текст или аудио, и преобразует их во внутренние представления, с которыми может работать система. Как правило, он использует модели глубокого обучения для detect закономерностей и идентификации объектов или особенностей во входных данных. На этом этапе система распознает, что присутствует в данных, но еще не рассуждает о смысле, взаимосвязях или контексте.

Вот несколько распространенных типов моделей глубокого обучения, используемых в этом слое:

Конволюционные нейронные сети (CNN): Это тип нейронных сетей, предназначенных для обработки данных, похожих на сетку, например, изображений. CNN используют конволюционные фильтры для сканирования изображения и detect таких деталей, как края, текстуры и формы. Складывая эти паттерны, они учатся распознавать такие объекты, как автомобили, фрукты и люди.
‍
Трансформаторы: Трансформаторы - это модели, предназначенные для понимания того, как различные части входных данных соотносятся друг с другом. Вместо того чтобы читать информацию строго по порядку, они могут одновременно рассматривать несколько частей данных и решать, какие из них наиболее важны. Это помогает им понять контекст текста, изображения или и того, и другого. Благодаря такой гибкости трансформаторы являются основной архитектурой большинства современных языковых моделей и многих систем, использующих язык зрения.
‍
Рекуррентные нейронные сети (РНС): Этот тип модели предназначен для анализа последовательных данных, таких как речь или временные ряды сигналов. Она сохраняет память о предыдущих входных данных, что означает, что ее прогнозы могут учитывать контекст во времени.

В конечном итоге эти нейронные модели извлекают и представляют значимые характеристики из исходных данных. Этот вывод становится входом для слоя символических рассуждений, который интерпретирует и обосновывает то, что система обнаружила.

Слой символических рассуждений

Слой символических рассуждений берет информацию, полученную нейронным слоем восприятия, и осмысливает ее с помощью логики. Вместо того чтобы работать на основе шаблонов, он опирается на такие вещи, как правила, графы знаний, базы знаний и онтологии (организованные описания понятий и их взаимосвязи). Они помогают системе понять, как различные элементы сочетаются друг с другом и какие действия имеют смысл в той или иной ситуации.

Например, в самоуправляемом автомобиле нейронный слой восприятия может распознать красный сигнал светофора на экране камеры. Слой символьных рассуждений может применить такое правило, как: "Если свет красный, автомобиль должен остановиться". Поскольку рассуждения основаны на четких правилах, решения системы легче объяснить и проверить, что особенно важно в ситуациях, когда важны безопасность и ответственность.

Интеграционный слой

Интеграционный слой соединяет нейронный слой восприятия и символический слой рассуждений, обеспечивая совместную работу обучения и рассуждений. В одном направлении он преобразует выходные данные нейронных моделей (например, обнаружение пешехода) в символические представления, описывающие объект и его атрибуты.

С другой стороны, он берет символические правила (например, "автомобиль должен остановиться, если пешеход находится на пешеходном переходе") и переводит их в сигналы, которыми руководствуются нейронные модели. Это может быть выделение соответствующих областей изображения, воздействие на внимание или формирование путей принятия решений в модели.

Этот двусторонний обмен образует петлю обратной связи. Нейронная часть получает структуру и интерпретируемость от символических правил, а символическая часть может более эффективно адаптироваться на основе реальных данных. Такие методы, как логические нейронные сети (ЛНС), помогают обеспечить это взаимодействие, встраивая логические ограничения непосредственно в нейронные архитектуры.

Связав таким образом восприятие и рассуждения, нейросимволический ИИ сможет создавать решения, которые будут одновременно точными и легко интерпретируемыми. Многие исследователи рассматривают этот подход как многообещающий шаг на пути к более надежному и ориентированному на человека ИИ, а также как основу для будущего прогресса в области искусственного интеллекта общего назначения (ИИОН).

Приложения нейросимволического ИИ

Теперь, когда мы лучше понимаем, что такое нейросимволический ИИ и как он работает, давайте рассмотрим некоторые из его реальных примеров использования.

Безопаснее за рулем: От видения пешеходов к их пониманию

Автономные автомобили должны понимать окружающую обстановку, чтобы работать безопасно. Они используют такие технологии, как компьютерное зрение, для detect пешеходов, автомобилей, дорожной разметки и дорожных знаков.

Хотя модели глубокого обучения могут точно идентифицировать эти объекты, они не всегда понимают, что эти объекты означают в контексте или как они соотносятся друг с другом в реальной ситуации. Например, нейронная модель может распознать пешехода на пешеходном переходе, но не сможет определить, собирается ли он переходить дорогу или просто стоит и ждет.

Нейросимволический ИИ пытается устранить этот пробел, позволяя самодвижущимся автомобилям сочетать визуальное распознавание с логическими рассуждениями, чтобы они могли интерпретировать ситуации, а не просто идентифицировать объекты. Недавние исследования в области ИИ показали, что системы, сочетающие нейронное восприятие с символическими правилами, могут улучшить прогнозирование поведения пешеходов.

В этих системах нейронный компонент анализирует визуальные сигналы, такие как поза, движение и положение пешехода. Затем символический компонент применяет логические правила, учитывая такие факторы, как наличие пешеходного перехода или текущий сигнал светофора.

Сочетая эти две перспективы, нейросимволическая система может сделать больше, чем просто detect пешехода. Она может сделать обоснованный прогноз о том, будет ли пешеход переходить дорогу, и объяснить, почему она приняла такое решение. Это ведет к более безопасному и прозрачному поведению автономных автомобилей.

Рис. 3. Создание прогнозов на основе наблюдаемого поведения пешеходов с помощью нейросимволического ИИ.(Источник)

‍

Логическая интерпретация при визуальном ответе на вопросы

Еще одно важное применение нейросимволического ИИ - визуальные ответы на вопросы (VQA). Системы VQA предназначены для ответов на вопросы об изображениях.

Она объединяет большие языковые модели (LLM) и визуальные модели для выполнения мультимодальных рассуждений, сочетая то, что система видит, с тем, что она понимает. Например, если системе VQA показать изображение и спросить: "Чашка стоит на столе?", она должна распознать объекты, но также понять отношения между ними. Она должна определить, действительно ли чашка находится на столе в сцене.

Недавнее исследование показало, как нейросимволический ИИ может улучшить VQA за счет интеграции нейронного восприятия с символическими рассуждениями. В предложенной системе нейронная сеть сначала анализирует изображение, чтобы распознать объекты и их атрибуты, такие как цвет, форма или размер.

Затем компонент символических рассуждений применяет логические правила для интерпретации того, как эти объекты соотносятся друг с другом, и для ответа на вопрос. Если задать вопрос "Сколько серых цилиндров в сцене?", нейронная часть определит все цилиндры и их цвета, а символическая часть отфильтрует их на основе заданных критериев и подсчитает правильные.

Рис. 4. Примеры сценариев VQA, в которых требуются абстрактные знания и логика.(Источник)

‍

Такие исследования демонстрируют, как нейросимволическая VQA может выйти за рамки простого предоставления ответов. Поскольку модель может показать шаги, которые она предприняла, чтобы прийти к заключению, она поддерживает объясняемый ИИ, когда системы делают предсказания и обосновывают свои рассуждения понятным людям образом.

Плюсы и минусы нейро-символического ИИ

Вот некоторые из ключевых преимуществ использования нейросимволического ИИ:

Более сильные способности к рассуждениям: В отличие от чистых моделей глубокого обучения, нейросимволический ИИ может выполнять задачи, требующие многоступенчатых рассуждений, планирования, следования правилам и работы со структурированными знаниями, в которых символьный ИИ традиционно превосходит другие.
‍
Адаптивность: Эти системы хорошо справляются с новыми или невиданными задачами, поскольку могут логически рассуждать, выходя за рамки того, чему их обучали. Вместо того чтобы просто запоминать данные, они понимают взаимосвязи и закономерности.
‍
Устойчивость к шуму и двусмысленности: Логические ограничения помогают предотвратить ошибки, когда данные зашумлены, неполны или неоднозначны. Слой рассуждений может применять правила, которые направляют или корректируют нейронные прогнозы.

Несмотря на свой потенциал, нейросимволический ИИ все еще развивается и сталкивается с определенными практическими проблемами. Вот некоторые из его ключевых ограничений:

Сложная интеграция: Несмотря на то что эта гибридная система обеспечивает высокую интерпретируемость, разработка алгоритмов, объединяющих восприятие и рассуждения, остается сложной задачей.
‍
Масштабируемость: Символические рассуждения могут стать медленными или вычислительно дорогими при работе с большими графами знаний или сложными наборами правил. Это может затруднить эффективное развертывание приложений реального времени, таких как автономное вождение, обработка видео или крупномасштабные рассуждения о знаниях.
‍
Устойчивость рассуждений: Если символические правила слишком жесткие, системы могут испытывать трудности в неоднозначных или непредсказуемых сценариях реального мира. Баланс между гибкостью обучения и надежностью рассуждений по-прежнему остается актуальной задачей.

Основные выводы

Нейросимволический ИИ - важный шаг на пути к созданию систем ИИ, способных не только воспринимать мир, но и рассуждать о нем и объяснять свои решения. В отличие от традиционных систем глубокого обучения, которые опираются в основном на шаблоны, полученные из данных, нейросимволический ИИ сочетает статистическое обучение со структурированной логикой и знаниями. Он не заменяет глубокое обучение, а надстраивается над ним, приближая нас к разработке ИИ, способного понимать и рассуждать более человекоподобным образом.

Присоединяйтесь к нашему сообществу и изучайте наш репозиторий GitHub. Ознакомьтесь с нашими страницами решений, чтобы узнать о различных областях применения ИИ в сельском хозяйстве и компьютерного зрения в здравоохранении. Узнайте о наших возможностях лицензирования и приступайте к созданию своего проекта Vision AI!

Введение в развивающуюся область нейросимволического ИИ