Глоссарий

XML

Откройте для себя, как XML обеспечивает возможности ИИ и ОД с помощью аннотирования, конфигурирования и обмена данными. Узнайте о его структуре, использовании и реальных применениях!

XML (eXtensible Markup Language) - это универсальный и широко используемый язык разметки для кодирования документов в формате, который может быть как человекочитаемым, так и машиночитаемым. Разработанный Консорциумом Всемирной паутины (W3C), он предназначен в первую очередь для хранения и транспортировки данных, а не для их отображения. В отличие от других языков разметки, таких как HTML, XML позволяет пользователям определять свои собственные теги, что делает его очень гибким для создания самоописывающихся структур данных. Такая расширяемость делает его основополагающей технологией для обмена данными между различными системами и платформами в машинном обучении (ML) и других областях, требующих больших объемов данных.

XML в области искусственного интеллекта и машинного обучения

В контексте искусственного интеллекта (ИИ) и компьютерного зрения (КВ) XML играет важнейшую роль в представлении и настройке данных. Его структурированный, иерархический формат идеально подходит для определения сложных аннотаций, необходимых для обучения сложных моделей. Хотя современные приложения часто предпочитают более легкие форматы, надежность XML и его строгая валидность, часто обеспечиваемая с помощью схем типа XML Schema Definition (XSD), делают его незаменимым для решения определенных задач, основанных на стандартах. К числу ключевых применений относятся аннотирование данных, конфигурирование моделей и форматы обмена моделями, такие как Predictive Model Markup Language (PMML), который позволяет развертывать модели на различных платформах.

Применение XML в реальном мире в AI/ML

Структурированность XML делает его надежным выбором для создания стандартизированных наборов данных и метаданных. Два ярких примера включают:

  1. Набор данных PASCAL Visual Object Classes (VOC): Этот влиятельный набор данных для обнаружения объектов, широко используемый для бенчмаркинга таких моделей, как YOLOv8 и YOLO11, использует XML-файлы для аннотаций. Каждый XML-файл соответствует изображению и содержит информацию об источнике изображения, размере, а также подробные сведения о каждом аннотированном объекте, включая метку класса (например, "автомобиль", "человек") и координаты ограничительной рамки. Подробности можно найти на официальном сайте PASCAL VOC и узнать, как использовать его в моделях Ultralytics, в документации по набору данных VOC. Платформы вроде Ultralytics HUB могут помочь управлять такими наборами данных для обучения пользовательских моделей.
  2. Метаданные медицинских изображений (DICOM): Стандарт DICOM (Digital Imaging and Communications in Medicine) повсеместно используется в здравоохранении для хранения и передачи медицинских изображений. Хотя сам DICOM представляет собой двоичный формат, для представления обширных метаданных, связанных с этими изображениями, таких как информация о пациенте, параметры съемки и результаты диагностики, обычно используется XML. Эти структурированные метаданные жизненно важны для задач анализа медицинских изображений, позволяя исследователям и врачам фильтровать наборы данных, обучать диагностические модели искусственного интеллекта и обеспечивать прослеживаемость в приложениях искусственного интеллекта в здравоохранении.

XML в сравнении с другими форматами

Несмотря на мощный потенциал XML, важно понимать, как он сопоставляется с другими форматами сериализации данных:

  • JSON (JavaScript Object Notation): JSON в значительной степени заменил XML в веб-приложениях и API благодаря своему легкому синтаксису и простоте разбора. JSON менее многословен, чем XML, поскольку в нем не используются закрывающие теги. Хотя XML отлично подходит для структурированных документов, JSON часто предпочитают для обмена данными в современных системах.
  • YAML (YAML Ain't Markup Language): В YAML приоритет отдается удобству чтения и использованию отступов для представления структуры данных, что делает его популярным выбором для конфигурационных файлов в проектах AI/ML, в том числе для конфигураций моделей Ultralytics YOLO. XML более многословен, но его структура, основанная на тегах, может быть более явной для сложных, вложенных данных, где требуется строгая валидация.

В итоге, несмотря на то, что формат XML не всегда является самым лаконичным, его структурированность, расширяемость и надежные возможности проверки обеспечивают его постоянную роль в конкретных областях ИИ и ОД, особенно в аннотировании данных, форматах обмена моделями и интеграции корпоративных данных.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему искусственного интеллекта. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединяйтесь сейчас
Ссылка копируется в буфер обмена