Glossário

XML

Descobre como o XML potencia a IA e o ML com anotação, configuração e troca de dados. Aprende a sua estrutura, utilizações e aplicações no mundo real!

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

XML, ou Extensible Markup Language, é uma linguagem de marcação versátil criada pelo World Wide Web Consortium (W3C) para codificar documentos de uma forma que seja tanto legível por humanos como por máquinas. Ao contrário do HTML, que se concentra na forma como os dados devem ser apresentados, a função principal do XML é descrever, armazenar e transportar dados, dando ênfase ao que são os dados. O seu formato estruturado e auto-descritivo torna-o muito adequado para a troca de informações entre diferentes sistemas e aplicações, incluindo os utilizados em Inteligência Artificial (IA) e Aprendizagem Automática (ML). Compreender o XML é benéfico para quem trabalha com diversos conjuntos de dados ou integra diferentes ferramentas num pipeline de ML.

Compreender a estrutura XML

A XML organiza os dados utilizando etiquetas entre parêntesis angulares (< >). Estas etiquetas definem elementos, que são os blocos de construção fundamentais que representam as estruturas de dados. Os elementos podem conter dados de texto, outros elementos aninhados, ou uma combinação, formando uma estrutura hierárquica em forma de árvore. As etiquetas também podem ter atributos, que fornecem metadados adicionais sobre um elemento. Por exemplo, um ficheiro XML que descreve dados de um livro pode ter o seguinte aspeto <book category="fiction"><title>Example Novel</title><author>Jane Doe</author></book>. Esta estrutura explícita, embora por vezes mais detalhada do que outros formatos, permite uma validação rigorosa em relação a esquemas como XSD (Definição do esquema XML), assegurando a consistência dos dados, o que é crucial em situações complexas pré-processamento de dados etapas.

Relevância em IA e ML

Embora formatos mais recentes como JSON e YAML sejam cada vez mais populares para determinadas tarefas devido à sua concisão, o XML continua a ser relevante em várias áreas-chave da IA e do ML:

XML vs. Formatos relacionados

É útil distinguir a XML de outros formatos comuns de serialização de dados:

  • JSON (JavaScript Object Notation): Em comparação com a sintaxe baseada em etiquetas do XML, o JSON utiliza uma estrutura de pares de valores chave mais leve, derivada de objectos JavaScript. Geralmente é menos verboso e muitas vezes mais fácil de analisar por aplicações Web e APIs. Consulta a norma JSON oficial para obteres mais informações. Enquanto o XML tem suporte incorporado para namespaces e esquemas, o JSON depende normalmente de convenções externas para validação.
  • YAML (YAML Ain't Markup Language): YAML prioriza a legibilidade humana, usando indentação para denotar estrutura em vez de tags ou colchetes. É frequentemente usado para arquivos de configuração em projetos de ML (incluindo Ultralytics YOLO do Ultralytics) e ferramentas de infraestrutura como código, como o Kubernetes. Explora a especificação YAML para obter mais informações.

Aplicações reais de XML em IA/ML

  1. Conjunto de dados PASCAL de classes de objectos visuais (VOC): Este influente conjunto de dados de deteção de objectos, amplamente utilizado para modelos de avaliação comparativa como o YOLOv8 e YOLO11utiliza ficheiros XML para as suas anotações. Cada ficheiro XML corresponde a uma imagem e contém informações sobre a fonte da imagem, o tamanho e os detalhes de cada objeto anotado, incluindo a sua etiqueta de classe (por exemplo, "carro", "pessoa") e as coordenadas da caixa delimitadora (xmin, ymin, xmax, ymax). Pode encontrar pormenores no sítio Web oficial do PASCAL VOC e aprender a utilizá-lo com os modelos Ultralytics na documentação do conjunto de dados VOC. Plataformas como o Ultralytics HUB podem ajudar a gerir esses conjuntos de dados para treinar modelos personalizados.
  2. Metadados de imagens médicas (DICOM): A norma DICOM (Digital Imaging and Communications in Medicine) é omnipresente nos cuidados de saúde para armazenar e transmitir imagens médicas. Embora o DICOM em si seja um formato binário, o XML é normalmente utilizado para representar os extensos metadados associados a estas imagens, tais como informações sobre o doente, parâmetros de aquisição e resultados de diagnósticos. Estes metadados estruturados são vitais para as tarefas de análise de imagens médicas, permitindo aos investigadores e clínicos filtrar conjuntos de dados, treinar modelos de IA de diagnóstico(IA em Radiologia) e garantir a rastreabilidade em aplicações de IA nos cuidados de saúde.

Em suma, embora nem sempre seja o formato mais conciso, a natureza estruturada, a extensibilidade e as capacidades de validação robustas do XML asseguram o seu papel contínuo em áreas específicas da IA e do ML, particularmente em normas de anotação de dados, formatos de troca de modelos como o PMML e integração de dados empresariais. A familiaridade com o XML é valiosa para navegar em diversas fontes de dados e ferramentas no terreno.

Lê tudo