XML
XML이 데이터 주석, 구성 및 교환을 통해 어떻게 AI와 ML을 지원하는지 알아보세요. 구조, 용도, 실제 적용 사례에 대해 알아보세요!
XML(확장 가능한 마크업 언어)은 사람이 읽을 수 있고 기계가 읽을 수 있는 형식으로 문서를 인코딩하는 데 널리 사용되는 다목적 마크업 언어입니다. W3C(월드와이드웹 컨소시엄)에서 개발한 이 언어의 주요 목적은 데이터를 표시하는 것이 아니라 저장하고 전송하는 것입니다. HTML과 같은 다른 마크업 언어와 달리 XML은 사용자가 자신만의 태그를 정의할 수 있어 자체 설명 데이터 구조를 만드는 데 매우 유연합니다. 이러한 확장성 덕분에 머신 러닝(ML) 및 기타 데이터 집약적인 분야에서 다양한 시스템과 플랫폼 간의 데이터 교환을 위한 기반 기술이 되고 있습니다.
AI 및 머신 러닝의 XML
인공 지능(AI) 과 컴퓨터 비전(CV)의 맥락에서 XML은 데이터 표현과 구성에서 중요한 역할을 합니다. 구조화된 계층적 형식은 정교한 모델을 학습시키는 데 필요한 복잡한 주석을 정의하는 데 이상적입니다. 최신 애플리케이션은 종종 더 가벼운 형식을 선호하지만, XML의 견고함과 엄격한 유효성 검사 기능(종종 XML 스키마 정의(XSD)와 같은 스키마를 통해 시행되는)은 특정 표준 기반 작업에 없어서는 안 될 필수 요소입니다. 데이터 주석, 모델 구성, 다양한 플랫폼에 걸쳐 모델을 배포할 수 있는 예측 모델 마크업 언어(PMML)와 같은 모델 상호 교환 형식 등이 주요 용도로 사용됩니다.
AI/ML에서 XML의 실제 적용 사례
XML의 구조화된 특성으로 인해 표준화된 데이터 세트와 메타데이터를 생성하는 데 신뢰할 수 있는 선택입니다. 두 가지 대표적인 예가 있습니다:
- PASCAL 시각적 객체 클래스(VOC) 데이터 세트: 이 영향력 있는 객체 감지 데이터 세트는 YOLOv8 및 YOLO11과 같은 벤치마킹 모델에 널리 사용되며 주석에 XML 파일을 활용합니다. 각 XML 파일은 이미지에 해당하며 이미지 소스, 크기, 클래스 레이블(예: '자동차', '사람') 및 경계 상자 좌표 등 각 주석이 달린 객체에 대한 세부 정보가 포함되어 있습니다. 자세한 내용은 공식 PASCAL VOC 웹사이트에서 확인할 수 있으며, VOC 데이터 세트 설명서에서 Ultralytics 모델과 함께 사용하는 방법을 배울 수 있습니다. 사용자 지정 모델 학습을 위해 이러한 데이터 세트를 관리하는 데는 Ultralytics HUB와 같은 플랫폼이 도움이 될 수 있습니다.
- 의료 영상 메타데이터(DICOM): 의료 영상 저장 및 전송을 위해 의료 업계에서 보편적으로 사용되는 DICOM(디지털 이미징 및 의료 통신) 표준입니다. DICOM 자체는 이진 형식이지만, 환자 정보, 촬영 매개변수, 진단 결과 등 이러한 이미지와 관련된 광범위한 메타데이터를 표현하기 위해 일반적으로 XML이 사용됩니다. 이러한 구조화된 메타데이터는 의료 이미지 분석 작업에 필수적이며, 연구자와 임상의가 데이터 세트를 필터링하고 진단 AI 모델을 훈련하며 AI 의료 애플리케이션에서 추적성을 보장할 수 있게 해줍니다.
XML과 다른 형식
XML은 강력하지만 다른 데이터 직렬화 형식과 어떻게 비교되는지 이해하는 것이 중요합니다:
- JSON(JavaScript 객체 표기법): JSON은 가벼운 구문과 구문 분석의 용이성으로 인해 웹 애플리케이션과 API에서 XML을 대체해 왔습니다. JSON은 닫는 태그를 사용하지 않기 때문에 XML보다 덜 장황합니다. XML은 구조화된 문서에 적합하지만, 최신 시스템에서는 데이터 교환을 위해 JSON이 선호되는 경우가 많습니다.
- YAML(YAML은 마크업 언어가 아님): YAML은 사람의 가독성을 우선시하고 들여쓰기를 사용하여 데이터 구조를 표현하므로, Ultralytics YOLO 모델 구성을 비롯한 AI/ML 프로젝트의 구성 파일에 널리 사용됩니다. XML은 더 장황하지만 태그 기반 구조는 엄격한 유효성 검사가 필요한 복잡하고 중첩된 데이터에 대해 더 명시적일 수 있습니다.
요약하자면, 항상 가장 간결한 형식은 아니지만, XML의 구조화된 특성, 확장성, 강력한 유효성 검사 기능은 특히 데이터 주석, 모델 교환 형식, 엔터프라이즈 데이터 통합 등 AI 및 ML의 특정 영역에서 지속적인 역할을 보장합니다.