Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

XML

Khám phá cách XML cung cấp sức mạnh cho AI và ML với chú thích, cấu hình và trao đổi dữ liệu. Tìm hiểu cấu trúc, cách sử dụng và các ứng dụng thực tế của nó!

Ngôn ngữ Đánh dấu Mở rộng, thường được gọi là XML, là một định dạng văn bản linh hoạt được sử dụng để lưu trữ, sắp xếp và vận chuyển dữ liệu trên nhiều hệ thống máy tính khác nhau. Không giống như HTML, tập trung vào cách dữ liệu được hiển thị, XML được thiết kế để mô tả dữ liệu là gì, sử dụng cấu trúc phân cấp của các thẻ tùy chỉnh để xác định các phần tử và thuộc tính. Khả năng này khiến XML trở thành một tiêu chuẩn bền vững cho việc trao đổi dữ liệu và quản lý cấu hình. Trong lĩnh vực Học máy (ML) đang phát triển nhanh chóng, XML vẫn là một định dạng quan trọng để cấu trúc các tập dữ liệu phức tạp, đặc biệt là những tập dữ liệu yêu cầu siêu dữ liệu chi tiết và các tiêu chuẩn xác thực nghiêm ngặt do World Wide Web Consortium (W3C) quy định.

Vai trò của XML trong trí tuệ nhân tạo

Trong lĩnh vực Trí tuệ Nhân tạo (AI) , dữ liệu có cấu trúc là nhiên liệu cung cấp năng lượng cho các thuật toán phức tạp. XML cung cấp một khuôn khổ mạnh mẽ cho việc chú thích dữ liệu , cho phép các kỹ sư đóng gói thông tin thô—chẳng hạn như hình ảnh hoặc văn bản—với siêu dữ liệu mô tả phong phú. Cách tiếp cận có cấu trúc này rất cần thiết cho học có giám sát , trong đó các mô hình yêu cầu các ví dụ được gắn nhãn để học các mẫu. Mặc dù các quy trình làm việc hiện đại ngày càng sử dụng các định dạng nhẹ, nhưng tính chi tiết và cú pháp nghiêm ngặt của XML đảm bảo tính toàn vẹn của dữ liệu, khiến nó trở thành lựa chọn ưu tiên cho các hệ thống cũ, tích hợp doanh nghiệp và các tác vụ thị giác máy tính cụ thể.

Ứng dụng thực tế trong AI và Học máy

XML đóng vai trò quan trọng trong nhiều ứng dụng thực tế, đặc biệt là khi việc chuẩn hóa dữ liệu và khả năng tương tác là tối quan trọng.

  • Bộ dữ liệu Phát hiện Đối tượng (PASCAL VOC ): Một trong những ứng dụng nổi bật nhất của XML trong thị giác máy tính là định dạng PASCAL Visual Object Classes ( VOC ) . Trong tiêu chuẩn này, mỗi hình ảnh trong bộ dữ liệu được ghép nối với một tệp XML chứa thông tin chú thích chi tiết. Các tệp này xác định tọa độ khung giới hạn (xmin, ymin, xmax, ymax) và nhãn lớp cho từng đối tượng. Các mô hình như YOLO11 có thể sử dụng các chú thích này (thường được chuyển đổi thành txt) để tìm hiểu cách nhận dạng và định vị đối tượng, một quá trình cơ bản trong phát hiện đối tượng .
  • Hình ảnh Y tế và Chăm sóc Sức khỏe: Trong lĩnh vực AI chăm sóc sức khỏe , khả năng tương tác là rất quan trọng. Tiêu chuẩn Hình ảnh Kỹ thuật số và Truyền thông trong Y học (DICOM) , được sử dụng rộng rãi cho các lần quét y tế, thường xuyên kết nối với XML để xử lý siêu dữ liệu phức tạp. XML cho phép báo cáo có cấu trúc dữ liệu bệnh nhân, các thông số nghiên cứu và kết quả chẩn đoán, tạo điều kiện thuận lợi cho việc phân tích hình ảnh y tế và đảm bảo rằng các mô hình AI được đào tạo trên dữ liệu này tuân thủ nghiêm ngặt các tiêu chuẩn dữ liệu y tế như HL7 .

So sánh XML, JSON và YAML

Để hiểu vị trí của XML trong ngăn xếp AI hiện đại, cần phân biệt XML với các định dạng tuần tự hóa dữ liệu khác có trong bảng thuật ngữ Ultralytics :

  • XML so với JSON (Ký hiệu Đối tượng JavaScript) : JSON nhẹ hơn, ít chi tiết hơn và phân tích cú pháp nhanh hơn, khiến nó trở thành tiêu chuẩn cho các API web và truyền dữ liệu đơn giản. Tuy nhiên, XML hỗ trợ lược đồ và không gian tên, mang lại khả năng xác thực mạnh mẽ hơn cho dữ liệu phức tạp, tập trung vào tài liệu.
  • XML so với YAML : YAML được ưu tiên để con người có thể đọc được và là tiêu chuẩn để cấu hình mô hình trong Ultralytics Phần mềm. Trong khi YAML dựa vào thụt lề, XML dựa vào thẻ mở và thẻ đóng rõ ràng. XML thường được sử dụng khi việc xác thực giữa máy với máy quan trọng hơn khả năng chỉnh sửa của con người.

Phân tích cú pháp XML cho thị giác máy tính

Khi làm việc với các tập dữ liệu cũ hoặc các định dạng dữ liệu đào tạo cụ thể, các nhà phát triển thường cần phân tích cú pháp XML để trích xuất nhãn và tọa độ. Sau đây là Python Ví dụ minh họa cách trích xuất thông tin hộp giới hạn từ chuỗi XML thô, mô phỏng bước xử lý dữ liệu thông thường trước khi đào tạo mô hình.

import xml.etree.ElementTree as ET

# Simulating a PASCAL VOC style XML annotation content
voc_xml_data = """
<annotation>
    <object>
        <name>person</name>
        <bndbox>
            <xmin>50</xmin>
            <ymin>30</ymin>
            <xmax>200</xmax>
            <ymax>400</ymax>
        </bndbox>
    </object>
</annotation>
"""

# Parse the XML data
root = ET.fromstring(voc_xml_data)

# Extract label and coordinates for object detection
for obj in root.findall("object"):
    label = obj.find("name").text
    bbox = obj.find("bndbox")
    coords = [int(bbox.find(tag).text) for tag in ["xmin", "ymin", "xmax", "ymax"]]

    print(f"Class: {label}, Box: {coords}")
    # Output: Class: person, Box: [50, 30, 200, 400]

Logic phân tích cú pháp này rất quan trọng khi chuyển đổi các tập dữ liệu XML hiện có sang các định dạng tương thích với kiến trúc YOLO hiện đại. Việc hiểu rõ các cấu trúc này cho phép các chuyên gia khai thác hiệu quả kho lưu trữ khổng lồ các tập dữ liệu nguồn mở .

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay