Khả năng quan sát
Khám phá cách khả năng quan sát nâng cao các hệ thống AI/ML như Ultralytics YOLO . Nhận thông tin chi tiết, tối ưu hóa hiệu suất và đảm bảo độ tin cậy trong các ứng dụng thực tế.
Khả năng quan sát cho phép các nhóm kỹ thuật chủ động gỡ lỗi và hiểu trạng thái bên trong của các hệ thống phức tạp dựa trên dữ liệu đầu ra bên ngoài. Trong lĩnh vực Trí tuệ Nhân tạo (AI) và Học máy (ML) đang phát triển nhanh chóng, khái niệm này rất quan trọng để vượt ra ngoài các triển khai "hộp đen". Trong khi kiểm thử phần mềm truyền thống có thể xác minh logic, các mô hình ML hoạt động theo xác suất, khiến việc có các hệ thống cho phép nhà phát triển điều tra nguyên nhân gốc rễ của các dự đoán bất ngờ, suy giảm hiệu suất hoặc lỗi sau khi triển khai mô hình là điều cần thiết.
So sánh khả năng quan sát với giám sát
Mặc dù thường được sử dụng thay thế cho nhau, các thuật ngữ này đại diện cho những cách tiếp cận riêng biệt đối với độ tin cậy của hệ thống.
-
Giám sát tập trung vào "những điều chưa biết". Nó bao gồm việc theo dõi các bảng thông tin và cảnh báo được xác định trước để đo lường các số liệu như độ trễ suy luận hoặc tỷ lệ lỗi. Giám sát trả lời câu hỏi: "Hệ thống có hoạt động tốt không?"
-
Khả năng quan sát giải quyết những "ẩn số chưa biết". Nó cung cấp dữ liệu chi tiết cần thiết để đặt ra những câu hỏi mới, chưa lường trước về lý do tại sao một lỗi cụ thể xảy ra. Như được mô tả trong Sách SRE Google , một hệ thống có thể quan sát cho phép bạn hiểu các hành vi mới mà không cần phải đưa mã mới vào. Nó trả lời câu hỏi: "Tại sao hệ thống lại hoạt động theo cách này?"
Ba trụ cột của khả năng quan sát (Observability)
Để có được những hiểu biết sâu sắc, khả năng quan sát dựa vào ba loại dữ liệu đo từ xa chính:
-
Nhật ký: Đây là các bản ghi có dấu thời gian, bất biến của các sự kiện rời rạc. Trong quy trình thị giác máy tính (CV) , nhật ký có thể ghi lại kích thước hình ảnh đầu vào hoặc cấu hình điều chỉnh siêu tham số . Nhật ký có cấu trúc, thường ở định dạng JSON , giúp các công cụ phân tích dữ liệu như Splunk dễ dàng truy vấn hơn.
-
Chỉ số: Dữ liệu số tổng hợp được đo lường theo thời gian, chẳng hạn như độ chính xác , mức tiêu thụ bộ nhớ hoặc mức sử dụng GPU . Các hệ thống như Prometheus được sử dụng rộng rãi để lưu trữ dữ liệu chuỗi thời gian này, cho phép các nhóm trực quan hóa xu hướng.
-
Theo dõi: Theo dõi vòng đời của một yêu cầu khi nó lan truyền qua nhiều dịch vụ vi mô khác nhau. Đối với các ứng dụng AI phân tán, các công cụ tương thích với OpenTelemetry có thể lập bản đồ đường dẫn của một yêu cầu, làm nổi bật các điểm nghẽn trong công cụ suy luận hoặc độ trễ mạng.
Tại sao khả năng quan sát lại quan trọng trong AI
Việc triển khai mô hình vào thế giới thực đặt ra những thách thức không tồn tại trong môi trường đào tạo được kiểm soát. Khả năng quan sát là yếu tố thiết yếu cho:
-
Phát hiện Dữ liệu Trôi dạt: Theo thời gian, dữ liệu trực tiếp có thể khác biệt so với dữ liệu đào tạo , một hiện tượng được gọi là trôi dạt dữ liệu . Các công cụ quan sát sẽ trực quan hóa phân phối đầu vào để cảnh báo kỹ sư khi cần đào tạo lại.
-
Đảm bảo An toàn AI: Đối với các lĩnh vực có rủi ro cao, việc hiểu rõ các quyết định của mô hình là rất quan trọng đối với sự an toàn của AI . Thông tin chi tiết giúp kiểm toán các quyết định để đảm bảo chúng phù hợp với các giao thức an toàn và tính công bằng trong AI .
-
Tối ưu hóa hiệu suất: Bằng cách phân tích các dấu vết chi tiết, nhóm MLOps có thể xác định các phép tính dư thừa hoặc hạn chế về tài nguyên, từ đó tối ưu hóa chi phí và tốc độ.
-
Gỡ lỗi "Hộp đen": Các mô hình học sâu thường không rõ ràng. Các nền tảng quan sát như Honeycomb cho phép các kỹ sư phân tích dữ liệu đa chiều để xác định lý do tại sao một mô hình thất bại trong một trường hợp cụ thể.
Các Ứng dụng Thực tế
Khả năng quan sát đóng vai trò then chốt trong việc đảm bảo độ tin cậy của các giải pháp AI hiện đại trên nhiều ngành công nghiệp.
-
Xe tự hành: Trong quá trình phát triển xe tự hành , khả năng quan sát cho phép các kỹ sư tái tạo chính xác trạng thái của hệ thống trong trường hợp mất kết nối. Bằng cách đối chiếu dữ liệu phát hiện vật thể với nhật ký cảm biến và lệnh điều khiển, các nhóm có thể xác định lỗi phanh là do nhiễu cảm biến hay lỗi dự đoán của mô hình.
-
Chẩn đoán Chăm sóc Sức khỏe: Trong lĩnh vực AI chăm sóc sức khỏe , hoạt động đáng tin cậy là tối quan trọng. Khả năng quan sát đảm bảo các mô hình hình ảnh y tế hoạt động nhất quán trên các máy móc khác nhau của bệnh viện. Nếu hiệu suất của mô hình giảm, dữ liệu theo dõi có thể cho biết vấn đề bắt nguồn từ thay đổi độ phân giải hình ảnh hay sự chậm trễ trong quy trình tiền xử lý dữ liệu, cho phép khắc phục nhanh chóng mà không ảnh hưởng đến việc chăm sóc bệnh nhân.
Triển khai khả năng quan sát với Ultralytics
Khả năng quan sát hiệu quả bắt đầu bằng việc ghi nhật ký và theo dõi thử nghiệm phù hợp. Ultralytics các mô hình tích hợp liền mạch với các công cụ như MLflow , Weights & Biases và TensorBoard để ghi lại số liệu, tham số và hiện vật tự động.
Ví dụ sau đây minh họa cách đào tạo mô hình YOLO11 trong khi sắp xếp nhật ký thành cấu trúc dự án cụ thể, đây là nền tảng của khả năng quan sát dựa trên tệp:
from ultralytics import YOLO
# Load the YOLO11 model
model = YOLO("yolo11n.pt")
# Train the model, saving logs and results to a specific project directory
# This creates structured artifacts useful for post-training analysis
model.train(data="coco8.yaml", epochs=3, project="observability_logs", name="experiment_1")
Đối với môi trường sản xuất, các nhóm thường tổng hợp các nhật ký này vào các nền tảng tập trung như Datadog , New Relic hoặc Elastic Stack để duy trì chế độ xem thống nhất về toàn bộ cơ sở hạ tầng AI của họ. Khả năng trực quan hóa nâng cao cũng có thể đạt được bằng cách sử dụng các bảng điều khiển nguồn mở như Grafana .