Observability
Khám phá tầm quan trọng của khả năng quan sát (observability) trong AI và ML. Tìm hiểu cách gỡ lỗi các hệ thống phức tạp, giám sát hiệu suất của Ultralytics YOLO26 và đạt được thông tin chi tiết về model.
Khả năng quan sát đề cập đến năng lực thấu hiểu trạng thái bên trong của một hệ thống phức tạp chỉ dựa vào các đầu ra bên ngoài của nó. Trong các lĩnh vực đang phát triển nhanh chóng như Trí tuệ nhân tạo (AI) và Học máy (ML), khả năng quan sát không chỉ dừng lại ở các bước kiểm tra trạng thái đơn giản mà còn cung cấp thông tin chuyên sâu về lý do tại sao một model lại hoạt động theo một cách nhất định. Khi các kiến trúc Deep Learning (DL) hiện đại—chẳng hạn như YOLO26 tiên tiến nhất—ngày càng trở nên phức tạp, chúng thường có thể hoạt động như những "hộp đen". Các công cụ quan sát tạo ra một cửa sổ minh bạch vào các hệ thống này, cho phép các đội ngũ kỹ thuật gỡ lỗi các hành vi bất ngờ, truy vết nguyên nhân gốc rễ của các lỗi và đảm bảo độ tin cậy trong các môi trường sản xuất.
Link to this sectionKhả năng quan sát so với Giám sát#
Mặc dù thường được sử dụng thay thế cho nhau, khả năng quan sát và giám sát model phục vụ các mục đích riêng biệt nhưng bổ sung cho nhau trong vòng đời MLOps.
- Giám sát Model mang tính phản ứng và tập trung vào "những điều đã biết nhưng chưa xác định". Nó bao gồm việc theo dõi các chỉ số được xác định trước như độ trễ suy luận, mức sử dụng CPU hoặc tỷ lệ lỗi so với các ngưỡng đã thiết lập. Giám sát trả lời câu hỏi: "Hệ thống có đang hoạt động tốt không?"
- Khả năng quan sát mang tính chủ động và giải quyết "những điều chưa biết mà ta không ngờ tới". Nó cung cấp dữ liệu chi tiết—logs, các vết truy vết (traces) và các sự kiện có độ biến thiên cao—cần thiết để điều tra các vấn đề mới chưa từng được lường trước trong quá trình chuẩn bị dữ liệu huấn luyện. Như được mô tả trong Sách SRE của Google, một hệ thống có khả năng quan sát cho phép bạn hiểu các hành vi mới mà không cần phải phát hành code mới. Nó trả lời câu hỏi: "Tại sao hệ thống lại hoạt động theo cách này?"
Link to this sectionBa trụ cột của Khả năng quan sát#
Để đạt được khả năng quan sát thực sự trong các đường ống (pipelines) Thị giác máy tính (CV), các hệ thống thường dựa vào ba loại dữ liệu đo từ xa chính:
-
Logs: Các bản ghi có dấu thời gian, không thể thay đổi của các sự kiện rời rạc. Trong một đường ống phát hiện, một log có thể ghi lại độ phân giải hình ảnh đầu vào hoặc cấu hình tinh chỉnh siêu tham số cụ thể được sử dụng trong quá trình chạy. Việc ghi log có cấu trúc, thường ở định dạng JSON, cho phép truy vấn và phân tích phức tạp.
-
Metrics: Dữ liệu số tổng hợp được đo theo thời gian, chẳng hạn như độ chính xác trung bình, mức tiêu thụ bộ nhớ hoặc mức sử dụng GPU. Các công cụ như Prometheus và Grafana là tiêu chuẩn để lưu trữ các dữ liệu chuỗi thời gian này nhằm trực quan hóa các xu hướng.
-
Traces: Truy vết theo dõi vòng đời của một yêu cầu khi nó chảy qua các microservices khác nhau. Đối với các ứng dụng AI phân tán, các tiêu chuẩn như OpenTelemetry giúp lập bản đồ đường đi của một yêu cầu, làm nổi bật các điểm nghẽn trong engine suy luận hoặc độ trễ mạng. Các công cụ chuyên dụng như Jaeger giúp trực quan hóa các giao dịch phân tán này.
Link to this sectionTriển khai Khả năng quan sát trong Python#
Bạn có thể tăng cường khả năng quan sát trong các đường ống huấn luyện của mình bằng cách sử dụng các callbacks để ghi lại các trạng thái nội bộ cụ thể. Ví dụ sau đây minh họa cách thêm một callback tùy chỉnh vào phiên huấn luyện YOLO26 để giám sát các chỉ số hiệu suất trong thời gian thực.
from ultralytics import YOLO
# Load the YOLO26 model
model = YOLO("yolo26n.pt")
# Define a custom callback for observability
def on_train_epoch_end(trainer):
# Access and print specific metrics at the end of each epoch
map50 = trainer.metrics.get("metrics/mAP50(B)", 0)
print(f"Observability Log - Epoch {trainer.epoch + 1}: mAP50 is {map50:.4f}")
# Register the callback and start training
model.add_callback("on_train_epoch_end", on_train_epoch_end)
model.train(data="coco8.yaml", epochs=3)Link to this sectionCác ứng dụng trong thực tế#
Khả năng quan sát rất quan trọng để triển khai các model hiệu năng cao trong các môi trường động nơi dữ liệu kiểm thử có thể không hoàn toàn khớp với các điều kiện thực tế.
- Phương tiện tự hành: Trong quá trình phát triển xe tự hành, khả năng quan sát cho phép các kỹ sư tái tạo trạng thái chính xác của hệ thống trong một sự kiện ngắt kết nối. Bằng cách đối chiếu các đầu ra phát hiện đối tượng với log cảm biến và các lệnh điều khiển, các đội ngũ có thể xác định xem lỗi phanh có phải do nhiễu cảm biến, lỗi dự đoán của model hay lỗi logic trong module lập kế hoạch hay không.
- Chẩn đoán y tế: Trong AI trong chăm sóc sức khỏe, việc đảm bảo hiệu suất ổn định là rất quan trọng đối với an toàn của bệnh nhân. Các công cụ quan sát có thể phát hiện dịch chuyển dữ liệu (data drift) nếu hiệu suất của model suy giảm khi áp dụng vào hình ảnh từ một loại máy quét MRI mới. Các vết truy vết (traces) có thể tiết lộ liệu vấn đề bắt nguồn từ sự thay đổi trong tiền xử lý dữ liệu hình ảnh hay sự thay đổi trong phân phối đầu vào, cho phép khắc phục nhanh chóng mà không ảnh hưởng đến an toàn AI.
Link to this sectionTích hợp với các công cụ hiện đại#
Các quy trình làm việc hiện đại thường tích hợp khả năng quan sát trực tiếp vào nền tảng huấn luyện. Người dùng Ultralytics Platform được hưởng lợi từ việc trực quan hóa tích hợp các đường cong mất mát (loss curves), hiệu suất hệ thống và phân tích tập dữ liệu. Ngoài ra, các tích hợp tiêu chuẩn với các công cụ như TensorBoard và MLflow cho phép các nhà khoa học dữ liệu duy trì việc theo dõi thí nghiệm nghiêm ngặt và khả năng quan sát trên toàn bộ vòng đời của model.






