Đo lường hiệu suất AI để đánh giá tác động của các cải tiến của bạn
Bạn có thể theo dõi sự thành công của các cải tiến AI với các KPI và chỉ số hiệu suất phù hợp. Tìm hiểu cách theo dõi và tối ưu hóa tác động của các ứng dụng AI.

Chúng tôi đã từng khám phá cách AI có thể được ứng dụng trong các ngành công nghiệp khác nhau như y tế, sản xuất và du lịch. Chúng tôi cũng đã tìm hiểu về cách AI có thể cải thiện các tác vụ công việc hàng ngày và thảo luận về các ý tưởng kinh doanh AI hàng đầu. Tất cả những thảo luận này đều tất yếu dẫn đến cùng một câu hỏi quan trọng: làm thế nào chúng ta có thể đo lường sự thành công của các triển khai AI như vậy? Đây là một câu hỏi quan trọng vì việc chỉ triển khai các giải pháp AI thôi là chưa đủ. Đảm bảo rằng những giải pháp này thực sự mang lại kết quả mới là điều tạo nên sự đột phá cho chúng.
Chúng ta có thể đo lường các chỉ số hiệu suất AI để xác định xem một model AI có thực sự hiệu quả trong việc tăng cường hiệu suất quy trình, thúc đẩy đổi mới hoặc giải quyết vấn đề hay không. Bằng cách tập trung vào các chỉ số hiệu suất chính (KPIs) phù hợp, chúng ta có thể hiểu được giải pháp AI đang hoạt động tốt đến mức nào và ở đâu thì cần cải thiện.
Trong bài viết này, chúng ta sẽ xem xét cách đo lường sự thành công của các triển khai AI với những KPI phù hợp nhất. Chúng tôi sẽ đề cập đến sự khác biệt giữa KPI kinh doanh và KPI hiệu suất AI, đi qua các chỉ số chính như độ chính xác (precision) và khả năng gợi nhớ (recall), đồng thời giúp bạn chọn ra các KPI tốt nhất cho các giải pháp AI cụ thể của mình.
Link to this sectionSự khác biệt giữa KPI kinh doanh AI và KPI hiệu suất AI#

Hình 1. So sánh KPI Kinh doanh AI và KPI Hiệu suất AI.
Khi nghĩ đến KPI, thật tự nhiên khi cho rằng tất cả đều xoay quanh các chỉ số kinh doanh như tỷ suất hoàn vốn (ROI), tiết kiệm chi phí hoặc doanh thu tạo ra - đặc biệt là khi nói về AI doanh nghiệp. Các KPI kinh doanh AI này đo lường mức độ tác động của AI đến thành công tổng thể của một công ty và đảm bảo sự nhất quán với các mục tiêu kinh doanh rộng lớn hơn.
Tuy nhiên, các KPI hiệu suất AI tập trung vào mức độ hoạt động của chính hệ thống AI, sử dụng các chỉ số như accuracy, precision và recall. Chúng tôi sẽ đi sâu vào chi tiết các chỉ số này bên dưới, nhưng về cơ bản, trong khi KPI kinh doanh cho thấy các lợi ích tài chính và chiến lược của AI, thì KPI hiệu suất đảm bảo rằng một model AI đang thực hiện công việc của nó một cách hiệu quả.
Một số chỉ số nhất định thực sự có thể phục vụ cả hai mục đích. Ví dụ, mức tăng hiệu quả, chẳng hạn như giảm thời gian hoặc tài nguyên cần thiết để hoàn thành một tác vụ, có thể vừa là KPI hiệu suất (cho thấy giải pháp AI đang hoạt động tốt như thế nào) vừa là KPI kinh doanh (đo lường việc tiết kiệm chi phí và cải thiện năng suất). Sự hài lòng của khách hàng là một chỉ số chéo khác. Nó có thể phản ánh sự thành công của một công cụ dịch vụ khách hàng dựa trên AI xét cả về hiệu suất kỹ thuật lẫn tác động đối với các mục tiêu kinh doanh tổng thể.
Link to this sectionTìm hiểu các chỉ số hiệu suất AI chính#
Có một vài chỉ số phổ biến được sử dụng để đo lường mức độ hoạt động của một model AI. Đầu tiên, chúng ta sẽ xem xét định nghĩa và cách tính toán chúng. Sau đó, chúng ta sẽ thấy cách theo dõi các chỉ số này.
Link to this sectionPrecision (Độ chính xác)#
Precision là một chỉ số đo lường mức độ chính xác của model AI khi xác định các kết quả dương tính đúng (true positives) (các trường hợp mà model xác định đúng một đối tượng hoặc điều kiện như dự kiến). Ví dụ, trong một hệ thống nhận diện khuôn mặt, kết quả dương tính đúng sẽ xảy ra khi hệ thống nhận diện và xác định đúng khuôn mặt của một người mà nó đã được huấn luyện để detect.
Để tính precision, trước tiên hãy đếm số lượng các kết quả dương tính đúng. Sau đó, bạn chia số này cho tổng số mục mà model đã gắn nhãn là dương tính. Tổng này bao gồm cả các xác định đúng và các sai sót, được gọi là kết quả dương tính giả (false positives). Về cơ bản, precision cho bạn biết tần suất model chính xác khi nó tuyên bố đã nhận diện được thứ gì đó.

Hình 2. Tìm hiểu về Precision.
Chỉ số này đặc biệt quan trọng trong các tình huống mà hậu quả của việc xảy ra kết quả dương tính giả có thể gây tốn kém hoặc gián đoạn. Ví dụ, trong sản xuất tự động, tỷ lệ precision cao cho thấy hệ thống có thể gắn cờ các sản phẩm lỗi chính xác hơn và ngăn chặn việc vứt bỏ hoặc làm lại không cần thiết đối với các sản phẩm tốt. Một ví dụ điển hình khác là giám sát an ninh. Precision cao giúp giảm thiểu báo động giả và chỉ tập trung vào những mối đe dọa thực sự cần phản ứng an ninh.
Link to this sectionRecall (Khả năng gợi nhớ)#
Recall giúp đo lường khả năng của model AI trong việc xác định tất cả các trường hợp liên quan, hoặc kết quả dương tính đúng, trong một tập dữ liệu. Nói một cách đơn giản, nó thể hiện mức độ hiệu quả của hệ thống AI trong việc nắm bắt tất cả các trường hợp thực tế của một điều kiện hoặc đối tượng mà nó được thiết kế để phát hiện. Recall có thể được tính bằng cách chia số lượng các kết quả phát hiện đúng cho tổng số các trường hợp dương tính lẽ ra phải được phát hiện (bao gồm cả các trường hợp model đã xác định đúng và những trường hợp nó bỏ lỡ).
Hãy xem xét một hệ thống chẩn đoán hình ảnh y tế tích hợp AI được sử dụng để phát hiện ung thư. Trong ngữ cảnh này, recall phản ánh tỷ lệ phần trăm các ca ung thư thực tế mà hệ thống nhận diện đúng. Recall cao là cực kỳ quan trọng trong các tình huống như vậy vì việc bỏ lỡ một chẩn đoán ung thư có thể dẫn đến hậu quả nghiêm trọng cho việc chăm sóc bệnh nhân.
Link to this sectionPrecision so với recall#
Precision và recall giống như hai mặt của một đồng xu khi đánh giá hiệu suất của model AI, và chúng thường đòi hỏi sự cân bằng. Thách thức ở đây là việc cải thiện một chỉ số thường phải đánh đổi bằng chỉ số kia.
Giả sử bạn thúc đẩy để có precision cao hơn. Model có thể trở nên chọn lọc hơn và chỉ có thể xác định các trường hợp dương tính mà nó rất chắc chắn. Ngược lại, nếu bạn muốn cải thiện recall, model có thể xác định nhiều trường hợp dương tính hơn, nhưng điều này có thể bao gồm thêm nhiều kết quả dương tính giả và cuối cùng làm giảm precision.
Chìa khóa là tìm ra sự cân bằng phù hợp giữa precision và recall dựa trên nhu cầu cụ thể của ứng dụng. Một công cụ hữu ích cho việc này là đường cong Precision-Recall, cho thấy mối quan hệ giữa hai chỉ số ở các ngưỡng khác nhau. Bằng cách phân tích đường cong này, bạn có thể xác định điểm tối ưu nơi model hoạt động tốt nhất cho trường hợp sử dụng cụ thể của mình. Hiểu được sự đánh đổi này sẽ giúp ích khi tinh chỉnh các model AI để đạt hiệu suất tối ưu cho các use cases dự định.

Hình 3. Ví dụ về Đường cong Precision-Recall.
Link to this sectionMean Average Precision (mAP)#
Mean Average Precision (mAP) là một chỉ số được sử dụng để đánh giá hiệu suất của các model AI cho các tác vụ như object detection, nơi model cần nhận diện và phân loại nhiều đối tượng trong một hình ảnh. mAP cung cấp cho bạn một điểm số duy nhất cho thấy model hoạt động tốt như thế nào trên tất cả các danh mục khác nhau mà nó được huấn luyện để nhận diện. Hãy xem cách nó được tính toán.
Diện tích dưới đường cong Precision-Recall cho ra Average Precision (AP) cho class đó. AP đo lường mức độ chính xác của các dự đoán của model cho một class cụ thể, xem xét cả precision và recall ở các mức độ tin cậy khác nhau (mức độ tin cậy đề cập đến độ chắc chắn của model trong các dự đoán của nó). Khi AP đã được tính toán cho mỗi class, mAP sẽ được xác định bằng cách lấy trung bình các giá trị AP này trên tất cả các class.

Hình 4. AP của các class khác nhau.
mAP hữu ích trong các ứng dụng như xe tự lái, nơi nhiều đối tượng như người đi bộ, phương tiện giao thông và biển báo cần được phát hiện đồng thời. Điểm mAP cao đồng nghĩa với việc model duy trì hiệu suất ổn định trên tất cả các danh mục, đảm bảo tính tin cậy và độ chính xác trong nhiều tình huống khác nhau.
Link to this sectionTính toán các chỉ số hiệu suất một cách dễ dàng#
Các công thức và phương pháp tính toán các chỉ số hiệu suất AI chính có thể trông rất đáng sợ. Tuy nhiên, các công cụ như gói Ultralytics có thể làm cho việc này trở nên đơn giản và nhanh chóng. Cho dù bạn đang làm việc trên các tác vụ object detection, segmentation hay classification, Ultralytics cung cấp các tiện ích cần thiết để tính toán nhanh chóng các chỉ số quan trọng như precision, recall và mAP.
Để bắt đầu tính toán các chỉ số hiệu suất bằng cách sử dụng Ultralytics, bạn có thể cài đặt gói Ultralytics như hiển thị bên dưới.
Trong ví dụ này, chúng tôi sẽ tải một model YOLOv8 đã được huấn luyện sẵn và sử dụng nó để xác thực các chỉ số hiệu suất, nhưng bạn có thể tải bất kỳ model nào được Ultralytics hỗ trợ. Đây là cách bạn có thể thực hiện:
Khi model đã được tải, bạn có thể thực hiện xác thực trên tập dữ liệu của mình. Đoạn mã dưới đây sẽ giúp bạn tính toán các chỉ số hiệu suất khác nhau, bao gồm precision, recall và mAP:
Sử dụng các công cụ như Ultralytics giúp việc tính toán các chỉ số hiệu suất dễ dàng hơn nhiều, nhờ đó bạn có thể dành nhiều thời gian hơn để cải thiện model của mình và bớt lo lắng về các chi tiết của quy trình đánh giá.
Link to this sectionHiệu suất AI được đo lường như thế nào sau khi triển khai?#
Khi phát triển model AI, việc kiểm tra hiệu suất của nó trong môi trường kiểm soát rất dễ dàng. Tuy nhiên, sau khi model được triển khai, mọi thứ có thể trở nên phức tạp hơn. May mắn thay, có các công cụ và phương pháp thực hành tốt nhất có thể giúp bạn giám sát giải pháp AI của mình sau khi triển khai.
Các công cụ như Prometheus, Grafana và Evidently AI được thiết kế để liên tục theo dõi hiệu suất của model. Chúng có thể cung cấp thông tin chi tiết theo thời gian thực, phát hiện các bất thường và cảnh báo cho bạn về bất kỳ vấn đề tiềm ẩn nào. Các công cụ này vượt xa việc giám sát truyền thống bằng cách cung cấp các giải pháp tự động, có thể mở rộng, thích ứng với bản chất năng động của các model AI trong môi trường sản xuất.
Để đo lường sự thành công của model AI sau khi triển khai, đây là một số phương pháp thực hành tốt nhất cần tuân theo:
- Thiết lập các chỉ số hiệu suất rõ ràng: Quyết định các chỉ số chính như accuracy, precision và thời gian phản hồi để kiểm tra thường xuyên mức độ hoạt động của model.
- Thường xuyên kiểm tra hiện tượng data drift: Hãy chú ý đến những thay đổi trong dữ liệu mà model của bạn đang xử lý, vì điều này có thể ảnh hưởng đến các dự đoán của nó nếu không được quản lý đúng cách.
- Tiến hành A/B testing: Sử dụng kiểm thử A/B để so sánh hiệu suất của model hiện tại với các phiên bản mới hoặc các chỉnh sửa. Điều này sẽ cho phép bạn đánh giá định lượng các cải tiến hoặc sự suy giảm trong hành vi của model.
- Tài liệu hóa và kiểm toán hiệu suất: Duy trì các nhật ký chi tiết về chỉ số hiệu suất và những thay đổi thực hiện trên hệ thống AI của bạn. Điều này rất quan trọng cho việc kiểm toán, tuân thủ và cải thiện kiến trúc model theo thời gian.
Link to this sectionChọn KPI AI tối ưu mới chỉ là bắt đầu#
Việc triển khai và quản lý một giải pháp AI thành công phụ thuộc vào việc chọn các KPI phù hợp và cập nhật chúng. Nhìn chung, việc chọn các chỉ số làm nổi bật mức độ hiệu quả của giải pháp AI về mặt kỹ thuật và tác động kinh doanh là rất quan trọng. Khi mọi thứ thay đổi, dù là do tiến bộ công nghệ hay những thay đổi trong chiến lược kinh doanh của bạn, điều quan trọng là phải xem xét lại và điều chỉnh các KPI này.
Bằng cách giữ cho các đánh giá hiệu suất của bạn luôn linh hoạt, bạn có thể duy trì hệ thống AI của mình luôn phù hợp và hiệu quả. Bằng cách luôn nắm bắt được các chỉ số này, bạn sẽ có được những thông tin giá trị giúp cải thiện hoạt động của mình. Một phương pháp chủ động đảm bảo rằng các nỗ lực AI của bạn thực sự có giá trị và giúp đưa doanh nghiệp của bạn tiến về phía trước!
Tham gia cộng đồng của chúng tôi và đổi mới cùng chúng tôi! Khám phá kho lưu trữ GitHub của chúng tôi để xem những tiến bộ AI của chúng tôi. Tìm hiểu cách chúng tôi đang định hình lại các ngành công nghiệp như sản xuất và y tế bằng công nghệ AI tiên phong. 🚀






