Thị giác AI

Hiểu lý do tại sao gắn nhãn có sự tham gia của con người (human-in-the-loop) là chìa khóa

Xem cách dữ liệu do con người gắn nhãn (human-annotated) cải thiện độ chính xác của các model thị giác máy tính, và tại sao chuyên môn của con người vẫn là yếu tố cần thiết cho các hệ thống Vision AI đáng tin cậy.

ABAbirami Vina

4 min readDecember 12, 2025

Gắn nhãn human-in-the-loop cho thị giác máy tính

Hai mươi năm trước, nếu ai đó nói họ đang nghĩ đến việc thuê một con robot để giúp việc nhà, điều đó nghe có vẻ rất xa vời. Tuy nhiên, chúng ta đang ở giữa cơn sốt AI và các robot đang được thử nghiệm trong những tình huống tương tự.

Một lĩnh vực AI quan trọng thúc đẩy sự tiến bộ này là computer vision, giúp máy móc có khả năng hiểu hình ảnh và video. Nói cách khác, các model computer vision như Ultralytics YOLO11 và Ultralytics YOLO26 sắp ra mắt có thể được huấn luyện trên các tập dữ liệu bao gồm dữ liệu hình ảnh và chú thích.

Những chú thích này giúp model hiểu dữ liệu hình ảnh. Ví dụ, các tập dữ liệu object detection sử dụng bounding box để vẽ hình chữ nhật xung quanh các đối tượng quan tâm. Điều này cho phép model phát hiện và định vị các đối tượng đó trong hình ảnh mới, ngay cả khi cảnh bị lộn xộn hoặc đối tượng bị che khuất một phần.

Các tác vụ computer vision khác phụ thuộc vào các loại chú thích khác nhau. Các tập dữ liệu segmentation gắn nhãn đường viền chính xác của một đối tượng ở cấp độ pixel, trong khi các tập dữ liệu keypoint đánh dấu các điểm mốc cụ thể như các khớp trên cơ thể người.

Tuy nhiên, trên tất cả các định dạng này, một yếu tố quan trọng là chất lượng và tính nhất quán của các nhãn. Model học trực tiếp từ dữ liệu mà chúng được huấn luyện, vì vậy nếu các nhãn không nhất quán hoặc sai, model thường sẽ mang những lỗi đó vào các dự đoán của nó.

Ngay cả với tự động hóa, các tập dữ liệu được con người chú thích vẫn rất quan trọng, đặc biệt là trong các lĩnh vực có rủi ro cao như medical imaging. Những lỗi gắn nhãn nhỏ, chẳng hạn như ranh giới khối u không chính xác hoặc bỏ sót bất thường, có thể dạy cho model mô hình sai và dẫn đến các dự đoán không an toàn sau này. Các chuyên gia con người cung cấp ground truth và sự đánh giá chính xác mà các ứng dụng này yêu cầu.

Cần thiết phải có các tập dữ liệu được con người chú thích

Hình 1. Cần có các tập dữ liệu do con người chú thích. Hình ảnh của tác giả.

Trong bài viết này, chúng ta sẽ tìm hiểu kỹ hơn lý do tại sao dữ liệu do con người chú thích lại cần thiết, ngay cả khi AI tiếp tục tiến bộ.

Link to this sectionNhu cầu về chú thích hình ảnh và video#

Các model computer vision học hỏi giống như chúng ta, bằng cách nhìn thấy nhiều ví dụ. Điểm khác biệt là chúng học thông qua việc huấn luyện trên các datasets of images và video lớn mà con người đã gắn nhãn trước đó. Những nhãn đó đóng vai trò như ground truth, dạy cho model những điều như đây là người đi bộ, đây là ranh giới của một khối u, hoặc đối tượng đó là ô tô.

Hình ảnh trong thế giới thực hiếm khi sạch sẽ hoặc nhất quán. Ánh sáng có thể thay đổi và làm cho cùng một đối tượng trông khác đi. Mọi người và phương tiện có thể chồng chéo hoặc bị che khuất một phần. Phông nền có thể bận rộn và gây mất tập trung. Khi các tập dữ liệu bao gồm các nhãn cẩn thận, nhất quán trong những tình huống này, các model sẽ được chuẩn bị tốt hơn nhiều cho những gì chúng sẽ đối mặt ngoài các môi trường được kiểm soát.

Data annotation không chỉ đơn thuần là vẽ các hộp hoặc vẽ theo đường viền. Nó bao gồm việc áp dụng các nguyên tắc và đưa ra các quyết định thực tế về việc cái gì được coi là đối tượng, ranh giới của nó nên ở đâu và phải làm gì khi có điều gì đó không rõ ràng. Sự đánh giá của con người đó giữ cho dữ liệu chính xác và có thể sử dụng được.

Cuối cùng, một hệ thống computer vision chỉ hoạt động tốt như dữ liệu được gắn nhãn mà nó học được. Trong các ứng dụng có tác động lớn như phát hiện ung thư trong ảnh quét hoặc phát hiện các mối nguy hiểm trên đường cho xe tự lái, các nhãn chính xác từ những người có kỹ năng tạo ra sự khác biệt thực sự về độ chính xác và an toàn.

Link to this sectionSự gia tăng của tự động hóa trong chú thích dữ liệu#

Khi computer vision mở rộng và các tập dữ liệu phát triển, tự động hóa đang trở thành một cách phổ biến để tăng tốc độ chú thích. Thay vì gắn nhãn mọi thứ bằng tay, các nhóm sử dụng các model AI để tạo ra lượt nhãn đầu tiên.

Sau đó, con người xem xét kết quả, sửa lỗi và xử lý các trường hợp mà model không thể gắn nhãn với độ tin cậy. Cách tiếp cận này tăng tốc độ chú thích trong khi vẫn giữ chất lượng cao.

Dưới đây là một vài cách tự động hóa thường hỗ trợ chú thích dữ liệu:

Auto segmentation: Các model có thể tự động đề xuất các đường viền đối tượng hoặc mask ở cấp độ pixel, giúp giảm khối lượng công việc vẽ theo thủ công mà các annotator cần thực hiện.
Optical flow tracking: Đối với video, các phương pháp theo dõi có thể theo dõi một đối tượng đang di chuyển qua các khung hình và chuyển nhãn của nó về phía trước, giúp giữ cho các chú thích nhất quán theo thời gian.
Frame interpolation: Các công cụ có thể điền các nhãn cho các khung hình giữa hai khung hình đã được gắn nhãn bằng cách sử dụng các tín hiệu chuyển động và theo dõi, vì vậy các annotator không phải gắn nhãn mọi khung hình.
Active learning: Các pipeline huấn luyện có thể xác định các ví dụ mà model cảm thấy không chắc chắn hoặc bất thường và gửi chúng cho con người trước, để nỗ lực thủ công tập trung vào dữ liệu cải thiện hiệu suất nhiều nhất.

Link to this sectionTại sao việc chú thích dữ liệu bởi con người vẫn rất quan trọng#

Mặc dù tự động hóa có thể tăng tốc độ gắn nhãn, các model AI vẫn cần sự đánh giá của con người để duy trì độ chính xác và tin cậy.

Dưới đây là một số lĩnh vực quan trọng mà chuyên môn của con người tạo ra tác động trong việc chú thích dữ liệu:

Hiểu bối cảnh: Hình ảnh và video thực tế thường lộn xộn. Bóng đổ, phản chiếu, nhòe do chuyển động và các đối tượng chồng chéo có thể gây nhầm lẫn cho các công cụ tự động. Các annotator con người có thể hiểu những gì đang thực sự xảy ra, vì vậy các nhãn sẽ chính xác hơn.
Giữ cho các nhãn nhất quán: Khi các tập dữ liệu phát triển, các nhãn tự động có thể bị trôi hoặc khác biệt giữa các lô. Con người có thể kiểm tra, sửa chữa và căn chỉnh các nhãn để tập dữ liệu luôn nhất quán từ đầu đến cuối.
Giảm thiểu định kiến và tác hại: Mọi người giỏi hơn trong việc phát hiện nội dung nhạy cảm, sắc thái văn hóa và các mô hình có thể tạo ra định kiến. Sự giám sát của họ giúp làm cho các tập dữ liệu công bằng hơn và tránh những tác hại ngoài ý muốn.
Áp dụng chuyên môn về chủ đề: Một số tác vụ cần kiến thức chuyên môn, chẳng hạn như xác định các bất thường về y tế hoặc lỗi công nghiệp. Các chuyên gia có thể cung cấp các nhãn chính xác và giải quyết các trường hợp mơ hồ để model học được các chi tiết đúng.

Link to this sectionTổng quan về chú thích human-in-the-loop#

Các công cụ và nền tảng chú thích như Roboflow tích hợp tự động hóa để tăng tốc độ gắn nhãn, thường bằng cách sử dụng các foundation model như Segment Anything Model 3 hoặc SAM3. SAM3 là foundation model segmentation có thể nhắc lệnh (promptable) của Meta AI.

Nó có thể phát hiện, phân đoạn và theo dõi các đối tượng trong hình ảnh và video từ các lời nhắc đơn giản như nhấp chuột, bounding box hoặc các cụm từ ngắn, tạo ra các mask segmentation cho các đối tượng phù hợp mà không cần huấn luyện riêng cho từng danh mục mới.

Ngay cả với những phương pháp tiên tiến này, các chuyên gia con người vẫn cần thiết để xem xét và hoàn thiện các chú thích. Khi các công cụ tự động tạo ra bản thảo đầu tiên và con người xác minh, sửa chữa và tinh chỉnh nó, quy trình làm việc đó được gọi là chú thích human-in-the-loop. Điều này giữ cho quá trình chú thích nhanh chóng trong khi đảm bảo các nhãn cuối cùng đủ chính xác và nhất quán để huấn luyện các model đáng tin cậy.

Cái nhìn tổng quan về chú thích human-in-the-loop

Hình 2. Cái nhìn về chú thích human-in-the-loop. (Nguồn)

Link to this sectionKhi nào tự động hóa chú thích hoạt động và khi nào không#

Chú thích tự động hoạt động tốt nhất cho dữ liệu đến từ những nơi được kiểm soát. Hình ảnh được thu thập trong các nhà máy, nhà kho hoặc lối đi bán lẻ thường có ánh sáng ổn định và tầm nhìn rõ ràng về các đối tượng, vì vậy các công cụ tự động có thể gắn nhãn chúng chính xác và giúp các nhóm mở rộng quy mô nhanh hơn với ít công việc thủ công hơn.

Dữ liệu từ những nơi ít được kiểm soát hơn phức tạp hơn. Cảnh quay ngoài trời thay đổi theo thời gian trong ngày và thời tiết, và các cảnh từ đường phố hoặc nhà cửa thường bao gồm sự lộn xộn, nhòe do chuyển động, các đối tượng chặn lẫn nhau và rất nhiều sự chồng chéo. Các đối tượng nhỏ, ranh giới mỏng hoặc các tình huống hiếm gặp làm tăng thêm khả năng xảy ra lỗi. Một model hoạt động tốt trên dữ liệu trong nhà sạch sẽ vẫn có thể gặp khó khăn trên các hình ảnh thực tế lộn xộn.

Đó là lý do tại sao sự can thiệp của con người vẫn quan trọng. Mọi người có thể can thiệp khi model không chắc chắn, diễn giải bối cảnh khó hiểu và sửa lỗi trước khi chúng đi vào tập dữ liệu cuối cùng. Chú thích human-in-the-loop giúp tự động hóa luôn bám sát các điều kiện thực tế và giữ cho các model đáng tin cậy sau khi triển khai.

Link to this sectionChú thích human-in-the-loop có thể tạo ra sự khác biệt ở đâu?#

Bây giờ chúng ta đã thấy nơi tự động hóa hoạt động tốt và nơi nó còn thiếu sót, hãy khám phá một vài ứng dụng nơi chú thích human-in-the-loop đóng một vai trò quan trọng.

Link to this sectionPhát hiện lỗi trong sản xuất#

Hãy xem xét một băng chuyền nhà máy nơi hàng trăm bộ phận đi qua dưới máy ảnh mỗi phút. Hầu hết các khiếm khuyết đều rõ ràng, nhưng đôi khi, một vết nứt nhỏ xuất hiện ở một góc lạ hoặc dưới ánh sáng chói. Một hệ thống tự động có thể bỏ lỡ nó hoặc gắn nhãn nó là kết cấu bề mặt vô hại, nhưng một người đánh giá có thể phát hiện ra lỗi, sửa chú thích và đảm bảo model học được sự khác biệt.

Đó là vai trò của chú thích human-in-the-loop trong kiểm tra công nghiệp. Tự động hóa có thể gắn nhãn trước các loại lỗi phổ biến và xử lý nhanh khối lượng lớn hình ảnh, nhưng con người vẫn cần xác minh kết quả, thắt chặt ranh giới và xử lý các lỗi hiếm gặp không xuất hiện thường xuyên trong quá trình huấn luyện.

Link to this sectionXe tự lái và giao thông thông minh#

Tương tự, các phương tiện tự lái sử dụng computer vision để phát hiện người đi bộ, đọc biển báo và điều hướng giao thông, nhưng các con đường thực tế là không thể đoán trước. Ví dụ, một người đi bộ bước ra từ phía sau một chiếc ô tô đang đỗ vào ban đêm có thể bị che khuất một phần và khó nhìn thấy dưới ánh sáng chói.

Sử dụng thị giác máy tính để phân tích lưu lượng giao thông

Hình 3. Một ví dụ về việc sử dụng computer vision để phân tích giao thông. (Nguồn)

Các annotator con người có thể gắn nhãn những trường hợp biên hiếm gặp, quan trọng về an toàn này trong quá trình huấn luyện để các model học được phản ứng đúng, không chỉ trong điều kiện bình thường mà còn trong những khoảnh khắc quan trọng nhất. Bước human-in-the-loop này là chìa khóa để dạy cho các hệ thống xử lý các sự kiện tần suất thấp mà khó nắm bắt được bằng tự động hóa đơn thuần.

Link to this sectionCon đường phía trước cho các tập dữ liệu do con người chú thích#

Chú thích human-in-the-loop đang trở nên hợp tác hơn khi công nghệ tiến bộ. Thật thú vị, các vision language models (VLM), học từ cả hình ảnh và văn bản, hiện đang được sử dụng để tạo lượt nhãn đầu tiên và gợi ý các sửa lỗi từ các lời nhắc đơn giản.

Vì vậy, thay vì quét thủ công từng hình ảnh để quyết định những gì cần gắn nhãn, một annotator có thể nhắc lệnh VLM với một cụm từ như "gắn nhãn tất cả người đi bộ, ô tô và đèn giao thông" hoặc "phân đoạn tất cả các lỗi trên bộ phận này" và nhận một bộ chú thích dự thảo để xem xét.

Các mô hình đa phương thức lớn phối hợp với các chuyên gia chú thích

Hình 4. Các model đa phương thức lớn có thể làm việc với các annotator con người (Nguồn)

Điều này làm giảm thời gian chú thích vì model có thể xử lý nhiều trường hợp đơn giản ngay từ đầu, để con người có thể tập trung vào việc xem xét kết quả, sửa các ví dụ khó và giữ cho tập dữ liệu nhất quán. Các model đa phương thức lớn cũng bắt đầu hướng dẫn các annotator đến các mẫu không chắc chắn nhất, giúp nỗ lực của con người trở nên có mục tiêu hơn và cải thiện chất lượng tập dữ liệu tổng thể.

Link to this sectionCác điểm chính cần lưu ý#

Computer vision giúp máy móc diễn giải và phản ứng với những gì chúng nhìn thấy, nhưng nó hoạt động tốt nhất với chuyên môn của con người trong vòng lặp. Dữ liệu do con người chú thích giữ cho các model bám sát các điều kiện thực tế và cải thiện mức độ đáng tin cậy khi chúng hoạt động. Với tự động hóa và sự đánh giá của con người song hành, các nhóm có thể xây dựng các hệ thống tầm nhìn có tác động.

Tham gia cộng đồng năng động của chúng tôi và khám phá các đổi mới như AI trong hậu cần và Vision AI trong robot. Truy cập kho lưu trữ GitHub của chúng tôi để khám phá thêm. Để bắt đầu với computer vision ngay hôm nay, hãy xem qua các tùy chọn cấp phép của chúng tôi.

Explore solutions

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.

Hiểu lý do tại sao gắn nhãn có sự tham gia của con người (human-in-the-loop) là chìa khóa

Link to this sectionNhu cầu về chú thích hình ảnh và video#

Link to this sectionSự gia tăng của tự động hóa trong chú thích dữ liệu#

Link to this sectionTại sao việc chú thích dữ liệu bởi con người vẫn rất quan trọng#

Link to this sectionTổng quan về chú thích human-in-the-loop#

Link to this sectionKhi nào tự động hóa chú thích hoạt động và khi nào không#

Link to this sectionChú thích human-in-the-loop có thể tạo ra sự khác biệt ở đâu?#

Link to this sectionPhát hiện lỗi trong sản xuất#

Link to this sectionXe tự lái và giao thông thông minh#

Link to this sectionCon đường phía trước cho các tập dữ liệu do con người chú thích#

Link to this sectionCác điểm chính cần lưu ý#

Explore solutions

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

Hãy cùng nhau xây dựng tương lai của AI!