Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay

Hiểu lý do tại sao việc có sự tham gia của con người trong quá trình chú thích lại rất quan trọng

Abirami Vina

4 phút đọc

Ngày 12 tháng 12 năm 2025

Hãy xem dữ liệu được con người chú thích giúp cải thiện độ chính xác của các mô hình thị giác máy tính như thế nào, và tại sao chuyên môn của con người vẫn rất cần thiết cho các hệ thống Trí tuệ Nhân tạo Thị giác đáng tin cậy.

Hai mươi năm trước, nếu ai đó nói rằng họ đang nghĩ đến việc mua một con robot để giúp việc nhà, điều đó nghe có vẻ rất viễn tưởng. Tuy nhiên, chúng ta đang sống trong thời kỳ bùng nổ trí tuệ nhân tạo, và robot đang được thử nghiệm trong những tình huống tương tự.

Một lĩnh vực then chốt của trí tuệ nhân tạo thúc đẩy sự tiến bộ này là thị giác máy tính , giúp máy móc có khả năng hiểu hình ảnh và video. Nói cách khác, các mô hình thị giác máy tính như Ultralytics YOLO11Ultralytics YOLO26 sắp ra mắt có thể được huấn luyện trên các tập dữ liệu bao gồm dữ liệu hình ảnh và chú thích. 

Các chú thích này giúp mô hình hiểu dữ liệu hình ảnh. Ví dụ, các tập dữ liệu phát hiện đối tượng sử dụng hộp giới hạn để vẽ hình chữ nhật xung quanh các đối tượng cần quan tâm. Điều này cho phép mô hình detect và xác định vị trí của các đối tượng đó trong các hình ảnh mới, ngay cả khi khung cảnh lộn xộn hoặc đối tượng bị che khuất một phần.

Các tác vụ thị giác máy tính khác phụ thuộc vào các loại chú thích khác nhau. Tập dữ liệu phân đoạn gắn nhãn đường viền chính xác của một đối tượng ở cấp độ pixel, trong khi tập dữ liệu điểm mấu chốt đánh dấu các điểm mốc cụ thể như khớp trên cơ thể người. 

Tuy nhiên, trên tất cả các định dạng này, một yếu tố quan trọng là chất lượng và tính nhất quán của nhãn. Mô hình học trực tiếp từ dữ liệu mà chúng được dùng để huấn luyện, vì vậy nếu nhãn không nhất quán hoặc sai, mô hình thường sẽ mang những lỗi đó vào dự đoán của mình. 

Ngay cả với tự động hóa, các bộ dữ liệu được con người chú thích vẫn rất quan trọng, đặc biệt là trong các lĩnh vực có tính rủi ro cao như hình ảnh y tế . Những lỗi nhỏ trong việc gắn nhãn, chẳng hạn như ranh giới khối u không chính xác hoặc bỏ sót bất thường, có thể khiến mô hình học sai mẫu và dẫn đến các dự đoán không an toàn sau này. Các chuyên gia con người cung cấp dữ liệu chính xác và đánh giá khách quan mà các ứng dụng này yêu cầu.

Hình 1. Cần có các bộ dữ liệu được con người chú thích. Ảnh do tác giả cung cấp.

Trong bài viết này, chúng ta sẽ xem xét kỹ hơn lý do tại sao dữ liệu được con người chú thích lại rất cần thiết, ngay cả khi trí tuệ nhân tạo (AI) tiếp tục phát triển.

Sự cần thiết của việc chú thích hình ảnh và video

Các mô hình thị giác máy tính học hỏi giống như chúng ta, bằng cách xem nhiều ví dụ. Sự khác biệt là chúng học thông qua việc huấn luyện trên các tập dữ liệu lớn gồm hình ảnh và video được con người gắn nhãn từ trước. Những nhãn này đóng vai trò là dữ liệu chuẩn, dạy cho mô hình những điều như đây là người đi bộ, đây là ranh giới của khối u, hoặc vật thể đó là một chiếc ô tô.

Hình ảnh thực tế hiếm khi rõ nét hoặc nhất quán. Ánh sáng có thể thay đổi và khiến cùng một vật thể trông khác đi. Người và phương tiện có thể chồng chéo lên nhau hoặc bị che khuất một phần. Phông nền có thể phức tạp và gây xao nhãng. Khi các tập dữ liệu bao gồm các nhãn được dán cẩn thận và nhất quán trong những tình huống này, các mô hình sẽ được chuẩn bị tốt hơn nhiều cho những gì chúng sẽ gặp phải bên ngoài môi trường được kiểm soát.

Việc chú thích dữ liệu không chỉ đơn thuần là vẽ các ô vuông hay đồ lại đường viền. Nó bao gồm việc áp dụng các hướng dẫn và đưa ra các quyết định thực tế về những gì được coi là đối tượng, ranh giới của nó nên ở đâu và phải làm gì khi có điều gì đó không rõ ràng. Sự đánh giá của con người giúp đảm bảo tính chính xác và khả dụng của dữ liệu.

Tóm lại, hiệu suất của một hệ thống thị giác máy tính chỉ tốt khi dữ liệu được gắn nhãn mà nó học được chính xác. Trong các ứng dụng quan trọng như phát hiện ung thư trong ảnh chụp hoặc phát hiện các mối nguy hiểm trên đường cho xe tự lái, các nhãn chính xác từ những người có chuyên môn sẽ tạo ra sự khác biệt thực sự về độ chính xác và an toàn.

Sự gia tăng của tự động hóa trong chú thích dữ liệu

Khi công nghệ thị giác máy tính phát triển và tập dữ liệu ngày càng lớn, tự động hóa đang trở thành một cách phổ biến để tăng tốc quá trình chú thích dữ liệu. Thay vì gắn nhãn mọi thứ bằng tay, các nhóm sử dụng mô hình AI để tạo ra bản chú thích đầu tiên. 

Sau đó, con người sẽ xem xét kết quả, sửa lỗi và xử lý các trường hợp mà mô hình không thể gắn nhãn một cách chắc chắn. Cách tiếp cận này giúp tăng tốc quá trình chú thích trong khi vẫn duy trì chất lượng cao.

Dưới đây là một vài cách mà tự động hóa thường hỗ trợ việc chú thích dữ liệu:

  • Phân đoạn tự động: Các mô hình có thể tự động đề xuất đường viền đối tượng hoặc mặt nạ cấp độ pixel, giúp giảm lượng công việc vẽ thủ công mà người chú thích cần thực hiện.
  • Theo dõi luồng quang học: Đối với video, các phương pháp theo dõi có thể bám theo một đối tượng chuyển động qua các khung hình và giữ nguyên nhãn của nó, giúp duy trì tính nhất quán của chú thích theo thời gian.
  • Nội suy khung hình: Các công cụ có thể tự động điền nhãn cho các khung hình nằm giữa hai khung hình đã được gắn nhãn bằng cách sử dụng các tín hiệu chuyển động và theo dõi, nhờ đó người chú thích không cần phải gắn nhãn cho từng khung hình riêng lẻ.
  • Học tập chủ động: Các quy trình huấn luyện có thể xác định các ví dụ mà mô hình cho là không chắc chắn hoặc bất thường và gửi những ví dụ đó cho con người xử lý trước, nhờ đó công sức thủ công sẽ tập trung vào dữ liệu giúp cải thiện hiệu suất tốt nhất.

Vì sao việc chú thích dữ liệu thủ công vẫn vô cùng quan trọng

Mặc dù tự động hóa có thể tăng tốc quá trình gắn nhãn, các mô hình AI vẫn cần sự đánh giá của con người để duy trì độ chính xác và độ tin cậy.

Dưới đây là một số lĩnh vực quan trọng mà chuyên môn của con người tạo ra tác động trong việc chú thích dữ liệu:

  • Hiểu ngữ cảnh: Hình ảnh và video thực tế thường khá phức tạp. Bóng, phản chiếu, hiện tượng nhòe do chuyển động và các vật thể chồng chéo có thể gây nhầm lẫn cho các công cụ tự động. Người chú thích có thể hiểu được những gì đang thực sự xảy ra, do đó nhãn sẽ chính xác hơn.
  • Đảm bảo tính nhất quán của nhãn: Khi tập dữ liệu tăng lên, các nhãn tự động có thể bị sai lệch hoặc thay đổi giữa các lô dữ liệu. Con người có thể kiểm tra, sửa chữa và đồng bộ hóa các nhãn để đảm bảo tập dữ liệu luôn nhất quán từ đầu đến cuối.
  • Giảm thiểu sai lệch và tác hại: Con người có khả năng nhận biết tốt hơn các nội dung nhạy cảm, sắc thái văn hóa và các mô hình có thể gây ra sai lệch. Sự giám sát của họ giúp cho các tập dữ liệu trở nên công bằng hơn và tránh được những tác hại không mong muốn.
  • Áp dụng kiến thức chuyên môn: Một số nhiệm vụ cần kiến thức chuyên ngành, chẳng hạn như xác định các bất thường y tế hoặc lỗi công nghiệp. Các chuyên gia có thể cung cấp nhãn chính xác và giải quyết các trường hợp mơ hồ để mô hình học được các chi tiết chính xác.

Tổng quan về chú thích có sự tham gia của con người

Các công cụ và nền tảng chú thích như Roboflow Tích hợp tự động hóa để tăng tốc quá trình gắn nhãn, thường bằng cách sử dụng các mô hình nền tảng như Segment Anything Model 3 hoặc SAM3. SAM3 là mô hình nền tảng phân đoạn có thể được nhắc nhở của Meta AI. 

Nó có thể detect , segment , Và track Nhận diện các đối tượng trong hình ảnh và video từ các gợi ý đơn giản như nhấp chuột, khung bao quanh hoặc các cụm từ văn bản ngắn, tạo ra mặt nạ phân đoạn để khớp các đối tượng mà không cần huấn luyện chuyên biệt cho từng danh mục mới.

Ngay cả với những phương pháp tiên tiến này, các chuyên gia con người vẫn cần thiết để xem xét và hoàn thiện các chú thích. Khi các công cụ tự động tạo ra bản nháp đầu tiên, và con người xác minh, sửa chữa và tinh chỉnh nó, quy trình làm việc được gọi là chú thích có sự tham gia của con người (human-in-the-loop annotation). Điều này giúp quá trình chú thích diễn ra nhanh chóng đồng thời đảm bảo các nhãn cuối cùng chính xác và nhất quán đủ để huấn luyện các mô hình đáng tin cậy.

Hình 2. Cái nhìn tổng quan về quá trình chú thích có sự tham gia của con người. ( Nguồn )

Khi nào việc tự động hóa chú thích hoạt động hiệu quả và khi nào thì không.

Việc chú thích tự động hoạt động hiệu quả nhất với dữ liệu đến từ những nơi được kiểm soát. Hình ảnh được thu thập trong các nhà máy, nhà kho hoặc lối đi bán lẻ thường có ánh sáng ổn định và hình ảnh rõ nét về các vật thể, vì vậy các công cụ tự động có thể gắn nhãn chúng một cách chính xác và giúp các nhóm mở rộng quy mô nhanh hơn với ít công việc thủ công hơn.

Dữ liệu từ những nơi ít được kiểm soát hơn thường phức tạp hơn. Cảnh quay ngoài trời thay đổi theo thời gian trong ngày và thời tiết, và các cảnh từ đường phố hoặc nhà cửa thường bao gồm sự lộn xộn, hiện tượng nhòe do chuyển động, các vật thể che khuất nhau và nhiều sự chồng chéo. Các vật thể nhỏ, ranh giới mỏng manh hoặc các tình huống hiếm gặp càng làm tăng thêm khả năng xảy ra lỗi. Một mô hình hoạt động tốt trên dữ liệu trong nhà sạch sẽ vẫn có thể gặp khó khăn trên hình ảnh thực tế lộn xộn.

Đó là lý do tại sao sự can thiệp của con người vẫn rất quan trọng. Con người có thể can thiệp khi mô hình không chắc chắn, giải thích ngữ cảnh phức tạp và sửa lỗi trước khi chúng xuất hiện trong tập dữ liệu cuối cùng. Việc chú thích có sự tham gia của con người giúp tự động hóa bám sát điều kiện thực tế và giữ cho mô hình đáng tin cậy sau khi triển khai.

Việc chú thích có sự tham gia của con người có thể tạo ra sự khác biệt ở những khía cạnh nào?

Giờ chúng ta đã thấy tự động hóa hoạt động tốt ở đâu và còn hạn chế ở đâu, hãy cùng khám phá một vài ứng dụng mà việc chú thích dữ liệu có sự tham gia của con người đóng vai trò quan trọng.

Phát hiện lỗi trong sản xuất

Hãy tưởng tượng một băng chuyền trong nhà máy, nơi hàng trăm chi tiết đi qua dưới camera mỗi phút. Hầu hết các khuyết tật đều dễ nhận thấy, nhưng thỉnh thoảng, một vết nứt nhỏ xuất hiện ở góc độ bất thường hoặc dưới ánh sáng chói. Một hệ thống tự động có thể bỏ sót nó hoặc dán nhãn nó là kết cấu bề mặt vô hại, nhưng người kiểm tra có thể phát hiện ra lỗi, sửa lại chú thích và đảm bảo mô hình học được sự khác biệt.

Đó chính là vai trò của việc chú thích có sự tham gia của con người trong quá trình kiểm tra công nghiệp. Tự động hóa có thể dán nhãn trước các loại lỗi phổ biến và xử lý nhanh chóng khối lượng lớn hình ảnh, nhưng con người vẫn cần xác minh kết quả, thắt chặt các giới hạn và xử lý các lỗi hiếm gặp mà không thường xuyên xuất hiện trong quá trình đào tạo. 

Xe tự lái và giao thông thông minh

Tương tự, xe tự lái sử dụng thị giác máy tính để phát hiện người đi bộ, đọc biển báo và điều hướng giao thông, nhưng đường sá thực tế lại khó lường. Ví dụ, một người đi bộ bước ra từ phía sau một chiếc xe đang đỗ vào ban đêm có thể bị che khuất một phần và khó nhìn thấy dưới ánh sáng chói.

Hình 3. Một ví dụ về việc sử dụng thị giác máy tính để phân tích lưu lượng giao thông. ( Nguồn )

Người đánh giá thủ công có thể gắn nhãn cho những trường hợp ngoại lệ hiếm gặp, mang tính an toàn cao này trong quá trình huấn luyện để mô hình học được phản ứng đúng đắn, không chỉ trong điều kiện bình thường mà còn trong những khoảnh khắc quan trọng nhất. Bước can thiệp của con người này là chìa khóa để dạy các hệ thống xử lý các sự kiện tần suất thấp, khó nắm bắt chỉ bằng tự động hóa.

Con đường phía trước cho các tập dữ liệu được chú thích bởi con người

Việc chú thích có sự tham gia của con người đang trở nên mang tính hợp tác hơn khi công nghệ phát triển. Điều thú vị là, các mô hình ngôn ngữ hình ảnh (VLM), học hỏi từ cả hình ảnh và văn bản, hiện đang được sử dụng để tạo ra bản chú thích ban đầu và đề xuất các bản sửa lỗi từ các gợi ý đơn giản. 

Vì vậy, thay vì phải tự tay quét từng hình ảnh để quyết định cần gắn nhãn gì, người chú thích có thể nhập vào mô hình VLM một cụm từ như “gắn nhãn tất cả người đi bộ, ô tô và đèn giao thông” hoặc “ segment tất cả các lỗi trên bộ phận này,” và nhận bản nháp các chú thích để xem xét.

Hình 4. Các mô hình đa phương thức quy mô lớn có thể hoạt động với sự hỗ trợ của người chú thích dữ liệu ( Nguồn )

Điều này giúp giảm thời gian chú thích vì mô hình có thể xử lý nhiều trường hợp đơn giản ngay từ đầu, nhờ đó con người có thể tập trung vào việc xem xét kết quả, sửa chữa các ví dụ phức tạp và duy trì tính nhất quán của tập dữ liệu. Các mô hình đa phương thức quy mô lớn cũng đang bắt đầu hướng dẫn người chú thích đến các mẫu có độ bất định cao nhất, giúp nỗ lực của con người được nhắm mục tiêu chính xác hơn và cải thiện chất lượng tổng thể của tập dữ liệu.

Những điều cần nhớ

Thị giác máy tính giúp máy móc diễn giải và phản ứng với những gì chúng nhìn thấy, nhưng nó hoạt động hiệu quả nhất khi có sự tham gia của chuyên gia con người. Dữ liệu được con người chú thích giúp các mô hình bám sát điều kiện thực tế và cải thiện độ tin cậy khi hoạt động. Với sự kết hợp giữa tự động hóa và phán đoán của con người, các nhóm có thể xây dựng các hệ thống thị giác hiệu quả.

Hãy tham gia cộng đồng năng động của chúng tôi và khám phá những đổi mới như AI trong logisticsAI thị giác trong robot . Truy cập kho lưu trữ GitHub của chúng tôi để tìm hiểu thêm. Để bắt đầu với thị giác máy tính ngay hôm nay, hãy xem các tùy chọn cấp phép của chúng tôi.

Hãy cùng nhau xây dựng tương lai
của AI!

Bắt đầu hành trình của bạn với tương lai của học máy

Bắt đầu miễn phí