Bằng cách nhấp vào “Chấp nhận tất cả Cookie”, bạn đồng ý cho phép lưu trữ cookie trên thiết bị của mình để cải thiện điều hướng trang web, phân tích việc sử dụng trang web và hỗ trợ các nỗ lực tiếp thị của chúng tôi. Thông tin thêm
Cài đặt Cookie
Bằng cách nhấp vào “Chấp nhận tất cả Cookie”, bạn đồng ý cho phép lưu trữ cookie trên thiết bị của mình để cải thiện điều hướng trang web, phân tích việc sử dụng trang web và hỗ trợ các nỗ lực tiếp thị của chúng tôi. Thông tin thêm
Khám phá cách thức Ultralytics Nền tảng này sử dụng trí tuệ nhân tạo (AI) để tự động hóa việc chú thích dữ liệu, quản lý các tập dữ liệu lớn, cải thiện tính nhất quán và tăng tốc quá trình phát triển thị giác máy tính.
Mở rộng quy mô các dự án thị giác máy tính của bạn với Ultralytics
Các giải pháp thị giác máy tính phân tích hình ảnh và video đang trở thành một phần thường xuyên của quy trình làm việc trong nhiều ngành công nghiệp, từ sản xuất đến hình ảnh y tế. Ví dụ, trong sản xuất, việc phát hiện các khuyết tật bề mặt trên sản phẩm di chuyển trên băng chuyền phụ thuộc vào các mô hình thị giác máy tính có thể phát hiện các mẫu nhỏ.
Để các mô hình như vậy hoạt động tốt, chúng phải được huấn luyện trên dữ liệu đã được gắn nhãn, trong đó mỗi lỗi được xác định rõ ràng. Điều này cho phép các mô hình học được những gì cần tìm và nhận ra các mẫu tương tự.
Quá trình tạo ra các nhãn này được gọi là chú thích dữ liệu. Cụ thể, chú thích hình ảnh và chú thích video bao gồm việc vẽ các khung bao quanh, phác thảo hình dạng hoặc gắn nhãn cho các vùng cụ thể trong hình ảnh và khung hình video.
Mặc dù điều này có thể quản lý được đối với các tập dữ liệu nhỏ, nhưng nó nhanh chóng trở nên khó xử lý hơn khi dữ liệu tăng lên. Việc gắn nhãn cho hàng nghìn hình ảnh đòi hỏi nỗ lực thủ công liên tục, khiến việc chú thích trở thành một nút thắt cổ chai lớn. Các công cụ truyền thống thường chậm, rời rạc và khó mở rộng quy mô.
Nền tảng Ultralytics , nền tảng AI xử lý hình ảnh đa năng, giúp giải quyết những thách thức này bằng tính năng chú thích hỗ trợ AI. Bằng cách sử dụng AI để tự động tạo ra các nhãn ban đầu có thể được xem xét và tinh chỉnh nhanh chóng, nó giúp giảm thiểu công sức thủ công và nâng cao hiệu quả.
Trong bài viết này, chúng ta sẽ tìm hiểu cách thức hoạt động của tính năng chú thích hỗ trợ bởi AI trong Ultralytics Nền tảng và cách nó cải thiện quy trình dán nhãn. Bắt đầu nào!
Tổng quan về quy trình chú thích dữ liệu
Trước khi đi sâu vào cách thức hoạt động của tính năng chú thích dựa trên AI, Ultralytics Trước tiên, chúng ta hãy cùng xem xét kỹ hơn về chú thích dữ liệu.
Chú thích dữ liệu, hay còn gọi là gán nhãn dữ liệu, là quá trình gán các nhãn có cấu trúc cho dữ liệu thô để có thể sử dụng chúng để huấn luyện các mô hình máy học. Trong thị giác máy tính, các nhãn này xác định các đối tượng, vùng hoặc đặc điểm quan tâm trong hình ảnh hoặc video.
Trong quá trình huấn luyện, các mô hình hoặc thuật toán học cách ánh xạ dữ liệu đầu vào đến các nhãn này, do đó chất lượng chú thích là yếu tố then chốt ảnh hưởng đến hiệu suất của mô hình. Các tập dữ liệu được gắn nhãn chính xác và nhất quán giúp mô hình học được các mẫu chính xác, trong khi các chú thích kém hoặc không nhất quán có thể dẫn đến các dự đoán không đáng tin cậy.
Ví dụ, trong trường hợp phát hiện lỗi, hình ảnh sản phẩm trên băng chuyền có thể được chú thích bằng cách đánh dấu vị trí xuất hiện lỗi và ghi nhãn loại lỗi đó. Điều này giúp mô hình học được hình dạng của các lỗi để có thể nhận diện chúng trong các hình ảnh mới.
Tìm hiểu về các tác vụ chú thích phổ biến
Tiếp theo, chúng ta hãy xem xét một số phương pháp phổ biến để chú thích hình ảnh trong thị giác máy tính. Các phương pháp này được sử dụng để gắn nhãn dữ liệu hình ảnh cho các tác vụ như phát hiện đối tượng, phân đoạn đối tượng và phân loại hình ảnh. Mỗi phương pháp chú thích phục vụ một chức năng khác nhau, chẳng hạn như định vị đối tượng, nắm bắt hình dạng hoặc xác định các cấu trúc chính.
Hộp giới hạn
Khung bao (bounding box) là những hình chữ nhật đơn giản được vẽ xung quanh các đối tượng trong ảnh để thể hiện vị trí của chúng. Đây là một trong những cách phổ biến nhất để gắn nhãn dữ liệu trong thị giác máy tính.
Bằng cách huấn luyện trên các hình ảnh có chứa các hộp này, các mô hình phát hiện đối tượng học cách nhận biết các đối tượng khác nhau và hiểu vị trí của chúng trong hình ảnh. Điều này cho phép chúng detect Nhiều đối tượng cùng lúc và xác định vị trí xuất hiện của từng đối tượng.
Ví dụ, hãy xem xét một trận bóng chày được phân tích bằng thị giác máy tính. Có thể vẽ các khung xung quanh người chơi, gậy và bóng trong mỗi khung hình, cho phép mô hình detect và xác định các đối tượng này trong suốt trò chơi.
Hình 1. Khung bao có thể được sử dụng để gắn nhãn và định vị nhiều đối tượng. ( Nguồn )
Đa giác hoặc mặt nạ phân đoạn
Đa giác, hay còn gọi là mặt nạ phân đoạn, tiến thêm một bước so với hộp giới hạn bằng cách gắn nhãn các đối tượng ở cấp độ pixel. Thay vì vẽ một hình chữ nhật thô, chúng nắm bắt hình dạng và các cạnh chính xác của từng đối tượng trong ảnh. Điều này làm cho chúng hữu ích cho các tác vụ yêu cầu sự hiểu biết chi tiết hơn.
Ví dụ, trong lái xe tự động, mặt nạ phân đoạn được sử dụng trong các tác vụ như phân đoạn ngữ nghĩa, trong đó mỗi pixel được gán một danh mục như đường hoặc bầu trời, và phân đoạn đối tượng, trong đó các đối tượng riêng lẻ như xe cộ hoặc người đi bộ được xác định riêng biệt.
Chúng cũng được sử dụng cho các tác vụ như xóa phông nền, trong đó một đối tượng, chẳng hạn như một người, cần được tách biệt khỏi phần còn lại của hình ảnh.
Điểm chính
Các điểm mấu chốt được sử dụng để đánh dấu các điểm cụ thể trên một đối tượng, chẳng hạn như các khớp trong cơ thể người hoặc các bộ phận của động vật. Bằng cách xác định các điểm này, người ta có thể hiểu được cấu trúc của một đối tượng và vị trí tương đối của các bộ phận của nó so với nhau.
Trong lĩnh vực thị giác máy tính, điều này được gọi là ước lượng tư thế, với mục tiêu là xác định vị trí của các điểm mấu chốt này và hiểu mối quan hệ giữa chúng. Việc theo dõi các điểm này theo thời gian giúp phân tích chuyển động và sự thay đổi tư thế.
Hình 2. Chú thích điểm mấu chốt có thể được sử dụng để đánh dấu các khớp trong quá trình ước tính tư thế người. ( Nguồn )
Một ví dụ phổ biến là việc đánh dấu các khớp cơ thể trong video để phân tích chuyển động của con người. Bằng cách tập trung vào những điểm quan trọng này, các mô hình có thể nắm bắt được vị trí của một người và sự thay đổi tư thế của họ theo thời gian.
Hộp giới hạn định hướng (OBB)
Không phải tất cả các đối tượng trong một bức ảnh đều được căn chỉnh hoàn hảo. Trong nhiều trường hợp thực tế, các đối tượng xuất hiện bị nghiêng, xoay hoặc được nhìn từ các góc độ khác nhau.
Các hộp giới hạn tiêu chuẩn thường gặp khó khăn trong những trường hợp này, vì chúng có thể bao gồm nền không cần thiết hoặc không khớp chính xác với đối tượng. Hộp giới hạn định hướng giải quyết vấn đề này bằng cách sử dụng các hình chữ nhật xoay sao cho phù hợp với hướng của đối tượng. Điều này dẫn đến các chú thích chính xác và sát hơn.
Phương pháp này được sử dụng trong phát hiện hộp giới hạn định hướng (OBB), trong đó các mô hình xác định cả vị trí và hướng của đối tượng. Ví dụ như ảnh chụp từ trên không, nơi các đối tượng như tòa nhà, tàu thuyền hoặc phương tiện thường xuất hiện ở các góc độ khác nhau. Các hộp xoay giúp dễ dàng nắm bắt hình dạng và hướng thực của chúng trong khung cảnh.
Nhãn phân loại
Nhãn phân loại sử dụng một phương pháp khác so với các phương pháp chú thích khác bằng cách gán một nhãn duy nhất cho toàn bộ hình ảnh, thay vì đánh dấu các đối tượng hoặc vùng cụ thể. Chúng được sử dụng khi mục tiêu là xác định những gì có trong hình ảnh, mà không tập trung vào vị trí xuất hiện của chúng.
Ví dụ, một hình ảnh có thể được dán nhãn là “mèo” hoặc “chó” dựa trên nội dung tổng thể của nó. Điều này làm cho việc phân loại hình ảnh trở nên hữu ích cho các tác vụ mà chỉ cần hiểu biết ở mức độ cao về hình ảnh là đủ.
Những hạn chế của các công cụ chú thích truyền thống
Nhiều công cụ gắn nhãn truyền thống dựa trên nhiều bước và quy trình làm việc rời rạc. Các nhóm phát triển AI thường phải chuyển đổi giữa các nền tảng chú thích để gắn nhãn, lưu trữ và xác thực, điều này làm chậm các dự án AI.
Hầu hết các công cụ chỉ hỗ trợ một số loại chú thích và kiểu dữ liệu hạn chế, do đó các nhóm thường phải sử dụng các công cụ khác nhau cho việc xác định khung giới hạn, phân đoạn và điểm mấu chốt. Cấu trúc phân mảnh này có thể gây khó khăn trong việc quản lý, đặc biệt đối với các nhóm mới làm quen với thị giác máy tính.
Công sức thủ công là một thách thức lớn khác. Trong khi việc chú thích một hình ảnh đơn lẻ có thể chỉ mất vài phút, thì việc xử lý các tập dữ liệu lớn nhanh chóng trở nên tốn thời gian, đặc biệt khi các hình ảnh tương tự đòi hỏi các thao tác lặp đi lặp lại.
Khi quy mô tập dữ liệu tăng lên, các nhóm cũng phải quản lý các tập tin. track Việc quản lý các phiên bản tập dữ liệu và duy trì tính nhất quán giữa các chú thích làm tăng thêm khối lượng công việc, khiến người dùng dành nhiều thời gian hơn cho việc quản lý dữ liệu và ít thời gian hơn cho việc cải thiện hiệu suất mô hình.
Một cách tiếp cận hiệu quả hơn là sử dụng chú thích hỗ trợ bởi AI trong quá trình này. Ultralytics Nền tảng này sử dụng trí tuệ nhân tạo (AI) để tạo và tinh chỉnh nhãn, giảm thiểu công sức thủ công đồng thời cải thiện tốc độ và tính nhất quán, tất cả trong một môi trường duy nhất tích hợp quản lý tập dữ liệu, chú thích, huấn luyện mô hình, triển khai và giám sát.
Làm sao Ultralytics Nền tảng này hỗ trợ quá trình chú thích.
Ultralytics Nền tảng này đơn giản hóa quá trình chú thích bằng cách kết nối trực tiếp với phần còn lại của quy trình làm việc thị giác máy tính. Thay vì dựa vào các công cụ riêng biệt, các nhóm có thể làm việc với dữ liệu , chú thích và mô hình trong một môi trường duy nhất.
Nó hỗ trợ một loạt các tác vụ thị giác máy tính, bao gồm phát hiện đối tượng, phân loại hình ảnh, phân đoạn đối tượng, ước lượng tư thế và phát hiện hộp giới hạn định hướng.
Trong thiết lập này, việc chú thích có thể được thực hiện theo nhiều cách. Các nhóm có thể gắn nhãn dữ liệu thủ công để kiểm soát hoàn toàn, sử dụng SAM -Công cụ chú thích thông minh hỗ trợ ghi nhãn tương tác dựa trên điểm, hoặc áp dụng YOLO Công nghệ chú thích thông minh dựa trên nền tảng này tự động tạo ra các chú thích có thể được xem xét và tinh chỉnh. Tính linh hoạt này giúp dễ dàng làm việc với các tập dữ liệu và yêu cầu chú thích khác nhau.
Hình 3. Cái nhìn tổng quan về chú thích bên trong Ultralytics Nền tảng ( Nguồn )
Nhờ sự tích hợp giữa chú thích thủ công và hỗ trợ AI với quản lý tập dữ liệu và huấn luyện mô hình, các nhóm có thể chuyển đổi liền mạch từ việc gắn nhãn dữ liệu sang tổ chức tập dữ liệu và huấn luyện mô hình. Điều này giúp duy trì cấu trúc quy trình làm việc và loại bỏ nhu cầu chuyển đổi giữa các công cụ hoặc định dạng lại chú thích.
Nền tảng này cũng hỗ trợ Ultralytics YOLO Các mô hình như Ultralytics YOLO11 và Ultralytics YOLO26 cho phép sử dụng trực tiếp dữ liệu đã được chú thích để huấn luyện và kiểm thử. Điều này giúp dễ dàng xác định các lỗ hổng trong tập dữ liệu , tinh chỉnh chú thích và huấn luyện lại mô hình thông qua quá trình lặp lại liên tục.
Các tính năng chính của SAM chú thích thông minh trên Ultralytics Nền tảng
SAM - chú thích thông minh được hỗ trợ bởi Ultralytics Nền tảng này được thiết kế để tăng tốc quá trình chú thích cho các tác vụ phát hiện đối tượng, phân đoạn đối tượng và hộp giới hạn định hướng (OBB).
Nền tảng này cung cấp nhiều tùy chọn. SAM các biến thể mô hình, bao gồm SAM 2.1 Nhỏ bé, SAM 2.1 Nhỏ, SAM 2.1 Cơ bản, SAM 2.1 Phiên bản lớn và SAM 3 , cho phép người dùng lựa chọn giữa tốc độ và độ chính xác.
Hình 4. SAM - chú thích thông minh được hỗ trợ bởi Ultralytics Nền tảng ( Nguồn )
Các mô hình nhỏ hơn, chẳng hạn như Tiny và Small, nhanh hơn và phù hợp với quy trình chú thích nhanh, trong khi các mô hình lớn hơn như Large và Small thì nhanh hơn. SAM Mô hình số 3 cung cấp độ chính xác cao hơn cho các cảnh phức tạp hơn. Việc chuyển đổi giữa các mô hình sẽ cập nhật hành vi chú thích ngay lập tức.
Trong trình chỉnh sửa chú thích, một khi SAM Sau khi chọn mô hình, người chú thích có thể chuyển sang Chế độ Thông minh để bắt đầu gắn nhãn. Thay vì vẽ hình dạng thủ công, mô hình được hướng dẫn bằng các đầu vào đơn giản dựa trên điểm.
Nhấp chuột trái sẽ cộng thêm một điểm dương để bao gồm một vùng, trong khi nhấp chuột phải sẽ cộng thêm một điểm âm để loại trừ các vùng không mong muốn. Dựa trên các thông tin đầu vào này, mô hình sẽ tạo ra một mặt nạ chính xác trong thời gian thực.
Để tăng tốc quy trình làm việc, bạn có thể bật chế độ tự động áp dụng. Khi được kích hoạt, mỗi lần nhấp chuột sẽ tự động tạo và lưu chú thích mà không cần xác nhận thủ công. Đối với các đối tượng phức tạp hơn, người chú thích có thể giữ phím "Shift" để đặt nhiều điểm trước khi áp dụng mặt nạ hoặc tắt chế độ tự động áp dụng để thêm điểm tự do rồi nhấn "Enter" để áp dụng mặt nạ.
Hiểu biết YOLO chú thích thông minh trên Ultralytics Nền tảng
Tương tự như SAM - chú thích thông minh được hỗ trợ bởi, YOLO Chú thích thông minh trên Ultralytics Nền tảng này sử dụng trí tuệ nhân tạo (AI) để tăng tốc quá trình gắn nhãn. Thay vì hướng dẫn mô hình bằng các cú nhấp chuột, nó sử dụng các dự đoán của mô hình để tự động tạo ra các chú thích.
Phương pháp này hỗ trợ các tác vụ như phát hiện đối tượng, phân đoạn đối tượng và chú thích hộp giới hạn định hướng (OBB). Nó hoạt động cụ thể với Ultralytics YOLO các mô hình, bao gồm cả các mô hình được đào tạo trước do cung cấp bởi Ultralytics và được đào tạo theo yêu cầu YOLO mô hình.
Trong trình chỉnh sửa chú thích , người chú thích có thể vào chế độ Thông minh, chọn một YOLO Chọn mô hình từ trình chọn mô hình và nhấp vào Dự đoán. Trình chọn mô hình chỉ hiển thị YOLO các mô hình phù hợp với nhiệm vụ tập dữ liệu hiện tại, đảm bảo rằng các chú thích được tạo ra là tương thích.
Mô hình phân tích hình ảnh và tạo ra các chú thích dựa trên dự đoán của nó, sau đó được thêm trực tiếp vào hình ảnh. Nếu các dự đoán trùng lặp với các kết quả chú thích hiện có cùng lớp, các phát hiện trùng lặp sẽ tự động được bỏ qua khi sự trùng lặp vượt quá ngưỡng đã đặt, giúp duy trì các nhãn sạch và nhất quán.
Hình 5. Chú thích thông minh được kích hoạt bởi Ultralytics YOLO các mô hình trên Ultralytics Nền tảng ( Nguồn )
Sau khi các dự đoán được tạo ra, người chú thích có thể xem xét, điều chỉnh hoặc xóa chúng khi cần thiết. Điều này giúp việc gắn nhãn nhanh chóng cho các tập dữ liệu lớn trở nên dễ dàng hơn bằng cách bắt đầu với các chú thích do mô hình tạo ra và tinh chỉnh chúng thay vì chú thích mọi thứ thủ công.
Theo thời gian, đã được cải thiện. YOLO Các mô hình có thể được tái sử dụng để tạo ra các dự đoán tốt hơn, hỗ trợ quy trình tự động gắn nhãn lặp đi lặp lại.
Ứng dụng công nghệ ghi nhãn hỗ trợ AI trong các quy trình thực tế.
Tiếp theo, chúng ta hãy cùng xem qua các ví dụ về cách thức... Ultralytics Nền tảng này cho phép chú thích dữ liệu trên nhiều trường hợp sử dụng thực tế.
Phân khúc trong lái xe tự động
Xe tự hành tích hợp mô hình thị giác máy tính dựa vào dữ liệu hình ảnh được chú thích đầy đủ để hiểu môi trường xung quanh trong thời gian thực. Các mô hình được huấn luyện trên dữ liệu này có thể detect Và segment các phương tiện giao thông, người đi bộ, biển báo giao thông và ranh giới đường.
Các tác vụ phân đoạn yêu cầu ranh giới chính xác ở cấp độ pixel, điều này khiến việc chú thích trở nên rất quan trọng và tốn nhiều thời gian. Việc dán nhãn thủ công cho một lượng lớn dữ liệu cảm biến có thể nhanh chóng trở thành nút thắt cổ chai, đặc biệt là trong các cảnh lái xe phức tạp.
Ultralytics Nền tảng này giúp đơn giản hóa quy trình bằng cách sử dụng chú thích hỗ trợ AI, kết hợp cả hai phương pháp trên. SAM Và YOLO mô hình. SAM Tính năng chú thích thông minh được hỗ trợ bởi công nghệ này cho phép phân đoạn nhanh chóng, chỉ bằng một cú nhấp chuột với mặt nạ chính xác, trong khi đó YOLO Các mô hình có thể được sử dụng để tự động tạo chú thích trên nhiều hình ảnh.
Kết hợp các phương pháp này giúp xử lý dễ dàng hơn các cảnh phức tạp với các đối tượng chồng chéo.
Vì việc chú thích dữ liệu liên quan trực tiếp đến quá trình huấn luyện mô hình, nên các tập dữ liệu quy mô lớn được cập nhật có thể được sử dụng ngay lập tức để huấn luyện lại và đánh giá mô hình. Điều này cho phép các nhóm liên tục cải thiện hiệu suất và thích ứng với các điều kiện lái xe mới một cách hiệu quả hơn.
Nâng cao hệ thống đảm bảo chất lượng trong sản xuất
Trong sản xuất, việc duy trì kiểm soát chất lượng nhất quán phụ thuộc vào việc phát hiện chính xác các khuyết tật trong quá trình sản xuất. Các mô hình thị giác máy tính thường được sử dụng để xác định các vấn đề trong thời gian thực, nhưng hiệu suất của chúng phụ thuộc vào mức độ phản ánh chính xác của dữ liệu huấn luyện đối với điều kiện sản xuất thực tế.
Những thay đổi trong môi trường sản xuất, chẳng hạn như sự biến đổi về nguyên liệu thô, cài đặt máy móc hoặc ánh sáng, có thể tạo ra các loại lỗi mới và hiếm gặp mà không có trong dữ liệu huấn luyện ban đầu. Điều này tạo ra khoảng cách giữa những gì mô hình đã học được và những gì xuất hiện trên dây chuyền sản xuất.
Để đảm bảo tính nhất quán, các bộ dữ liệu cần được cập nhật thường xuyên với các chú thích nội bộ chất lượng cao. Ultralytics Nền tảng này giúp đơn giản hóa việc cập nhật chú thích và mở rộng tập dữ liệu khi các mẫu lỗi mới xuất hiện. Sau đó, các tập dữ liệu được cập nhật này có thể được sử dụng để huấn luyện lại các mô hình, giúp các nhóm thích ứng nhanh hơn với các điều kiện sản xuất thay đổi.
Giám sát công trường và an toàn trong xây dựng
Công trường xây dựng là môi trường năng động, với nhiều đội nhóm, thiết bị di chuyển và bố cục liên tục thay đổi. Việc duy trì an toàn trong điều kiện này phụ thuộc vào dữ liệu trực quan rõ ràng, được chú thích đầy đủ.
Việc chú thích chính xác có thể nâng cao chất lượng dữ liệu và giúp hệ thống AI xác định người lao động, thiết bị, đồ bảo hộ và các rủi ro tiềm ẩn trong nhiều điều kiện hiện trường khác nhau, bao gồm cả những cảnh đông đúc, phông nền thay đổi và ánh sáng biến đổi.
Ultralytics Nền tảng hỗ trợ điều này bằng cách giúp dễ dàng cập nhật và tinh chỉnh các chú thích khi điều kiện tại hiện trường thay đổi. Hình ảnh mới có thể được chụp và thêm vào tập dữ liệu ngay khi chúng xuất hiện, giúp tập dữ liệu luôn phù hợp với các tình huống thực tế.
Những điều cần nhớ
Việc chú thích dữ liệu chất lượng cao là rất cần thiết để xây dựng các mô hình thị giác máy tính và trí tuệ nhân tạo đáng tin cậy, nhưng các quy trình làm việc truyền thống thường làm chậm tiến độ của các nhóm. Ultralytics Nền tảng này giúp đơn giản hóa quy trình bằng các công cụ chú thích tự động và quy trình làm việc có khả năng mở rộng. Nhờ đó, các nhóm có thể chuyển đổi nhanh hơn từ dữ liệu sang mô hình trong khi vẫn duy trì độ chính xác và tính nhất quán.