Đón xem YOLO Vision 2025!
25 tháng 9, 2025
10:00 — 18:00 BST
Sự kiện kết hợp
Yolo Vision 2024

Huấn luyện tùy chỉnh Ultralytics YOLO11 với bộ dữ liệu thị giác máy tính

Abirami Vina

4 phút đọc

7 tháng 1, 2025

Khám phá cách tích hợp Roboflow có thể đơn giản hóa việc huấn luyện tùy chỉnh Ultralytics YOLO11 bằng cách giúp các bộ dữ liệu thị giác máy tính mã nguồn mở dễ dàng truy cập.

Việc huấn luyện một mô hình computer vision như Ultralytics YOLO11 thường bao gồm thu thập hình ảnh cho bộ dữ liệu của bạn, chú thích chúng, chuẩn bị dữ liệu và tinh chỉnh mô hình để đáp ứng các yêu cầu cụ thể của bạn. Mặc dù gói Ultralytics Python giúp các bước này trở nên đơn giản và thân thiện với người dùng, nhưng việc phát triển Vision AI vẫn có thể tốn thời gian.

Điều này đặc biệt đúng khi bạn làm việc với thời hạn chặt chẽ hoặc phát triển một nguyên mẫu. Trong những tình huống này, việc có các công cụ hoặc tích hợp giúp đơn giản hóa các phần của quy trình - chẳng hạn như hợp lý hóa việc chuẩn bị bộ dữ liệu hoặc tự động hóa các tác vụ lặp đi lặp lại - có thể tạo ra sự khác biệt lớn. Bằng cách giảm thời gian và công sức cần thiết, các giải pháp này giúp bạn tập trung vào việc xây dựng và tinh chỉnh mô hình của mình. Đó chính xác là những gì tích hợp Roboflow cung cấp.

Tích hợp Roboflow cho phép bạn dễ dàng truy cập các bộ dữ liệu từ Roboflow Universe, một thư viện lớn các bộ dữ liệu thị giác máy tính mã nguồn mở. Thay vì mất hàng giờ để thu thập và sắp xếp dữ liệu, bạn có thể nhanh chóng tìm và sử dụng các bộ dữ liệu hiện có để khởi động quá trình huấn luyện YOLO11 của mình. Tích hợp này giúp bạn thử nghiệm và lặp lại quá trình phát triển mô hình thị giác máy tính của mình nhanh hơn và đơn giản hơn nhiều.

Trong bài viết này, chúng ta sẽ đi sâu vào cách bạn có thể tận dụng tích hợp Roboflow để phát triển mô hình nhanh hơn. Hãy cùng bắt đầu!

Roboflow Universe là gì?

Roboflow Universe là một nền tảng được duy trì bởi Roboflow, một công ty tập trung vào việc đơn giản hóa quá trình phát triển thị giác máy tính. Nền tảng này bao gồm hơn 350 triệu hình ảnh, 500.000 bộ dữ liệu và 100.000 mô hình đã được tinh chỉnh cho các tác vụ như nhận diện đối tượng, phân loại hình ảnh và phân đoạn ảnh. Với sự đóng góp từ các nhà phát triển và nhà nghiên cứu trên toàn thế giới, Roboflow Universe là một trung tâm hợp tác cho bất kỳ ai muốn khởi động hoặc nâng cao các dự án thị giác máy tính của mình.

Hình 1. Ví dụ về các bộ dữ liệu phát hiện đối tượng trên Roboflow Universe.

Roboflow Universe bao gồm các tính năng chính sau:

  • Công cụ khám phá bộ dữ liệu: Khám phá, lọc và trực quan hóa các bộ dữ liệu để nhanh chóng tìm thấy các tài nguyên phù hợp với yêu cầu dự án của bạn.
  • Tùy chọn xuất: Xuất dữ liệu ở các định dạng như COCO, YOLO, TFRecord, CSV, v.v. để phù hợp với quy trình làm việc của bạn.
  • Phân tích bộ dữ liệu: Thu thập thông tin chi tiết về các bộ dữ liệu khác nhau bằng các công cụ phân tích cung cấp hình ảnh trực quan về phân phối nhãn, sự mất cân bằng lớp và chất lượng bộ dữ liệu. 
  • Theo dõi phiên bản (Version tracking): Xem và truy cập các phiên bản khác nhau của bộ dữ liệu được tải lên bởi những người đóng góp, cho phép bạn theo dõi các bản cập nhật, so sánh các thay đổi và chọn phiên bản phù hợp nhất với nhu cầu dự án của bạn. 

Tích hợp Roboflow giúp bạn tìm đúng dữ liệu

Việc tìm kiếm bộ dữ liệu phù hợp thường là một trong những phần khó khăn nhất của việc xây dựng một mô hình thị giác máy tính. Tạo một bộ dữ liệu thường bao gồm việc thu thập một lượng lớn hình ảnh, đảm bảo rằng chúng có liên quan đến nhiệm vụ của bạn và sau đó dán nhãn chúng một cách chính xác. 

Quá trình này có thể tốn rất nhiều thời gian và nguồn lực, đặc biệt nếu bạn đang thử nghiệm các cách tiếp cận khác nhau trong một khoảng thời gian ngắn. Ngay cả việc tìm kiếm các tập dữ liệu có sẵn từ trước cũng có thể khó khăn, vì chúng thường nằm rải rác trên các nền tảng, không được ghi chép đúng cách hoặc thiếu các chú thích cụ thể mà bạn cần.

Ví dụ: nếu bạn đang xây dựng một ứng dụng thị giác máy tính để phát hiện cỏ dại trên đồng ruộng, bạn có thể muốn kiểm tra các phương pháp tiếp cận Vision AI khác nhau, chẳng hạn như phát hiện đối tượng so với phân đoạn thể hiện. Điều này cho phép bạn thử nghiệm và tìm ra phương pháp nào hoạt động tốt nhất trước khi dành thời gian và công sức để thu thập và dán nhãn bộ dữ liệu của riêng bạn.

Hình 2. Phát hiện các bộ phận xe hơi bằng YOLO11.

Sử dụng tích hợp Roboflow, bạn có thể duyệt qua nhiều bộ dữ liệu liên quan đến nông nghiệp, bao gồm các bộ dữ liệu tập trung vào phát hiện cỏ dại, sức khỏe cây trồng hoặc giám sát đồng ruộng. Các bộ dữ liệu sẵn sàng sử dụng này cho phép bạn thử các kỹ thuật khác nhau và tinh chỉnh mô hình của mình mà không cần nỗ lực tạo dữ liệu của riêng bạn. 

Cách tích hợp Roboflow hoạt động

Sau khi thảo luận về cách bạn có thể sử dụng tích hợp Roboflow để tìm các bộ dữ liệu phù hợp, hãy xem nó phù hợp với quy trình làm việc của bạn như thế nào. Sau khi bạn đã chọn một bộ dữ liệu từ Roboflow Universe, bạn có thể xuất hoặc tải xuống ở định dạng YOLO11. Sau khi bộ dữ liệu của bạn được xuất, bạn có thể sử dụng nó để tùy chỉnh huấn luyện YOLO11 bằng gói Ultralytics Python. 

Trong khi tải xuống bộ dữ liệu của bạn, bạn có thể nhận thấy rằng Roboflow Universe cũng hỗ trợ các định dạng khác để huấn luyện các mô hình khác nhau. Vậy, tại sao bạn nên tùy chỉnh huấn luyện Ultralytics YOLO11? 

YOLO11 là phiên bản mới nhất của các mô hình Ultralytics YOLO và được xây dựng để cung cấp khả năng phát hiện đối tượng nhanh hơn và chính xác hơn. Nó sử dụng ít hơn 22% số lượng tham số (các giá trị nội bộ mà mô hình điều chỉnh trong quá trình huấn luyện để đưa ra dự đoán) so với YOLOv8m, nhưng vẫn đạt được độ chính xác trung bình (mAP) cao hơn trên bộ dữ liệu COCO. Sự cân bằng giữa tốc độ và độ chính xác này làm cho YOLO11 trở thành một lựa chọn linh hoạt cho một loạt các ứng dụng thị giác máy tính, đặc biệt khi huấn luyện các mô hình tùy chỉnh để phù hợp với các tác vụ cụ thể.

Đây là cái nhìn cận cảnh về cách huấn luyện tùy chỉnh YOLO11 hoạt động:

  • Cung cấp dữ liệu: Mô hình YOLO11 xử lý bộ dữ liệu của bạn, học cách phát hiện và phân loại các đối tượng từ hình ảnh và chú thích của chúng.
  • Dự đoán và phản hồi: Mô hình đưa ra dự đoán về các đối tượng trong hình ảnh và so sánh chúng với các câu trả lời chính xác được cung cấp trong tập dữ liệu.
  • Theo dõi hiệu năng: Các số liệu như độ chính xác (số lần phát hiện đúng), độ phủ (số lần phát hiện bị bỏ sót) và loss (lỗi dự đoán) được theo dõi để đánh giá tiến độ.
  • Học lặp đi lặp lại: Mô hình điều chỉnh các tham số của nó qua nhiều vòng (epoch) để cải thiện độ chính xác phát hiện và giảm thiểu lỗi.
  • Đầu ra mô hình cuối cùng: Sau khi huấn luyện, mô hình được tối ưu hóa sẽ được lưu và sẵn sàng để triển khai.

Các tích hợp khác tập trung vào phát triển thị giác máy tính

Khi bạn khám phá tích hợp Roboflow, bạn sẽ nhận thấy các tích hợp khác được đề cập trong tài liệu Ultralytics. Chúng tôi hỗ trợ nhiều tích hợp liên quan đến các giai đoạn khác nhau của phát triển thị giác máy tính. 

Điều này nhằm cung cấp cho cộng đồng của chúng tôi nhiều lựa chọn khác nhau, để bạn có thể chọn những gì phù hợp nhất với quy trình làm việc cụ thể của mình.

Hình 3. Tổng quan về các tích hợp được Ultralytics hỗ trợ.

Ngoài các bộ dữ liệu, các tích hợp được Ultralytics hỗ trợ khác tập trung vào các phần khác nhau của quy trình thị giác máy tính, chẳng hạn như huấn luyện, triển khai và tối ưu hóa. Dưới đây là một vài ví dụ về các tích hợp khác mà chúng tôi hỗ trợ:

  • Tích hợp huấn luyện: Các tích hợp như Amazon SageMaker và Paperspace Gradient hợp lý hóa quy trình huấn luyện bằng cách cung cấp các nền tảng dựa trên đám mây để phát triển và thử nghiệm mô hình hiệu quả.
  • Tích hợp theo dõi quy trình làm việc và thử nghiệm: ClearML, MLFlow và Weights & Biases (W&B) giúp tự động hóa quy trình làm việc, theo dõi thử nghiệm và cải thiện sự hợp tác, giúp quản lý các dự án máy học dễ dàng hơn.
  • Tích hợp tối ưu hóa và triển khai: CoreML, ONNX và OpenVINO cho phép triển khai được tối ưu hóa trên nhiều thiết bị và framework khác nhau, đảm bảo hiệu suất hiệu quả trên các nền tảng như phần cứng Apple và CPU Intel.
  • Tích hợp giám sát và trực quan hóa: TensorBoard và Weights & Biases cung cấp các công cụ để trực quan hóa tiến trình huấn luyện và theo dõi hiệu suất, cung cấp thông tin chi tiết để tinh chỉnh mô hình.

Các ứng dụng YOLO11 và vai trò của tích hợp

Các tích hợp hỗ trợ phát triển thị giác máy tính, kết hợp với các khả năng đáng tin cậy của YOLO11, giúp giải quyết các thách thức trong thế giới thực dễ dàng hơn. Hãy xem xét những đổi mới như thị giác máy tính trong sản xuất, nơi AI thị giác được sử dụng để phát hiện các khuyết tật trên dây chuyền sản xuất - như vết trầy xước trên các bộ phận kim loại hoặc các thành phần bị thiếu. Việc thu thập đúng dữ liệu cho các tác vụ như vậy thường có thể chậm và đầy thách thức, đòi hỏi quyền truy cập vào các môi trường chuyên biệt. 

Nó thường liên quan đến việc thiết lập camera hoặc cảm biến dọc theo dây chuyền sản xuất để chụp ảnh sản phẩm. Những hình ảnh này cần được chụp với số lượng lớn, thường dưới ánh sáng và góc độ nhất quán, để đảm bảo độ rõ nét và đồng nhất. 

Sau khi chụp, hình ảnh phải được chú thích tỉ mỉ với các nhãn chính xác cho mọi loại lỗi, chẳng hạn như trầy xước, vết lõm hoặc thiếu bộ phận. Quá trình này đòi hỏi thời gian và nguồn lực đáng kể, cũng như chuyên môn, để đảm bảo bộ dữ liệu phản ánh chính xác sự thay đổi trong thế giới thực. Các yếu tố như kích thước, hình dạng và vật liệu lỗi khác nhau phải được tính đến để tạo ra một bộ dữ liệu mạnh mẽ và đáng tin cậy.

Các tích hợp cung cấp bộ dữ liệu dựng sẵn tạo điều kiện thuận lợi cho các tác vụ như kiểm soát chất lượng công nghiệp và với khả năng phát hiện theo thời gian thực của YOLO11, các nhà sản xuất có thể theo dõi dây chuyền sản xuất, phát hiện lỗi ngay lập tức và cải thiện hiệu quả.

Hình 4. Một ví dụ về sử dụng Ultralytics YOLO11 để phát hiện và đếm lon đang được sản xuất.

Ngoài sản xuất, các tích hợp liên quan đến bộ dữ liệu có thể được sử dụng trong nhiều ngành công nghiệp khác. Bằng cách kết hợp tốc độ và độ chính xác của YOLO11 với các bộ dữ liệu dễ dàng truy cập, các doanh nghiệp có thể nhanh chóng phát triển và triển khai các giải pháp phù hợp với nhu cầu cụ thể của họ. Lấy ví dụ, chăm sóc sức khỏe - tích hợp bộ dữ liệu có thể giúp phát triển các giải pháp để phân tích hình ảnh y tế để phát hiện các bất thường như khối u. Tương tự, trong lái xe tự động, các tích hợp như vậy có thể giúp xác định phương tiện, người đi bộ và biển báo giao thông để tăng cường an toàn.

Những điều cần nhớ

Việc tìm kiếm bộ dữ liệu phù hợp thường là một trong những phần tốn thời gian nhất của việc xây dựng một mô hình thị giác máy tính. Tuy nhiên, tích hợp Roboflow giúp bạn dễ dàng tìm thấy bộ dữ liệu tốt nhất để huấn luyện tùy chỉnh các mô hình Ultralytics YOLO của bạn, ngay cả khi bạn mới làm quen với thị giác máy tính. 

Với quyền truy cập vào một bộ sưu tập lớn các bộ dữ liệu cho các tác vụ thị giác máy tính như phát hiện đối tượng, phân loại hình ảnh hoặc phân đoạn thể hiện, Roboflow Universe giúp loại bỏ sự phức tạp của quá trình khám phá dữ liệu. Nó giúp bạn bắt đầu nhanh chóng và tập trung vào việc xây dựng mô hình của mình thay vì tốn thời gian thu thập và sắp xếp dữ liệu. Cách tiếp cận hợp lý này cho phép các nhà phát triển tạo mẫu, lặp lại và phát triển các giải pháp thị giác máy tính hiệu quả hơn.

Để tìm hiểu thêm, hãy truy cập kho lưu trữ GitHub của chúng tôi và tham gia cộng đồng của chúng tôi. Khám phá những đổi mới trong các lĩnh vực như AI trong xe tự láithị giác máy tính trong nông nghiệp trên các trang giải pháp của chúng tôi. 🚀

Hãy cùng nhau xây dựng tương lai
của AI!

Bắt đầu hành trình của bạn với tương lai của học máy

Bắt đầu miễn phí
Đã sao chép liên kết vào clipboard