Ultralytics YOLO Tăng cường dữ liệu với Albumentations

Khi xây dựng một giải pháp thị giác máy tính, việc thu thập một tập hợp đa dạng các hình ảnh để huấn luyện các mô hình Vision AI có thể là một phần quan trọng của quy trình. Nó thường đòi hỏi rất nhiều thời gian và tiền bạc, và đôi khi, những hình ảnh được thu thập vẫn không đủ đa dạng để các mô hình học một cách hiệu quả.

Ví dụ, các mô hình thị giác máy tính như Ultralytics YOLO11 có thể được đào tạo tùy chỉnh trên các tập dữ liệu hình ảnh cho nhiều tác vụ thị giác máy tính liên quan đến các ứng dụng khác nhau. Dữ liệu đa dạng là chìa khóa vì nó giúp mô hình tổng quát hóa tốt hơn, cho phép nhận dạng các đối tượng và mẫu trong nhiều tình huống thực tế.

Nếu bạn đang gặp khó khăn với việc thiếu dữ liệu đa dạng, thì các kỹ thuật tăng cường dữ liệu hình ảnh có thể là một giải pháp tuyệt vời. Các phương pháp như xoay, lật và điều chỉnh độ sáng có thể giúp tăng sự đa dạng của bộ dữ liệu của bạn, cải thiện khả năng của mô hình trong việc xử lý một loạt các điều kiện rộng hơn.

Đó là lý do tại sao Ultralytics Hỗ trợ tích hợp để tăng cường dữ liệu hình ảnh. Sử dụng Albumentations , một công cụ phổ biến cung cấp bộ sưu tập các phép biến đổi, bạn có thể tạo ra nhiều dữ liệu hình ảnh đa dạng. Tích hợp này giúp đơn giản hóa quá trình đào tạo. YOLO11 bằng cách tự động tăng cường hình ảnh đào tạo, dẫn đến cải thiện hiệu suất mô hình.

Trong bài viết này, chúng ta sẽ khám phá cách bạn có thể sử dụng tích hợp Albumentations, những lợi ích của nó và tác động của nó đối với quá trình huấn luyện mô hình.

Albumentations là gì?

Các mô hình thị giác máy tính có thể học hỏi từ một tập hợp lớn các hình ảnh chất lượng cao để nhận dạng các đối tượng trong các môi trường khác nhau. Thu thập các tập dữ liệu lớn từ các nguồn thực tế có thể chậm, tốn kém và không hiệu quả. Để hợp lý hóa nhiệm vụ này, bạn có thể sử dụng tăng cường dữ liệu hình ảnh để tạo các biến thể mới của hình ảnh hiện có, giúp các mô hình học hỏi từ các tình huống khác nhau mà không cần thu thập thêm dữ liệu.

Cụ thể, bạn có thể tận dụng Albumentations, một thư viện mã nguồn mở được giới thiệu để tăng cường dữ liệu hình ảnh hiệu quả vào năm 2018. Nó hỗ trợ nhiều thao tác khác nhau, từ các thay đổi hình học đơn giản như xoay và lật đến các điều chỉnh phức tạp hơn như độ sáng, độ tương phản và thêm nhiễu.

__wf_reserved_inherit — Hình 1. Các ví dụ về các loại tăng cường dữ liệu hình ảnh khác nhau.

‍

Các tính năng chính của Albumentations

Albumentations được biết đến với hiệu suất cao, nghĩa là nó có thể xử lý hình ảnh nhanh chóng và hiệu quả. Được xây dựng trên các thư viện được tối ưu hóa như OpenCV và NumPy , nó xử lý các tập dữ liệu lớn với thời gian xử lý tối thiểu, lý tưởng cho việc tăng cường dữ liệu nhanh chóng trong quá trình đào tạo mô hình.

Dưới đây là một số tính năng quan trọng khác của Albumentations:

Phạm vi biến đổi rộng: Albumentations cung cấp hơn 70 loại tăng cường. Những biến thể này giúp các mô hình học cách detect các vật thể bất chấp sự thay đổi về ánh sáng, góc độ hoặc nền.
‍
Được tối ưu hóa cho tốc độ: Nó sử dụng các kỹ thuật tối ưu hóa tiên tiến như SIMD (Single Instruction, Multiple Data), xử lý nhiều điểm dữ liệu cùng một lúc để tăng tốc độ tăng cường hình ảnh và xử lý các bộ dữ liệu lớn một cách hiệu quả.
‍
Ba cấp độ tăng cường dữ liệu: Tăng cường dữ liệu theo ba cách. Ví dụ: tăng cường ở cấp độ pixel điều chỉnh độ sáng và màu sắc mà không làm thay đổi đối tượng. Trong khi đó, tăng cường ở cấp độ không gian sửa đổi vị trí đối tượng nhưng vẫn giữ lại các chi tiết quan trọng, và tăng cường ở cấp độ trộn kết hợp các phần của các hình ảnh khác nhau để tạo ra các mẫu mới.

Tại sao bạn nên sử dụng tích hợp Albumentations?

Bạn có thể đang thắc mắc: có nhiều cách để áp dụng các phép tăng cường cho một tập dữ liệu và bạn thậm chí có thể tự tạo các phép tăng cường của riêng mình bằng các công cụ như OpenCV . Vậy tại sao lại chọn tích hợp hỗ trợ thư viện như Albumentations?

Tạo thủ công các phần tăng cường bằng các công cụ như OpenCV Việc này có thể mất nhiều thời gian và đòi hỏi chuyên môn. Việc tinh chỉnh các phép biến đổi để đạt được kết quả tốt nhất cũng có thể khá khó khăn. Tích hợp Albumentations giúp quá trình này trở nên dễ dàng hơn. Nó cung cấp nhiều phép biến đổi sẵn sàng sử dụng, giúp bạn tiết kiệm thời gian và công sức khi chuẩn bị tập dữ liệu .

Một lý do khác để chọn tích hợp Albumentations là nó hoạt động trơn tru với Ultralytics Mô hình đường ống đào tạo . Nó giúp việc đào tạo tùy chỉnh dễ dàng hơn nhiều YOLO11 , vì các phép tăng cường được tự động áp dụng trong quá trình đào tạo. Nó đơn giản hóa quy trình, giúp bạn có thể tập trung nhiều hơn vào việc cải thiện mô hình thay vì xử lý việc chuẩn bị dữ liệu.

Bắt đầu với tích hợp Albumentations

Điều thú vị là sử dụng tích hợp Albumentations để đào tạo YOLO11 đơn giản hơn bạn nghĩ. Khi các thư viện phù hợp được thiết lập, quá trình tích hợp sẽ tự động áp dụng các phép tăng cường dữ liệu hình ảnh trong quá trình huấn luyện. Nó giúp mô hình học hỏi từ các biến thể hình ảnh khác nhau bằng cách sử dụng cùng một tập dữ liệu.

Tiếp theo, chúng ta hãy cùng tìm hiểu cách cài đặt và sử dụng tích hợp Albumentations khi đào tạo tùy chỉnh YOLO11 .

Cài đặt Ultralytics Python gói và Albumentations

Trước khi áp dụng các phần mở rộng, cần cài đặt cả gói Ultralytics Python và Albumentations. Việc tích hợp đã được xây dựng để cả hai thư viện hoạt động liền mạch với nhau theo mặc định, do đó bạn không cần phải lo lắng về các cấu hình phức tạp.

Toàn bộ quá trình cài đặt có thể được hoàn thành chỉ trong vài phút với một lệnh pip duy nhất, đây là một công cụ quản lý gói để cài đặt Python thư viện, như thể hiện trong hình ảnh bên dưới.

Sau khi Albumentations được cài đặt, Ultralytics Chế độ huấn luyện mô hình tự động áp dụng các phép tăng cường hình ảnh trong quá trình huấn luyện. Nếu Albumentations không được cài đặt, các phép tăng cường này sẽ không được áp dụng. Để biết thêm chi tiết, bạn có thể tham khảo tài liệu chính thức Ultralytics .

Đào tạo YOLO11 với sự trợ giúp của tích hợp Albumentations

Hãy hiểu rõ hơn về những gì đang diễn ra bên trong tích hợp Albumentations.

Sau đây là cái nhìn cận cảnh hơn về các phần tăng cường được áp dụng trong YOLO11 đào tạo:

Làm mờ: Phép biến đổi này làm mờ nhẹ hình ảnh. Nó giúp mô hình detect các vật thể ngay cả khi chúng không được lấy nét.
‍
Làm mờ trung vị: Giảm nhiễu ngẫu nhiên trong khi vẫn giữ nguyên các cạnh của vật thể trong ảnh. Điều này giúp mô hình dễ dàng hơn trong việc detect các vật thể trong môi trường phức tạp.
‍
Thang độ xám (Grayscale): Bằng cách chuyển đổi hình ảnh sang đen trắng, sự tăng cường này có thể giúp mô hình tập trung vào hình dạng và kết cấu thay vì màu sắc.
‍
CLAHE (Cân bằng biểu đồ thích ứng giới hạn độ tương phản): Phép tăng cường này giúp tăng độ tương phản trong ảnh, đặc biệt là ở những vùng quá tối hoặc khó nhìn, chẳng hạn như trong điều kiện ánh sáng yếu hoặc có sương mù. Điều này làm cho các đối tượng trong các khu vực đó rõ ràng hơn và dễ dàng hơn cho mô hình xác định.

‍

Ứng dụng của YOLO11 và tích hợp Albumentations

Nếu bạn đang đào tạo tùy chỉnh YOLO11 Đối với một ứng dụng cụ thể, tích hợp Albumentations có thể giúp nâng cao hiệu suất của mô hình bằng cách thích ứng với nhiều điều kiện khác nhau. Hãy cùng thảo luận về một số ứng dụng thực tế và những thách thức mà tích hợp này có thể giải quyết.

Cải thiện hình ảnh y tế

AI thị giác trong chăm sóc sức khỏe đang giúp các bác sĩ phân tích hình ảnh y tế chính xác hơn để hỗ trợ chẩn đoán và cải thiện việc chăm sóc bệnh nhân. Trên thực tế, khoảng một phần năm các tổ chức chăm sóc sức khỏe đã sử dụng các giải pháp AI.

Tuy nhiên, việc tạo ra các giải pháp computer vision (thị giác máy tính) này đi kèm với một loạt thách thức riêng. Các kết quả quét y tế có thể khác nhau rất nhiều giữa các bệnh viện, bị ảnh hưởng bởi các yếu tố như thiết bị, cài đặt khác nhau và thậm chí cả kinh nghiệm của kỹ thuật viên. Sự khác biệt về độ sáng, độ tương phản và độ phơi sáng có thể ảnh hưởng đến tính nhất quán và độ chính xác của các mô hình Vision AI (AI thị giác), gây khó khăn cho chúng trong việc hoạt động đáng tin cậy ở các môi trường khác nhau.

Đây chính là lúc việc tích hợp các công cụ như Albumentations trở nên thiết yếu. Bằng cách tạo ra nhiều phiên bản tăng cường của cùng một bản quét, Albumentations cho phép mô hình học hỏi từ nhiều chất lượng hình ảnh khác nhau. Điều này giúp mô hình trở nên mạnh mẽ hơn, cho phép nó detect bệnh tật một cách chính xác trên cả hình ảnh chất lượng cao và thấp.

‍

Tăng cường an ninh và giám sát

Một ứng dụng thú vị khác của Vision AI là trong lĩnh vực an ninh và giám sát. Phát hiện đối tượng theo thời gian thực có thể giúp các đội an ninh xác định các mối đe dọa tiềm ẩn một cách nhanh chóng.

Mối quan tâm chính liên quan đến ứng dụng này là camera an ninh ghi lại hình ảnh trong nhiều điều kiện ánh sáng khác nhau suốt cả ngày, và những điều kiện này có thể ảnh hưởng đáng kể đến cách mô hình hiểu được hình ảnh. Các yếu tố như môi trường thiếu sáng, ánh sáng chói hoặc tầm nhìn kém có thể khiến các mô hình thị giác máy tính khó xử lý. detect các đối tượng hoặc nhận biết các mối đe dọa tiềm ẩn một cách nhất quán.

Tích hợp Albumentations giúp áp dụng các phép biến đổi để mô phỏng các điều kiện ánh sáng khác nhau. Điều này cho phép mô hình học cách detect các vật thể trong cả môi trường sáng và tối, giúp tăng độ tin cậy và cải thiện thời gian phản hồi trong những điều kiện khó khăn.

Định hình lại quy trình làm việc trong ngành bán lẻ và trải nghiệm khách hàng

Một vũng nước tràn trong lối đi của siêu thị, một con chó chạy qua cửa hàng hoặc một đứa trẻ làm đổ quầy trưng bày sản phẩm chỉ là một vài ví dụ về các sự kiện hàng ngày có thể là trường hợp đặc biệt đối với Vision AI trong môi trường bán lẻ. Computer vision ngày càng được sử dụng để cải thiện trải nghiệm của khách hàng bằng cách theo dõi hành vi của người mua sắm, giám sát lưu lượng người đi bộ và xác định sản phẩm trên kệ. Tuy nhiên, những tình huống thực tế này có thể gây khó khăn cho các hệ thống AI trong việc hiểu và xử lý chính xác.

Mặc dù không phải mọi tình huống đều có thể được thể hiện trong một bộ dữ liệu thị giác máy tính, nhưng tích hợp Albumentations giúp tăng cường dữ liệu để bao phủ nhiều tình huống có thể xảy ra, chẳng hạn như ánh sáng bất ngờ, góc độ bất thường hoặc vật cản. Điều này giúp các mô hình thị giác máy tính thích ứng với các điều kiện khác nhau, cải thiện khả năng xử lý các trường hợp đặc biệt và đưa ra dự đoán chính xác trong môi trường bán lẻ năng động.

Những điều cần nhớ

Việc thu thập dữ liệu thực tế đa dạng để huấn luyện mô hình có thể phức tạp, nhưng Albumentations giúp việc này trở nên dễ dàng hơn bằng cách tạo ra các biến thể hình ảnh giúp mô hình thích ứng với các điều kiện khác nhau.

Tích hợp Albumentations được hỗ trợ bởi Ultralytics đơn giản hóa quá trình áp dụng các phần tăng cường này trong khi đào tạo tùy chỉnh YOLO11 . Điều này mang lại chất lượng tập dữ liệu tốt hơn, mang lại lợi ích cho nhiều ngành công nghiệp bằng cách tạo ra các mô hình Vision AI chính xác và đáng tin cậy hơn.

Tham gia cộng đồng của chúng tôi và khám phá kho lưu trữ GitHub của chúng tôi để tìm hiểu thêm về AI, đồng thời xem các tùy chọn cấp phép của chúng tôi để khởi động các dự án Vision AI của bạn. Bạn quan tâm đến những đổi mới như ứng dụng AI trong sản xuất hoặc computer vision trong xe tự lái? Hãy truy cập các trang giải pháp của chúng tôi để khám phá thêm.

Sử dụng Albumentations augmentations để đa dạng hóa dữ liệu của bạn