Đón xem YOLO Vision 2025!
25 tháng 9, 2025
10:00 — 18:00 BST
Sự kiện kết hợp
Yolo Vision 2024

Sử dụng Albumentations augmentations để đa dạng hóa dữ liệu của bạn

Abirami Vina

5 phút đọc

17 tháng 2, 2025

Tìm hiểu cách sử dụng Albumentations để tăng cường dữ liệu khi tùy chỉnh huấn luyện Ultralytics YOLO11 nhằm cải thiện hiệu suất mô hình với dữ liệu huấn luyện đa dạng.

Khi xây dựng một giải pháp thị giác máy tính, việc thu thập một tập hợp đa dạng các hình ảnh để huấn luyện các mô hình Vision AI có thể là một phần quan trọng của quy trình. Nó thường đòi hỏi rất nhiều thời gian và tiền bạc, và đôi khi, những hình ảnh được thu thập vẫn không đủ đa dạng để các mô hình học một cách hiệu quả.

Ví dụ: các mô hình thị giác máy tính như Ultralytics YOLO11 có thể được huấn luyện tùy chỉnh trên các tập dữ liệu hình ảnh cho các tác vụ thị giác máy tính khác nhau liên quan đến các ứng dụng khác nhau. Dữ liệu đa dạng là chìa khóa vì nó giúp mô hình khái quát hóa tốt hơn, cho phép nó nhận ra các đối tượng và mẫu trong một loạt các tình huống thực tế.

Nếu bạn đang gặp khó khăn với việc thiếu dữ liệu đa dạng, thì các kỹ thuật tăng cường dữ liệu hình ảnh có thể là một giải pháp tuyệt vời. Các phương pháp như xoay, lật và điều chỉnh độ sáng có thể giúp tăng sự đa dạng của bộ dữ liệu của bạn, cải thiện khả năng của mô hình trong việc xử lý một loạt các điều kiện rộng hơn.

Đó là lý do tại sao Ultralytics hỗ trợ tích hợp để tăng cường dữ liệu hình ảnh. Sử dụng Albumentations, một công cụ phổ biến cung cấp một tập hợp các phép biến đổi, bạn có thể tạo ra dữ liệu trực quan đa dạng. Tích hợp này đơn giản hóa quy trình huấn luyện YOLO11 bằng cách tự động tăng cường hình ảnh huấn luyện, dẫn đến cải thiện hiệu suất mô hình. 

Trong bài viết này, chúng ta sẽ khám phá cách bạn có thể sử dụng tích hợp Albumentations, những lợi ích của nó và tác động của nó đối với quá trình huấn luyện mô hình.

Albumentations là gì?

Các mô hình thị giác máy tính có thể học hỏi từ một tập hợp lớn các hình ảnh chất lượng cao để nhận dạng các đối tượng trong các môi trường khác nhau. Thu thập các tập dữ liệu lớn từ các nguồn thực tế có thể chậm, tốn kém và không hiệu quả. Để hợp lý hóa nhiệm vụ này, bạn có thể sử dụng tăng cường dữ liệu hình ảnh để tạo các biến thể mới của hình ảnh hiện có, giúp các mô hình học hỏi từ các tình huống khác nhau mà không cần thu thập thêm dữ liệu.

Cụ thể, bạn có thể tận dụng Albumentations, một thư viện mã nguồn mở được giới thiệu để tăng cường dữ liệu hình ảnh hiệu quả vào năm 2018. Nó hỗ trợ nhiều thao tác khác nhau, từ các thay đổi hình học đơn giản như xoay và lật đến các điều chỉnh phức tạp hơn như độ sáng, độ tương phản và thêm nhiễu.

__wf_reserved_inherit
Hình 1. Các ví dụ về các loại tăng cường dữ liệu hình ảnh khác nhau.

Các tính năng chính của Albumentations

Albumentations được biết đến với hiệu suất cao, có nghĩa là nó có thể xử lý hình ảnh một cách nhanh chóng và hiệu quả. Được xây dựng trên các thư viện được tối ưu hóa như OpenCV và NumPy, nó xử lý các bộ dữ liệu lớn với thời gian xử lý tối thiểu, khiến nó trở nên lý tưởng để tăng cường dữ liệu nhanh chóng trong quá trình huấn luyện mô hình.

Dưới đây là một số tính năng quan trọng khác của Albumentations:

  • Nhiều loại biến đổi: Albumentations cung cấp hơn 70 loại tăng cường dữ liệu. Các biến thể này giúp các mô hình học cách phát hiện các đối tượng bất chấp những thay đổi về ánh sáng, góc độ hoặc nền.
  • Được tối ưu hóa cho tốc độ: Nó sử dụng các kỹ thuật tối ưu hóa tiên tiến như SIMD (Single Instruction, Multiple Data), xử lý nhiều điểm dữ liệu cùng một lúc để tăng tốc độ tăng cường hình ảnh và xử lý các bộ dữ liệu lớn một cách hiệu quả.
  • Ba cấp độ tăng cường dữ liệu: Tăng cường dữ liệu theo ba cách. Ví dụ: tăng cường ở cấp độ pixel điều chỉnh độ sáng và màu sắc mà không làm thay đổi đối tượng. Trong khi đó, tăng cường ở cấp độ không gian sửa đổi vị trí đối tượng nhưng vẫn giữ lại các chi tiết quan trọng, và tăng cường ở cấp độ trộn kết hợp các phần của các hình ảnh khác nhau để tạo ra các mẫu mới.

Tại sao bạn nên sử dụng tích hợp Albumentations?

Bạn có thể thắc mắc: có nhiều cách để áp dụng các phương pháp tăng cường dữ liệu cho một tập dữ liệu và bạn thậm chí có thể tự tạo bằng các công cụ như OpenCV. Vậy, tại sao nên chọn một tích hợp hỗ trợ một thư viện như Albumentations?

Việc tạo thủ công các phép biến đổi dữ liệu bằng các công cụ như OpenCV có thể tốn rất nhiều thời gian và đòi hỏi một số kiến thức chuyên môn. Cũng có thể khó điều chỉnh các phép biến đổi để có được kết quả tốt nhất. Tích hợp Albumentations giúp quá trình này dễ dàng hơn. Nó cung cấp nhiều phép biến đổi sẵn sàng để sử dụng có thể giúp bạn tiết kiệm thời gian và công sức khi chuẩn bị bộ dữ liệu của mình.

Một lý do khác để chọn tích hợp Albumentations là nó hoạt động trơn tru với quy trình huấn luyện mô hình Ultralytics. Nó giúp việc tùy chỉnh huấn luyện YOLO11 dễ dàng hơn nhiều, vì các biến đổi tăng cường được tự động áp dụng trong quá trình huấn luyện. Nó đơn giản hóa quy trình, vì vậy bạn có thể tập trung nhiều hơn vào việc cải thiện mô hình của mình thay vì xử lý việc chuẩn bị dữ liệu. 

Bắt đầu với tích hợp Albumentations

Điều thú vị là, sử dụng tích hợp Albumentations để huấn luyện YOLO11 đơn giản hơn bạn nghĩ. Sau khi các thư viện phù hợp được thiết lập, tích hợp sẽ tự động áp dụng các phương pháp tăng cường dữ liệu hình ảnh trong quá trình huấn luyện. Nó giúp mô hình học hỏi từ các biến thể hình ảnh khác nhau bằng cách sử dụng cùng một bộ dữ liệu.

Tiếp theo, hãy cùng tìm hiểu cách cài đặt và sử dụng tích hợp Albumentations khi huấn luyện tùy chỉnh YOLO11.

Cài đặt gói Ultralytics Python và Albumentations

Trước khi áp dụng các phương pháp tăng cường dữ liệu, cả gói Ultralytics Python và Albumentations cần được cài đặt. Tích hợp đã được xây dựng để cả hai thư viện hoạt động cùng nhau một cách liền mạch theo mặc định, vì vậy bạn không cần phải lo lắng về các cấu hình phức tạp.

Toàn bộ quá trình cài đặt có thể được hoàn thành chỉ trong vài phút với một lệnh pip duy nhất, đây là một công cụ quản lý gói để cài đặt các thư viện Python, như được hiển thị trong hình bên dưới. 

__wf_reserved_inherit
Hình 2. Cài đặt Ultralytics và Albumentations.

Sau khi Albumentations được cài đặt, chế độ huấn luyện mô hình Ultralytics sẽ tự động áp dụng các phương pháp tăng cường hình ảnh trong quá trình huấn luyện. Nếu Albumentations chưa được cài đặt, các phương pháp tăng cường này sẽ không được áp dụng. Để biết thêm chi tiết, bạn có thể tham khảo tài liệu chính thức của Ultralytics.

Huấn luyện YOLO11 với sự trợ giúp của tích hợp Albumentations

Hãy hiểu rõ hơn về những gì đang diễn ra bên trong tích hợp Albumentations. 

Sau đây là cái nhìn cận cảnh hơn về các phương pháp tăng cường dữ liệu (augmentation) đang được áp dụng trong quá trình huấn luyện YOLO11:

  • Làm mờ: Phép biến đổi này thêm một chút mờ vào hình ảnh. Nó giúp mô hình phát hiện các đối tượng ngay cả khi chúng bị mất nét.
  • Làm mờ trung vị (Median blur): Nó làm giảm nhiễu ngẫu nhiên trong khi vẫn giữ được các cạnh của đối tượng trong ảnh. Điều này giúp mô hình dễ dàng phát hiện các đối tượng trong môi trường phức tạp hơn.
  • Thang độ xám (Grayscale): Bằng cách chuyển đổi hình ảnh sang đen trắng, sự tăng cường này có thể giúp mô hình tập trung vào hình dạng và kết cấu thay vì màu sắc.
  • CLAHE (Cân bằng biểu đồ thích ứng giới hạn độ tương phản): Phép tăng cường này giúp tăng độ tương phản trong ảnh, đặc biệt là ở những vùng quá tối hoặc khó nhìn, chẳng hạn như trong điều kiện ánh sáng yếu hoặc có sương mù. Điều này làm cho các đối tượng trong các khu vực đó rõ ràng hơn và dễ dàng hơn cho mô hình xác định.
__wf_reserved_inherit
Hình 3. Một ví dụ về tăng cường độ xám được áp dụng cho hình ảnh một con mèo.

Ứng dụng của YOLO11 và tích hợp Albumentations

Nếu bạn đang huấn luyện tùy chỉnh YOLO11 cho một ứng dụng cụ thể, tích hợp Albumentations có thể giúp tăng cường hiệu suất của mô hình bằng cách thích ứng với các điều kiện khác nhau. Hãy thảo luận về một số ứng dụng thực tế và những thách thức mà tích hợp này có thể giải quyết.

Cải thiện hình ảnh y tế

AI thị giác trong chăm sóc sức khỏe đang giúp các bác sĩ phân tích hình ảnh y tế chính xác hơn để hỗ trợ chẩn đoán và cải thiện việc chăm sóc bệnh nhân. Trên thực tế, khoảng một phần năm các tổ chức chăm sóc sức khỏe đã sử dụng các giải pháp AI. 

Tuy nhiên, việc tạo ra các giải pháp computer vision (thị giác máy tính) này đi kèm với một loạt thách thức riêng. Các kết quả quét y tế có thể khác nhau rất nhiều giữa các bệnh viện, bị ảnh hưởng bởi các yếu tố như thiết bị, cài đặt khác nhau và thậm chí cả kinh nghiệm của kỹ thuật viên. Sự khác biệt về độ sáng, độ tương phản và độ phơi sáng có thể ảnh hưởng đến tính nhất quán và độ chính xác của các mô hình Vision AI (AI thị giác), gây khó khăn cho chúng trong việc hoạt động đáng tin cậy ở các môi trường khác nhau.

Đây là nơi tích hợp các công cụ như Albumentations trở nên cần thiết. Bằng cách tạo ra nhiều phiên bản tăng cường của cùng một bản quét, Albumentations cho phép mô hình học hỏi từ nhiều chất lượng hình ảnh khác nhau. Điều này giúp mô hình trở nên mạnh mẽ hơn, cho phép nó phát hiện bệnh một cách chính xác trên cả hình ảnh chất lượng cao và chất lượng thấp. 

__wf_reserved_inherit
Hình 4. Hình ảnh X-quang tăng cường.

Tăng cường an ninh và giám sát

Một ứng dụng thú vị khác của Vision AI là trong lĩnh vực an ninh và giám sát. Phát hiện đối tượng theo thời gian thực có thể giúp các đội an ninh xác định các mối đe dọa tiềm ẩn một cách nhanh chóng. 

Một mối quan tâm chính liên quan đến ứng dụng này là camera an ninh ghi lại cảnh quay trong các điều kiện ánh sáng khác nhau trong suốt cả ngày và những điều kiện này có thể ảnh hưởng đáng kể đến cách mô hình hiểu những hình ảnh đó. Các yếu tố như môi trường ánh sáng yếu, ánh sáng chói hoặc tầm nhìn kém có thể gây khó khăn cho các mô hình thị giác máy tính trong việc phát hiện đối tượng hoặc nhận ra các mối đe dọa tiềm ẩn một cách nhất quán.

Tích hợp Albumentations giúp áp dụng các phép biến đổi để mô phỏng các điều kiện ánh sáng khác nhau. Điều này cho phép mô hình học cách phát hiện các đối tượng trong cả môi trường ánh sáng mạnh và ánh sáng yếu, làm cho nó đáng tin cậy hơn và cải thiện thời gian phản hồi trong các điều kiện khó khăn.

Định hình lại quy trình làm việc trong ngành bán lẻ và trải nghiệm khách hàng

Một vũng nước tràn trong lối đi của siêu thị, một con chó chạy qua cửa hàng hoặc một đứa trẻ làm đổ quầy trưng bày sản phẩm chỉ là một vài ví dụ về các sự kiện hàng ngày có thể là trường hợp đặc biệt đối với Vision AI trong môi trường bán lẻ. Computer vision ngày càng được sử dụng để cải thiện trải nghiệm của khách hàng bằng cách theo dõi hành vi của người mua sắm, giám sát lưu lượng người đi bộ và xác định sản phẩm trên kệ. Tuy nhiên, những tình huống thực tế này có thể gây khó khăn cho các hệ thống AI trong việc hiểu và xử lý chính xác.

Mặc dù không phải mọi tình huống đều có thể được thể hiện trong một bộ dữ liệu thị giác máy tính, nhưng tích hợp Albumentations giúp tăng cường dữ liệu để bao phủ nhiều tình huống có thể xảy ra, chẳng hạn như ánh sáng bất ngờ, góc độ bất thường hoặc vật cản. Điều này giúp các mô hình thị giác máy tính thích ứng với các điều kiện khác nhau, cải thiện khả năng xử lý các trường hợp đặc biệt và đưa ra dự đoán chính xác trong môi trường bán lẻ năng động.

Những điều cần nhớ

Việc thu thập dữ liệu thực tế đa dạng để huấn luyện mô hình có thể phức tạp, nhưng Albumentations giúp việc này trở nên dễ dàng hơn bằng cách tạo ra các biến thể hình ảnh giúp mô hình thích ứng với các điều kiện khác nhau. 

Tích hợp Albumentations được hỗ trợ bởi Ultralytics giúp đơn giản hóa quy trình áp dụng các phương pháp tăng cường dữ liệu này trong khi tùy chỉnh huấn luyện YOLO11. Điều này mang lại chất lượng tập dữ liệu tốt hơn, mang lại lợi ích cho nhiều ngành công nghiệp bằng cách tạo ra các mô hình Vision AI chính xác và đáng tin cậy hơn.

Tham gia cộng đồng của chúng tôi và khám phá kho lưu trữ GitHub của chúng tôi để tìm hiểu thêm về AI, đồng thời xem các tùy chọn cấp phép của chúng tôi để khởi động các dự án Vision AI của bạn. Bạn quan tâm đến những đổi mới như ứng dụng AI trong sản xuất hoặc computer vision trong xe tự lái? Hãy truy cập các trang giải pháp của chúng tôi để khám phá thêm. 

Hãy cùng nhau xây dựng tương lai
của AI!

Bắt đầu hành trình của bạn với tương lai của học máy

Bắt đầu miễn phí
Đã sao chép liên kết vào clipboard