Đón xem YOLO Vision 2025!
25 tháng 9, 2025
10:00 — 18:00 BST
Sự kiện kết hợp
Yolo Vision 2024

Hướng dẫn đầy đủ về tăng cường dữ liệu năm 2025

Abirami Vina

6 phút đọc

14 tháng 2, 2025

Tìm hiểu cách tăng cường dữ liệu hình ảnh giúp các mô hình Vision AI học tốt hơn, nâng cao độ chính xác và hoạt động hiệu quả hơn trong các tình huống thực tế.

Do sự bùng nổ của AI, các hiện tượng như robot làm việc trong nhà máy và xe tự lái di chuyển trên đường phố ngày càng xuất hiện nhiều hơn trên các trang tin tức. AI đang thay đổi cách máy móc tương tác với thế giới, từ việc cải thiện hình ảnh y tế đến hỗ trợ kiểm soát chất lượng trên dây chuyền sản xuất.

Phần lớn sự tiến bộ này đến từ thị giác máy tính, một nhánh của AI giúp máy móc có thể hiểu và diễn giải hình ảnh. Giống như con người học cách nhận biết các đối tượng và mẫu theo thời gian, các mô hình Vision AI như Ultralytics YOLO11 cần được huấn luyện trên một lượng lớn dữ liệu hình ảnh để phát triển khả năng hiểu biết trực quan của chúng.

Tuy nhiên, việc thu thập một lượng lớn dữ liệu trực quan như vậy không phải lúc nào cũng dễ dàng. Mặc dù cộng đồng computer vision (thị giác máy tính) đã tạo ra nhiều bộ dữ liệu (dataset) lớn, nhưng chúng vẫn có thể bỏ sót một số biến thể nhất định - chẳng hạn như hình ảnh có vật thể trong điều kiện ánh sáng yếu, các vật phẩm bị che khuất một phần hoặc những thứ được xem từ các góc độ khác nhau. Những khác biệt này có thể gây khó hiểu cho các mô hình computer vision (thị giác máy tính) vốn chỉ được huấn luyện trong các điều kiện cụ thể.

Tăng cường dữ liệu hình ảnh là một kỹ thuật giải quyết vấn đề này bằng cách đưa các biến thể mới vào dữ liệu hiện có. Bằng cách thay đổi hình ảnh, chẳng hạn như điều chỉnh màu sắc, xoay hoặc thay đổi phối cảnh, tập dữ liệu trở nên đa dạng hơn, giúp các mô hình Vision AI nhận dạng đối tượng tốt hơn trong các tình huống thực tế.

Trong bài viết này, chúng ta sẽ khám phá cách thức hoạt động của việc tăng cường dữ liệu hình ảnh và tác động của nó đối với các ứng dụng thị giác máy tính.

Tăng cường dữ liệu ảnh là gì?

Giả sử bạn đang cố gắng nhận ra một người bạn trong đám đông, nhưng họ đang đeo kính râm hoặc đứng ở một nơi râm mát. Ngay cả với những thay đổi nhỏ này về ngoại hình, bạn vẫn biết họ là ai. Mặt khác, một mô hình Vision AI có thể gặp khó khăn với những biến thể như vậy trừ khi nó được huấn luyện để nhận dạng các đối tượng trong các cài đặt khác nhau.

Tăng cường dữ liệu hình ảnh cải thiện hiệu suất của mô hình thị giác máy tính bằng cách thêm các phiên bản đã sửa đổi của hình ảnh hiện có vào dữ liệu huấn luyện, thay vì thu thập hàng nghìn hình ảnh mới. 

Những thay đổi đối với hình ảnh như lật, xoay, điều chỉnh độ sáng hoặc thêm các biến dạng nhỏ giúp các mô hình Vision AI tiếp xúc với nhiều điều kiện hơn. Thay vì dựa vào các tập dữ liệu khổng lồ, các mô hình có thể học hiệu quả từ các tập dữ liệu huấn luyện nhỏ hơn với hình ảnh tăng cường. 

__wf_reserved_inherit
Hình 1. Các ví dụ về hình ảnh tăng cường của một chiếc xe hơi.

Tầm quan trọng của việc tăng cường dữ liệu trong thị giác máy tính

Dưới đây là một số lý do chính tại sao data augmentation (tăng cường dữ liệu) lại rất cần thiết cho thị giác máy tính:

  • Giảm yêu cầu về dữ liệu: Thu thập bộ dữ liệu hình ảnh lớn tốn thời gian và nguồn lực. Tăng cường dữ liệu có thể được sử dụng để huấn luyện mô hình hiệu quả mà không cần bộ dữ liệu khổng lồ.
  • Ngăn ngừa overfitting: Một mô hình được huấn luyện trên quá ít ví dụ có thể ghi nhớ các chi tiết thay vì nhận ra các mẫu chung. Việc thêm sự đa dạng thông qua tăng cường dữ liệu đảm bảo các mô hình Vision AI học theo cách áp dụng cho dữ liệu mới và chưa thấy.
  • Mô phỏng hình ảnh không hoàn hảo: Hình ảnh trong bộ dữ liệu thường quá hoàn hảo, nhưng ảnh chụp thế giới thực có thể bị mờ, bị che khuất hoặc bị biến dạng. Tăng cường hình ảnh bằng nhiễu, tắc nghẽn hoặc các biến thể khác làm cho chúng trở nên thực tế hơn.
  • Tăng cường tính mạnh mẽ của mô hình: Huấn luyện với nhiều hình ảnh khác nhau giúp AI xử lý các thay đổi trong thế giới thực, làm cho nó đáng tin cậy hơn trong các môi trường, điều kiện ánh sáng và tình huống khác nhau.

Khi nào bạn nên sử dụng tăng cường dữ liệu ảnh?

Tăng cường dữ liệu hình ảnh đặc biệt hữu ích khi một mô hình thị giác máy tính cần nhận dạng các đối tượng trong các tình huống khác nhau nhưng không có đủ hình ảnh đa dạng. 

Ví dụ: nếu các nhà nghiên cứu đang huấn luyện một mô hình Vision AI để xác định các loài dưới nước quý hiếm hiếm khi được chụp ảnh, thì tập dữ liệu có thể nhỏ hoặc thiếu sự đa dạng. Bằng cách tăng cường hình ảnh - điều chỉnh màu sắc để mô phỏng các độ sâu nước khác nhau, thêm nhiễu để bắt chước các điều kiện mờ đục hoặc thay đổi hình dạng một chút để tính đến chuyển động tự nhiên - mô hình có thể học cách phát hiện các vật thể dưới nước chính xác hơn.

Dưới đây là một số tình huống khác mà việc tăng cường dữ liệu (augmentation) tạo ra sự khác biệt lớn:

  • Cân bằng bộ dữ liệu: Một số đối tượng có thể xuất hiện ít hơn trong dữ liệu huấn luyện, dẫn đến các mô hình Vision AI bị thiên vị. Tăng cường dữ liệu giúp tạo ra nhiều ví dụ hơn về các đối tượng hiếm gặp để mô hình có thể nhận dạng công bằng tất cả các danh mục.
  • Thích ứng với các loại máy ảnh khác nhau: Hình ảnh có thể trông khác nhau tùy thuộc vào thiết bị. Tăng cường dữ liệu giúp các mô hình Vision AI hoạt động tốt trên ảnh có độ phân giải, ánh sáng và chất lượng khác nhau.
  • Sửa các lỗi gán nhãn nhỏ: Các thay đổi nhỏ, cắt xén hoặc xoay giúp các mô hình thị giác máy tính nhận dạng đối tượng một cách chính xác, ngay cả khi các nhãn gốc không được căn chỉnh hoàn hảo.

Data augmentation ảnh hoạt động như thế nào

Trong những ngày đầu của thị giác máy tính, việc tăng cường dữ liệu hình ảnh chủ yếu liên quan đến các kỹ thuật xử lý ảnh cơ bản như lật, xoay và cắt để tăng tính đa dạng của tập dữ liệu. Khi AI được cải thiện, các phương pháp nâng cao hơn đã được giới thiệu, chẳng hạn như điều chỉnh màu sắc (chuyển đổi không gian màu), làm sắc nét hoặc làm mờ hình ảnh (bộ lọc kernel) và trộn nhiều hình ảnh với nhau (trộn hình ảnh) để tăng cường khả năng học.

Tăng cường dữ liệu (Augmentation) có thể diễn ra trước và trong quá trình huấn luyện mô hình (model training). Trước khi huấn luyện, các hình ảnh đã được sửa đổi có thể được thêm vào tập dữ liệu để cung cấp nhiều sự đa dạng hơn. Trong quá trình huấn luyện, hình ảnh có thể được thay đổi ngẫu nhiên trong thời gian thực, giúp các mô hình Vision AI thích ứng với các điều kiện khác nhau.

Những thay đổi này được thực hiện bằng cách sử dụng các phép biến đổi toán học. Ví dụ: xoay nghiêng hình ảnh, cắt xén loại bỏ các phần để mô phỏng các chế độ xem khác nhau và thay đổi độ sáng mô phỏng các biến thể ánh sáng. Làm mờ làm mềm hình ảnh, làm sắc nét làm cho các chi tiết rõ ràng hơn và trộn hình ảnh kết hợp các phần của các hình ảnh khác nhau. Các framework AI thị giác và các công cụ như OpenCV, TensorFlow và PyTorch có thể tự động hóa các quy trình này, giúp tăng cường nhanh chóng và hiệu quả.

Các kỹ thuật tăng cường dữ liệu hình ảnh chính

Sau khi thảo luận về khái niệm tăng cường dữ liệu hình ảnh, hãy cùng xem xét kỹ hơn một số kỹ thuật tăng cường dữ liệu hình ảnh cơ bản được sử dụng để nâng cao chất lượng dữ liệu huấn luyện.

Điều chỉnh hướng và vị trí

Các mô hình thị giác máy tính như YOLO11 thường cần nhận dạng các đối tượng từ nhiều góc độ và quan điểm khác nhau. Để trợ giúp việc này, hình ảnh có thể được lật theo chiều ngang hoặc chiều dọc để mô hình AI học cách nhận dạng các đối tượng từ các quan điểm khác nhau. 

Tương tự, xoay hình ảnh một chút sẽ thay đổi góc của chúng, cho phép mô hình xác định các đối tượng từ nhiều góc độ. Ngoài ra, dịch chuyển hình ảnh theo các hướng khác nhau (tịnh tiến) giúp các mô hình điều chỉnh theo những thay đổi nhỏ về vị trí. Những chuyển đổi này đảm bảo các mô hình khái quát hóa tốt hơn cho các điều kiện thực tế, nơi vị trí đối tượng trong hình ảnh là không thể đoán trước.

__wf_reserved_inherit
Hình 2. Các phương pháp tăng cường dữ liệu khác nhau liên quan đến hướng và vị trí.

Thay đổi kích thước và cắt xén

Đối với các giải pháp thị giác máy tính thực tế, các đối tượng trong hình ảnh có thể xuất hiện ở các khoảng cách và kích thước khác nhau. Các mô hình Vision AI phải đủ mạnh để phát hiện chúng bất kể những khác biệt này. 

Để cải thiện khả năng thích ứng, có thể sử dụng các phương pháp tăng cường dữ liệu (augmentation) sau:

  • Thay đổi tỷ lệ: Thay đổi kích thước sẽ thay đổi kích thước hình ảnh trong khi vẫn duy trì tỷ lệ của nó, cho phép các mô hình AI phát hiện các đối tượng ở các khoảng cách khác nhau.
  • Cắt xén: Thao tác này loại bỏ các phần không cần thiết của hình ảnh, giúp mô hình tập trung vào các khu vực chính và giảm sự xao nhãng từ nền.
  • Shearing (Xén ảnh): Làm xiên một hình ảnh một chút mô phỏng hình dạng nghiêng hoặc kéo dài, giúp AI nhận dạng các đối tượng từ các góc độ khác nhau.

Những điều chỉnh này giúp các mô hình thị giác máy tính nhận dạng các đối tượng ngay cả khi kích thước hoặc hình dạng của chúng thay đổi một chút.

Điều chỉnh phối cảnh và biến dạng

Các đối tượng trong ảnh có thể xuất hiện khác nhau tùy thuộc vào góc camera, gây khó khăn cho các mô hình thị giác máy tính trong việc nhận dạng. Để giúp các mô hình xử lý những thay đổi này, các kỹ thuật tăng cường dữ liệu có thể điều chỉnh cách các đối tượng được trình bày trong ảnh. 

Ví dụ: các phép biến đổi phối cảnh có thể thay đổi góc nhìn, làm cho một đối tượng trông như thể nó đang được nhìn từ một vị trí khác. Điều này cho phép các mô hình Vision AI nhận ra các đối tượng ngay cả khi chúng bị nghiêng hoặc được chụp từ một góc nhìn khác thường. 

Một ví dụ khác là phép biến đổi đàn hồi kéo dài, uốn cong hoặc làm cong hình ảnh để mô phỏng các biến dạng tự nhiên để các đối tượng xuất hiện như trong phản xạ hoặc dưới áp lực. 

Sửa đổi màu sắc và ánh sáng

Điều kiện ánh sáng và sự khác biệt về màu sắc có thể ảnh hưởng đáng kể đến cách các mô hình Vision AI diễn giải hình ảnh. Vì các đối tượng có thể xuất hiện khác nhau trong các điều kiện ánh sáng khác nhau, các kỹ thuật tăng cường dữ liệu sau đây có thể giúp xử lý những tình huống này:

  • Điều chỉnh độ sáng và độ tương phản: Mô phỏng các điều kiện ánh sáng khác nhau giúp các mô hình Vision AI nhận dạng các đối tượng trong cả môi trường sáng và tối.
  • Thay đổi màu sắc ngẫu nhiên: Thay đổi ngẫu nhiên sắc độ, độ bão hòa và cân bằng màu sắc giúp các mô hình thị giác máy tính thích ứng tốt hơn với các máy ảnh và điều kiện ánh sáng khác nhau.
  • Chuyển đổi sang thang độ xám (Grayscale conversion): Chuyển đổi hình ảnh sang đen trắng khuyến khích các mô hình Vision AI tập trung vào hình dạng và kết cấu thay vì màu sắc.
__wf_reserved_inherit
Hình 3. Ví dụ về các phương pháp tăng cường dữ liệu liên quan đến biến đổi màu sắc.

Các kỹ thuật tăng cường dữ liệu hình ảnh nâng cao

Cho đến nay, chúng ta mới chỉ khám phá các kỹ thuật tăng cường dữ liệu (augmentation) sửa đổi một hình ảnh duy nhất. Tuy nhiên, một số phương pháp nâng cao liên quan đến việc kết hợp nhiều hình ảnh để cải thiện khả năng học hỏi của AI.

Ví dụ: MixUp trộn hai hình ảnh lại với nhau, giúp các mô hình computer vision hiểu các mối quan hệ giữa các đối tượng và cải thiện khả năng khái quát hóa của chúng trong các tình huống khác nhau. CutMix tiến thêm một bước bằng cách thay thế một phần của một hình ảnh bằng một phần của hình ảnh khác, cho phép các mô hình học hỏi từ nhiều ngữ cảnh trong cùng một hình ảnh. Trong khi đó, CutOut hoạt động khác bằng cách loại bỏ các phần ngẫu nhiên của một hình ảnh, huấn luyện các mô hình Vision AI để nhận ra các đối tượng ngay cả khi chúng bị ẩn hoặc bị che khuất một phần.

__wf_reserved_inherit
Hình 4. Các kỹ thuật tăng cường dữ liệu hình ảnh nâng cao.

Vai trò của AI tạo sinh trong việc tăng cường dữ liệu hình ảnh

AI tạo sinh đang ngày càng được ưa chuộng trong nhiều ngành công nghiệp và các ứng dụng hàng ngày. Bạn có thể đã bắt gặp nó liên quan đến hình ảnh do AI tạo ra, video deepfake hoặc các ứng dụng tạo hình đại diện chân thực. Nhưng vượt ra ngoài sự sáng tạo và giải trí, AI tạo sinh đóng một vai trò quan trọng trong việc huấn luyện các mô hình Vision AI bằng cách tạo ra hình ảnh mới từ những hình ảnh hiện có.

Thay vì chỉ đơn giản là lật hoặc xoay ảnh, nó có thể tạo ra các biến thể thực tế - thay đổi biểu cảm khuôn mặt, kiểu quần áo hoặc thậm chí mô phỏng các điều kiện thời tiết khác nhau. Những biến thể này giúp các mô hình thị giác máy tính trở nên dễ thích ứng và chính xác hơn trong các tình huống thực tế đa dạng. Các mô hình AI tạo sinh tiên tiến như GAN (Mạng đối nghịch tạo sinh) và mô hình khuếch tán cũng có thể điền vào các chi tiết bị thiếu hoặc tạo ra hình ảnh tổng hợp chất lượng cao.

Hạn chế của việc tăng cường dữ liệu hình ảnh

Mặc dù tăng cường dữ liệu cải thiện bộ dữ liệu huấn luyện, nhưng cũng có một số hạn chế cần xem xét. Dưới đây là một vài thách thức chính liên quan đến việc tăng cường dữ liệu hình ảnh:

  • Tính đa dạng dữ liệu hạn chế: Hình ảnh tăng cường đến từ dữ liệu hiện có và không thể giới thiệu các mẫu hoàn toàn mới hoặc các góc nhìn hiếm gặp.
  • Sai lệch dữ liệu tiềm ẩn: Các phép biến đổi quá mức có thể làm cho hình ảnh trở nên không thực tế, có khả năng làm giảm độ chính xác của mô hình trong các tình huống thực tế.
  • Tăng khả năng tính toán: Tăng cường dữ liệu theo thời gian thực diễn ra trong quá trình huấn luyện mô hình có thể đòi hỏi khá nhiều sức mạnh xử lý, làm chậm quá trình huấn luyện và tăng mức sử dụng bộ nhớ.
  • Mất cân bằng lớp vẫn còn: Tăng cường dữ liệu không tạo ra các mẫu hoàn toàn mới, vì vậy các danh mục ít được đại diện có thể vẫn dẫn đến học tập thiên vị.

Một ứng dụng thực tế của tăng cường dữ liệu hình ảnh

Một ứng dụng thú vị của việc tăng cường dữ liệu hình ảnh (image data augmentation) là trong xe tự lái, nơi các quyết định trong tích tắc được đưa ra bởi các mô hình thị giác máy tính như YOLO11 là rất quan trọng. Mô hình phải có khả năng phát hiện đường xá, người và các đối tượng khác một cách chính xác.

Tuy nhiên, các điều kiện thực tế mà một chiếc xe tự lái gặp phải có thể khó đoán trước. Thời tiết xấu, hiện tượng nhòe chuyển động và các biển báo bị che khuất có thể khiến các giải pháp Vision AI (AI thị giác) trong lĩnh vực này trở nên phức tạp. Việc huấn luyện các mô hình computer vision (thị giác máy tính) chỉ bằng hình ảnh thực tế thường là không đủ. Các bộ dữ liệu hình ảnh cho các mô hình trong xe tự lái cần phải đa dạng để mô hình có thể học cách xử lý các tình huống bất ngờ.

Tăng cường dữ liệu hình ảnh giải quyết vấn đề này bằng cách mô phỏng sương mù, điều chỉnh độ sáng và làm biến dạng hình dạng. Những thay đổi này giúp các mô hình nhận dạng các đối tượng trong các điều kiện khác nhau. Do đó, các mô hình trở nên thông minh và đáng tin cậy hơn. 

Với quá trình huấn luyện tăng cường, các giải pháp Vision AI trong xe tự lái thích ứng tốt hơn và đưa ra quyết định an toàn hơn. Kết quả chính xác hơn có nghĩa là ít tai nạn hơn và cải thiện khả năng điều hướng. 

__wf_reserved_inherit
Hình 5. Một ví dụ về tăng cường dữ liệu hình ảnh liên quan đến xe tự lái.

Xe tự lái chỉ là một ví dụ. Trên thực tế, tăng cường dữ liệu hình ảnh là rất quan trọng trong một loạt các lĩnh vực, từ hình ảnh y tế đến phân tích bán lẻ. Bất kỳ ứng dụng nào dựa vào thị giác máy tính đều có khả năng hưởng lợi từ việc tăng cường dữ liệu hình ảnh.

Những điều cần nhớ

Các hệ thống Vision AI cần có khả năng nhận diện vật thể trong các điều kiện khác nhau, nhưng việc thu thập vô số hình ảnh thực tế để huấn luyện có thể gặp khó khăn. Tăng cường dữ liệu hình ảnh giải quyết vấn đề này bằng cách tạo ra các biến thể của hình ảnh hiện có, giúp mô hình học nhanh hơn và hoạt động tốt hơn trong các tình huống thực tế. Nó cải thiện độ chính xác, đảm bảo các mô hình Vision AI như YOLO11 có thể xử lý các điều kiện ánh sáng, góc độ và môi trường khác nhau.

Đối với các doanh nghiệp và nhà phát triển, việc tăng cường dữ liệu hình ảnh giúp tiết kiệm thời gian và công sức, đồng thời làm cho các mô hình thị giác máy tính trở nên đáng tin cậy hơn. Từ chăm sóc sức khỏe đến xe tự lái, nhiều ngành công nghiệp phụ thuộc vào nó. Khi Vision AI tiếp tục phát triển, việc tăng cường sẽ tiếp tục là một phần thiết yếu của việc xây dựng các mô hình thông minh hơn và dễ thích ứng hơn cho tương lai.

Hãy tham gia cộng đồng của chúng tôi và truy cập kho lưu trữ GitHub của chúng tôi để xem AI hoạt động. Khám phá các tùy chọn cấp phép của chúng tôi và khám phá thêm về AI trong nông nghiệpthị giác máy tính trong sản xuất trên các trang giải pháp của chúng tôi.

Hãy cùng nhau xây dựng tương lai
của AI!

Bắt đầu hành trình của bạn với tương lai của học máy

Bắt đầu miễn phí
Đã sao chép liên kết vào clipboard