Gặp gỡ YOLO26: AI tầm nhìn thế hệ tiếp theo.
Ultralytics
Hướng dẫn

Cải thiện tính mạnh mẽ của model AI với tăng cường dữ liệu

Tìm hiểu cách việc thêm các biến thể thực tế vào dữ liệu huấn luyện thông qua tăng cường dữ liệu giúp cải thiện tính mạnh mẽ của model AI và hiệu suất trong thế giới thực.

ABAbirami Vina
4 min read
Cải thiện tính mạnh mẽ của model AI với tăng cường dữ liệu

Kiểm thử là một phần quan trọng trong việc xây dựng bất kỳ giải pháp công nghệ nào. Nó cho các đội ngũ biết hệ thống thực sự hoạt động như thế nào trước khi triển khai thực tế và cho phép họ khắc phục sự cố từ sớm. Điều này đúng trong nhiều lĩnh vực, bao gồm cả AI, nơi các model được kỳ vọng sẽ xử lý những điều kiện khó đoán trong thế giới thực sau khi được triển khai.

Ví dụ, computer vision là một nhánh của AI giúp máy móc hiểu hình ảnh và video. Các model computer vision như Ultralytics YOLO26 hỗ trợ các tác vụ như nhận diện đối tượng, phân đoạn thực thể (instance segmentation) và phân loại hình ảnh.

Chúng có thể được sử dụng trong nhiều ngành công nghiệp cho các ứng dụng như giám sát bệnh nhân, phân tích giao thông, thanh toán tự động và kiểm tra chất lượng trong sản xuất. Tuy nhiên, ngay cả với các model tiên tiến và dữ liệu huấn luyện chất lượng cao, các giải pháp vision AI vẫn có thể gặp khó khăn khi đối mặt với những biến đổi thực tế như thay đổi ánh sáng, chuyển động hoặc các đối tượng bị che khuất một phần.

Điều này xảy ra vì các model học hỏi từ những ví dụ được cung cấp trong quá trình huấn luyện. Nếu chúng chưa từng thấy các điều kiện như lóa sáng, nhòe do chuyển động hoặc tầm nhìn bị hạn chế trước đó, chúng sẽ ít có khả năng nhận diện đối tượng chính xác trong những tình huống đó.

Một cách để cải thiện tính mạnh mẽ của model là thông qua data augmentation. Thay vì thu thập lượng lớn dữ liệu mới, các kỹ sư có thể thực hiện những thay đổi nhỏ nhưng ý nghĩa đối với hình ảnh hiện có, chẳng hạn như điều chỉnh ánh sáng, cắt xén (cropping) hoặc trộn hình ảnh. Điều này giúp model học cách nhận diện các đối tượng tương tự trên phạm vi tình huống rộng hơn.

Trong bài viết này, chúng ta sẽ khám phá cách data augmentation nâng cao tính mạnh mẽ của model và độ tin cậy của các hệ thống vision AI khi được triển khai ngoài môi trường kiểm soát. Hãy cùng bắt đầu!

Link to this sectionCách kiểm tra tính mạnh mẽ của một model#

Trước khi đi sâu vào data augmentation, hãy thảo luận về cách nhận biết liệu một computer vision model đã thực sự sẵn sàng cho việc sử dụng trong thế giới thực hay chưa.

Một model mạnh mẽ sẽ tiếp tục hoạt động tốt ngay cả khi điều kiện thay đổi, thay vì chỉ hoạt động trên các hình ảnh sạch và được gán nhãn hoàn hảo. Dưới đây là một số yếu tố thực tiễn cần xem xét khi đánh giá tính mạnh mẽ của model AI:

  • Thay đổi ánh sáng: Các model có thể hoạt động khác nhau khi tiếp xúc với ánh sáng mạnh, ánh sáng yếu, lóa sáng hoặc bóng đổ, điều này có thể ảnh hưởng đến độ tự tin khi nhận diện đối tượng.
  • Che khuất một phần (Partial occlusion): Trong các khung cảnh hàng ngày, các đối tượng thường bị chặn bởi những vật khác hoặc chỉ hiển thị một phần. Một model mạnh mẽ hơn sẽ có thể nhận diện được chúng ngay cả khi thông tin hình ảnh bị thiếu hụt.
  • Khung cảnh đông đúc: Các môi trường có nhiều đối tượng chồng lấn có thể làm việc nhận diện trở nên thách thức hơn. Các model hoạt động tốt trong những trường hợp này thường đáng tin cậy hơn trong các bối cảnh phức tạp.

Kết quả tốt trên các hình ảnh sạch, được chụp hoàn hảo không phải lúc nào cũng chuyển đổi thành hiệu suất mạnh mẽ trong thế giới thực. Việc kiểm thử thường xuyên qua các điều kiện đa dạng giúp thể hiện mức độ bền bỉ của model khi được triển khai.

Link to this sectionData augmentation là gì?#

Cách một đối tượng xuất hiện trong ảnh có thể thay đổi tùy thuộc vào ánh sáng, góc độ, khoảng cách hoặc nền. Khi một computer vision model được huấn luyện, tập dữ liệu mà nó học cần phải bao gồm loại biến thể này để nó có thể hoạt động tốt trong các môi trường không thể đoán trước.

Data augmentation mở rộng tập dữ liệu huấn luyện bằng cách tạo ra các ví dụ bổ sung từ những hình ảnh bạn đã có. Điều này được thực hiện bằng cách áp dụng các thay đổi có chủ đích như xoay hoặc lật hình ảnh, điều chỉnh độ sáng hoặc cắt một phần của ảnh.

Ví dụ, hãy tưởng tượng bạn chỉ có một bức ảnh con mèo. Nếu bạn xoay ảnh hoặc thay đổi độ sáng, bạn có thể tạo ra vài phiên bản mới từ bức ảnh duy nhất đó. Mỗi phiên bản trông hơi khác biệt, nhưng nó vẫn là ảnh của cùng một con mèo. Những biến thể này giúp dạy cho model rằng một đối tượng có thể trông khác đi nhưng vẫn là cùng một sự vật.

Hình ảnh minh họa quá trình tăng cường dữ liệu cho ảnh mèo

Hình 1. Cái nhìn về việc tăng cường hình ảnh một con mèo (Nguồn)

Link to this sectionCách data augmentation cải thiện hiệu suất model#

Trong quá trình huấn luyện model, data augmentation có thể được tích hợp trực tiếp vào pipeline huấn luyện. Thay vì tạo và lưu trữ thủ công các bản sao hình ảnh mới, các phép biến đổi ngẫu nhiên có thể được áp dụng mỗi khi hình ảnh được tải.

Điều này có nghĩa là model nhìn thấy một phiên bản hơi khác của hình ảnh mỗi lần, cho dù nó trông sáng hơn, bị lật hay bị ẩn một phần. Các kỹ thuật như xóa ngẫu nhiên (random erasing) thậm chí có thể loại bỏ các vùng nhỏ của hình ảnh để mô phỏng các tình huống thực tế nơi một đối tượng bị chặn hoặc chỉ hiển thị một phần.

Ví dụ về kỹ thuật tăng cường dữ liệu bằng cách xóa ngẫu nhiên

Hình 2. Ví dụ về tăng cường dựa trên xóa ngẫu nhiên (Nguồn)

Việc nhìn thấy nhiều phiên bản khác nhau của cùng một hình ảnh giúp model học được những đặc điểm nào là quan trọng, thay vì chỉ phụ thuộc vào một ví dụ hoàn hảo. Sự đa dạng này xây dựng tính mạnh mẽ cho model AI để nó có thể hoạt động đáng tin cậy hơn trong các điều kiện thực tế.

Link to this sectionCác kỹ thuật data augmentation phổ biến#

Dưới đây là một số kỹ thuật data augmentation được sử dụng để đưa sự biến đổi vào các hình ảnh huấn luyện:

  • Biến đổi hình học (Geometric transformations): Các kỹ thuật này thay đổi cách một đối tượng xuất hiện không gian trong một hình ảnh. Xoay, lật, thay đổi kích thước, cắt hoặc dịch chuyển hình ảnh giúp model hiểu cách một đối tượng có thể được nhìn từ các góc độ hoặc khoảng cách khác nhau.
  • Điều chỉnh màu sắc và ánh sáng: Ánh sáng trong thế giới thực hiếm khi nhất quán. Hình ảnh có thể quá sáng, quá tối hoặc hơi lệch màu tùy thuộc vào môi trường hoặc máy ảnh được sử dụng. Điều chỉnh độ sáng, độ tương phản, tông màu và độ bão hòa cho phép các model xử lý những thay đổi thị giác này và hoạt động tốt trên các khung cảnh khác nhau.
  • Biến đổi chất lượng hình ảnh: Nhòe hoặc nhiễu hình ảnh có thể làm cho hình ảnh trông không rõ ràng. Thêm độ nhòe hoặc nhiễu trong quá trình huấn luyện giúp model học cách đối phó với hiện tượng nhòe do chuyển động, hình ảnh thiếu sáng hoặc kết quả từ camera chất lượng thấp, nhờ đó nó trở nên ít nhạy cảm hơn với các hình ảnh không hoàn hảo.
  • Tăng cường dựa trên sự che khuất (Occlusion-based augmentations): Trong môi trường thực tế, các đối tượng thường bị chặn một phần bởi các đối tượng khác. Đây được gọi là sự che khuất hình ảnh. Việc ẩn hoặc che đi các vùng nhỏ của hình ảnh trong quá trình huấn luyện hỗ trợ model học cách nhận diện đối tượng ngay cả khi chỉ một phần của chúng hiển thị.
  • Tăng cường đa hình ảnh: Các kỹ thuật này kết hợp các phần của nhiều hình ảnh thành một ví dụ huấn luyện duy nhất, điều này có thể làm tăng số lượng đối tượng trong tầm nhìn và cải thiện khả năng xử lý các khung cảnh phức tạp hoặc đông đúc của model.

Ví dụ về kỹ thuật tăng cường dữ liệu kết hợp nhiều ảnh

Hình 3. Ví dụ về tăng cường đa hình ảnh (Nguồn)

Link to this sectionData augmentation trở nên dễ dàng với gói Ultralytics Python#

Việc quản lý tập dữ liệu, tạo các biến thể hình ảnh và viết mã biến đổi có thể thêm các bước phụ vào việc xây dựng ứng dụng computer vision. Ultralytics Python package giúp đơn giản hóa việc này bằng cách cung cấp một giao diện duy nhất để huấn luyện, vận hành và triển khai các model Ultralytics YOLO như YOLO26. Là một phần của nỗ lực hợp lý hóa các luồng công việc huấn luyện, gói này bao gồm tính năng data augmentation tích hợp sẵn, đã được Ultralytics kiểm thử và tối ưu hóa cho các model YOLO.

Nó cũng hỗ trợ các tích hợp hữu ích giúp loại bỏ nhu cầu sử dụng các công cụ riêng biệt hoặc mã tùy chỉnh. Cụ thể, đối với data augmentation, gói này tích hợp với Albumentations, một thư viện tăng cường hình ảnh được sử dụng rộng rãi. Tích hợp này cho phép các kỹ thuật tăng cường được áp dụng tự động trong quá trình huấn luyện mà không cần thêm các tập lệnh hoặc mã tùy chỉnh.

Link to this sectionQuản lý chú thích (annotation) và tập dữ liệu tăng cường#

Một yếu tố khác ảnh hưởng đến tính mạnh mẽ của model là chất lượng annotation. Các nhãn sạch, chính xác, được tạo và quản lý bằng các công cụ annotation như Roboflow, giúp model hiểu đối tượng nằm ở đâu và chúng trông như thế nào.

Trong quá trình huấn luyện, các kỹ thuật data augmentation như lật, cắt và xoay được áp dụng linh hoạt, và các annotation cũng được điều chỉnh tự động để phù hợp với những thay đổi này. Khi các nhãn chính xác, quy trình này hoạt động trơn tru và cung cấp cho model nhiều ví dụ thực tế về cùng một khung cảnh.

Nếu các annotation không chính xác hoặc không nhất quán, những lỗi đó có thể bị lặp lại trên các hình ảnh đã tăng cường, điều này có thể làm cho việc huấn luyện kém hiệu quả. Bắt đầu với các annotation chính xác giúp ngăn chặn những lỗi này lan rộng và góp phần tạo ra tính mạnh mẽ tốt hơn cho model.

Link to this sectionNâng cao các ứng dụng vision AI với data augmentation#

Tiếp theo, hãy cùng xem qua các ví dụ về cách data augmentation đóng góp vào tính mạnh mẽ của model AI trong các ứng dụng thực tế.

Link to this sectionThúc đẩy độ chính xác nhận diện đối tượng trong môi trường thực#

Hình ảnh tổng hợp (synthetic images) thường được sử dụng để huấn luyện các hệ thống object detection khi dữ liệu thực tế bị hạn chế, nhạy cảm hoặc khó thu thập. Chúng cho phép các đội ngũ tạo ra các ví dụ về sản phẩm, môi trường và góc máy ảnh một cách nhanh chóng mà không cần phải ghi lại mọi kịch bản trong đời thực.

Tuy nhiên, các tập dữ liệu tổng hợp đôi khi có thể trông quá sạch so với cảnh quay thực tế, nơi ánh sáng thay đổi, các đối tượng chồng lấn và các cảnh bao gồm nhiều vật thể gây nhiễu nền. Data augmentation giúp thu hẹp khoảng cách này bằng cách đưa vào các biến thể thực tế, chẳng hạn như ánh sáng khác nhau, nhiễu hoặc vị trí đối tượng, để model học cách xử lý các loại điều kiện mà nó sẽ gặp phải khi triển khai.

Ví dụ, trong một nghiên cứu gần đây, một model YOLO11 đã được huấn luyện hoàn toàn trên synthetic images, và data augmentation đã được thêm vào để tạo ra sự biến đổi bổ sung. Điều này đóng một vai trò quan trọng trong việc giúp model học cách nhận diện đối tượng rộng rãi hơn. Nó hoạt động tốt khi được kiểm thử trên hình ảnh thực, mặc dù nó chưa từng thấy dữ liệu thực tế nào trong quá trình huấn luyện.

Link to this sectionLàm cho các giải pháp chẩn đoán hình ảnh y tế đáng tin cậy hơn#

Các tập dữ liệu chẩn đoán hình ảnh y tế thường bị hạn chế, và bản thân các kết quả quét có thể thay đổi dựa trên loại thiết bị, cài đặt hình ảnh hoặc môi trường lâm sàng. Sự khác biệt về giải phẫu bệnh nhân, góc độ, ánh sáng hoặc nhiễu thị giác có thể gây khó khăn cho các computer vision model trong việc học các mẫu có khả năng tổng quát hóa tốt trên các bệnh nhân và bệnh viện khác nhau.

Data augmentation giúp giải quyết vấn đề này bằng cách tạo ra nhiều biến thể của cùng một kết quả quét trong quá trình huấn luyện, chẳng hạn như thêm nhiễu, dịch chuyển hình ảnh nhẹ hoặc áp dụng các biến dạng nhỏ. Những thay đổi này làm cho dữ liệu huấn luyện trở nên đại diện hơn cho các điều kiện lâm sàng thực tế.

Ví dụ, trong một nghiên cứu về pediatric imaging, các nhà nghiên cứu đã sử dụng YOLO11 để phân đoạn giải phẫu và huấn luyện nó trên dữ liệu y tế đã qua tăng cường. Họ đã đưa vào các biến thể như thêm nhiễu, dịch chuyển vị trí nhẹ và các biến dạng nhỏ để làm cho hình ảnh chân thực hơn.

Ảnh y tế nhi khoa gốc và đã được tăng cường

Hình 4. Hình ảnh y tế nhi khoa gốc và đã tăng cường (Nguồn)

Bằng cách học từ những biến thể này, model đã tập trung vào các đặc điểm giải phẫu có ý nghĩa thay vì các khác biệt ở mức bề mặt. Điều này làm cho kết quả phân đoạn của nó ổn định hơn trên các kết quả quét và trường hợp bệnh nhân khác nhau.

Link to this sectionCác điểm chính cần lưu ý#

Việc thu thập dữ liệu đa dạng rất khó khăn, nhưng data augmentation cho phép các model học hỏi từ phạm vi điều kiện hình ảnh rộng hơn. Điều này dẫn đến tính mạnh mẽ của model cao hơn khi xử lý các trường hợp bị che khuất, thay đổi ánh sáng và khung cảnh đông đúc. Nhìn chung, điều này giúp chúng hoạt động đáng tin cậy hơn bên ngoài các môi trường huấn luyện được kiểm soát.

Tham gia cộng đồng của chúng tôi và khám phá những tiến bộ mới nhất trong vision AI trên GitHub repository. Truy cập các trang giải pháp của chúng tôi để tìm hiểu cách các ứng dụng như AI in manufacturingcomputer vision in healthcare đang thúc đẩy sự tiến bộ, và xem các tùy chọn cấp phép của chúng tôi để tăng cường sức mạnh cho giải pháp AI tiếp theo của bạn.

Explore solutions

Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm

Hãy cùng nhau xây dựng tương lai của AI!

Bắt đầu hành trình của bạn với tương lai của machine learning