Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay

Nâng cao độ bền vững của mô hình AI bằng cách tăng cường dữ liệu.

Hãy tìm hiểu cách việc bổ sung các biến thể thực tế vào dữ liệu huấn luyện thông qua tăng cường dữ liệu giúp cải thiện độ bền vững và hiệu suất thực tế của mô hình AI.

Kiểm thử là một phần quan trọng trong việc xây dựng bất kỳ giải pháp công nghệ nào. Nó cho các nhóm thấy hệ thống hoạt động như thế nào trên thực tế trước khi đưa vào sử dụng và cho phép họ khắc phục sự cố sớm. Điều này đúng trong nhiều lĩnh vực, bao gồm cả trí tuệ nhân tạo (AI), nơi các mô hình được kỳ vọng sẽ xử lý các điều kiện thực tế không thể đoán trước được sau khi được triển khai.

Ví dụ, thị giác máy tính là một nhánh của trí tuệ nhân tạo dạy máy móc hiểu hình ảnh và video. Các mô hình thị giác máy tính như Ultralytics YOLO26 hỗ trợ các tác vụ như phát hiện đối tượng, phân đoạn đối tượng và phân loại hình ảnh.

Chúng có thể được sử dụng trong nhiều ngành công nghiệp cho các ứng dụng như theo dõi bệnh nhân, phân tích giao thông, thanh toán tự động và kiểm tra chất lượng trong sản xuất. Tuy nhiên, ngay cả với các mô hình tiên tiến và dữ liệu huấn luyện chất lượng cao, các giải pháp Trí tuệ nhân tạo thị giác vẫn có thể gặp khó khăn khi đối mặt với các biến thể trong thế giới thực như ánh sáng thay đổi, chuyển động hoặc vật thể bị che khuất một phần.

Điều này xảy ra vì các mô hình học hỏi từ các ví dụ được cung cấp trong quá trình huấn luyện. Nếu chúng chưa từng gặp các điều kiện như chói sáng, nhòe chuyển động hoặc tầm nhìn hạn chế trước đó, chúng sẽ ít có khả năng nhận dạng đối tượng chính xác trong những tình huống đó.

Một cách để cải thiện độ bền vững của mô hình là thông qua việc tăng cường dữ liệu . Thay vì thu thập một lượng lớn dữ liệu mới, các kỹ sư có thể thực hiện những thay đổi nhỏ và có ý nghĩa đối với các hình ảnh hiện có, chẳng hạn như điều chỉnh ánh sáng, cắt xén hoặc trộn lẫn hình ảnh. Điều này giúp mô hình học cách nhận dạng cùng một đối tượng trong nhiều tình huống khác nhau.

Trong bài viết này, chúng ta sẽ khám phá cách tăng cường dữ liệu giúp nâng cao tính ổn định và độ tin cậy của hệ thống Trí tuệ nhân tạo thị giác khi được triển khai ngoài môi trường được kiểm soát. Bắt đầu nào!

Làm thế nào để kiểm tra tính ổn định của một mô hình?

Trước khi đi sâu vào vấn đề tăng cường dữ liệu, chúng ta hãy cùng thảo luận về cách xác định xem một mô hình thị giác máy tính đã thực sự sẵn sàng để sử dụng trong thực tế hay chưa. 

Một mô hình mạnh mẽ sẽ tiếp tục hoạt động tốt ngay cả khi điều kiện thay đổi, chứ không chỉ hoạt động hiệu quả trên các hình ảnh sạch, được gắn nhãn hoàn hảo. Dưới đây là một số yếu tố thực tế cần xem xét khi đánh giá độ mạnh mẽ của mô hình AI:

  • Thay đổi ánh sáng: Mô hình có thể hoạt động khác nhau khi tiếp xúc với ánh sáng mạnh, ánh sáng yếu, ánh sáng chói hoặc bóng tối, điều này có thể ảnh hưởng đến độ chính xác khi phát hiện vật thể.
  • Che khuất một phần: Trong các cảnh sinh hoạt hàng ngày, các vật thể thường bị che khuất bởi các vật khác hoặc chỉ hiển thị một phần. Một mô hình mạnh mẽ hơn có khả năng nhận diện chúng ngay cả khi thiếu thông tin hình ảnh.
  • Môi trường đông đúc: Môi trường có nhiều vật thể chồng chéo có thể khiến việc phát hiện trở nên khó khăn hơn. Các mô hình hoạt động tốt trong những trường hợp này thường đáng tin cậy hơn trong các môi trường phức tạp.

Kết quả tốt trên những hình ảnh sạch, được chụp hoàn hảo không phải lúc nào cũng phản ánh hiệu suất mạnh mẽ trong thực tế. Việc thử nghiệm thường xuyên trong nhiều điều kiện khác nhau giúp chứng minh mô hình hoạt động tốt như thế nào sau khi được triển khai.

Tăng cường dữ liệu là gì?

Hình ảnh của một vật thể trong ảnh có thể thay đổi tùy thuộc vào ánh sáng, góc chụp, khoảng cách hoặc phông nền. Khi huấn luyện một mô hình thị giác máy tính, tập dữ liệu mà nó sử dụng để học cần phải bao gồm sự biến đổi này để nó có thể hoạt động tốt trong môi trường không thể dự đoán được.

Tăng cường dữ liệu mở rộng tập dữ liệu huấn luyện bằng cách tạo thêm các ví dụ từ những hình ảnh bạn đã có. Điều này được thực hiện bằng cách áp dụng các thay đổi có chủ đích như xoay hoặc lật hình ảnh, điều chỉnh độ sáng hoặc cắt một phần của hình ảnh. 

Ví dụ, hãy tưởng tượng bạn chỉ có một bức ảnh con mèo. Nếu bạn xoay ảnh hoặc thay đổi độ sáng, bạn có thể tạo ra nhiều phiên bản mới từ bức ảnh duy nhất đó. Mỗi phiên bản trông hơi khác nhau, nhưng vẫn là ảnh của cùng một con mèo. Những biến thể này giúp dạy cho mô hình rằng một vật thể có thể trông khác nhau nhưng vẫn là cùng một thứ.

Hình 1. Một cái nhìn về việc tăng cường độ tương phản cho hình ảnh một con mèo ( Nguồn )

Làm thế nào việc tăng cường dữ liệu giúp cải thiện hiệu suất mô hình?

Trong quá trình huấn luyện mô hình, việc tăng cường dữ liệu có thể được tích hợp trực tiếp vào quy trình huấn luyện. Thay vì tạo và lưu trữ thủ công các bản sao mới của hình ảnh, các phép biến đổi ngẫu nhiên có thể được áp dụng khi mỗi hình ảnh được tải. 

Điều này có nghĩa là mô hình sẽ nhìn thấy một phiên bản hình ảnh hơi khác nhau mỗi lần, cho dù nó sáng hơn, bị lật ngược hay bị che khuất một phần. Các kỹ thuật như xóa ngẫu nhiên thậm chí có thể loại bỏ các vùng nhỏ của hình ảnh để mô phỏng các tình huống thực tế khi một đối tượng bị che khuất hoặc chỉ hiển thị một phần.

Hình 2. Ví dụ về tăng cường dữ liệu dựa trên việc xóa ngẫu nhiên ( Nguồn )

Việc xem nhiều phiên bản khác nhau của cùng một hình ảnh cho phép mô hình học được những đặc điểm nào là quan trọng, thay vì chỉ dựa vào một ví dụ hoàn hảo duy nhất. Sự đa dạng này xây dựng tính mạnh mẽ của mô hình AI, giúp nó hoạt động đáng tin cậy hơn trong các điều kiện thực tế.

Các kỹ thuật tăng cường dữ liệu phổ biến

Dưới đây là một số kỹ thuật tăng cường dữ liệu được sử dụng để tạo sự đa dạng cho ảnh huấn luyện:

  • Biến đổi hình học: Các kỹ thuật này thay đổi cách một đối tượng xuất hiện trong không gian của một hình ảnh. Xoay, lật, thay đổi kích thước, cắt xén hoặc dịch chuyển hình ảnh cho phép mô hình hiểu được cách một đối tượng có thể được nhìn từ các góc độ hoặc khoảng cách khác nhau.
  • Điều chỉnh màu sắc và ánh sáng: Ánh sáng trong thế giới thực hiếm khi nhất quán. Hình ảnh có thể quá sáng, quá tối hoặc hơi lệch màu, tùy thuộc vào môi trường hoặc máy ảnh được sử dụng. Việc điều chỉnh độ sáng, độ tương phản, sắc độ và độ bão hòa cho phép các mô hình xử lý những thay đổi hình ảnh này và hoạt động tốt trong các bối cảnh khác nhau.
  • Các biến thể về chất lượng hình ảnh: Hiện tượng mờ hoặc nhiễu hình ảnh có thể làm cho hình ảnh trông không rõ nét. Việc thêm hiện tượng mờ hoặc nhiễu trong quá trình huấn luyện giúp mô hình học cách xử lý hiện tượng mờ do chuyển động, hình ảnh thiếu sáng hoặc kết quả chụp ảnh chất lượng thấp hơn, do đó nó trở nên ít nhạy cảm hơn với hình ảnh không hoàn hảo.
  • Tăng cường dữ liệu dựa trên sự che khuất: Trong môi trường thực tế, các đối tượng thường bị che khuất một phần bởi các đối tượng khác. Điều này được gọi là hiện tượng che khuất hình ảnh. Việc ẩn hoặc che phủ các vùng nhỏ của hình ảnh trong quá trình huấn luyện hỗ trợ mô hình học cách nhận biết và xử lý các vùng bị che khuất. detect các vật thể ngay cả khi chỉ một phần của chúng được nhìn thấy.
  • Tăng cường dữ liệu đa ảnh: Các kỹ thuật này kết hợp các phần của nhiều hình ảnh thành một ví dụ huấn luyện duy nhất, có thể làm tăng số lượng đối tượng hiển thị và cải thiện khả năng xử lý các cảnh phức tạp hoặc đông đúc của mô hình.
Hình 3. Một ví dụ về tăng cường dữ liệu đa ảnh ( Nguồn )

Việc tăng cường dữ liệu trở nên dễ dàng hơn với Ultralytics Python bưu kiện

Quản lý tập dữ liệu, tạo các biến thể hình ảnh và viết mã chuyển đổi có thể làm tăng thêm các bước trong việc xây dựng ứng dụng thị giác máy tính. Gói Python Ultralytics giúp đơn giản hóa điều này bằng cách cung cấp một giao diện duy nhất để huấn luyện, chạy và triển khai. Ultralytics YOLO các mô hình như YOLO26. Là một phần trong nỗ lực nhằm tối ưu hóa quy trình đào tạo, gói phần mềm này bao gồm các tính năng tích hợp sẵn, Ultralytics - Phương pháp tăng cường dữ liệu đã được kiểm thử và tối ưu hóa cho YOLO mô hình.

Nó cũng hỗ trợ các tích hợp hữu ích giúp loại bỏ nhu cầu sử dụng các công cụ riêng biệt hoặc mã tùy chỉnh. Cụ thể, đối với việc tăng cường dữ liệu, gói này tích hợp với Albumentations , một thư viện tăng cường hình ảnh được sử dụng rộng rãi. Sự tích hợp này cho phép áp dụng các phép tăng cường tự động trong quá trình huấn luyện, mà không cần thêm tập lệnh hoặc mã tùy chỉnh.

Quản lý chú thích và tập dữ liệu được tăng cường

Một yếu tố khác ảnh hưởng đến độ bền vững của mô hình là chất lượng chú thích . Nhãn sạch, chính xác, được tạo và quản lý bằng các công cụ chú thích như... Roboflow Giúp mô hình hiểu được vị trí và hình dạng của các đối tượng.

Trong quá trình huấn luyện, các kỹ thuật tăng cường dữ liệu như lật, cắt xén và xoay được áp dụng động, và các chú thích được tự động điều chỉnh để phù hợp với những thay đổi này. Khi nhãn chính xác, quá trình này diễn ra suôn sẻ và cung cấp cho mô hình nhiều ví dụ thực tế về cùng một cảnh.

Nếu chú thích không chính xác hoặc không nhất quán, những lỗi đó có thể lặp lại trên nhiều hình ảnh được tăng cường, làm giảm hiệu quả huấn luyện. Bắt đầu với chú thích chính xác sẽ ngăn chặn sự lan rộng của những lỗi này và góp phần tăng cường tính ổn định của mô hình.

Nâng cao ứng dụng Trí tuệ nhân tạo thị giác bằng cách tăng cường dữ liệu.

Tiếp theo, chúng ta hãy cùng xem xét các ví dụ về cách tăng cường dữ liệu góp phần vào tính ổn định của mô hình AI trong các ứng dụng thực tế.

Nâng cao độ chính xác phát hiện đối tượng trong môi trường thực tế.

Ảnh tổng hợp thường được sử dụng để huấn luyện các hệ thống phát hiện đối tượng khi dữ liệu thực tế bị hạn chế, nhạy cảm hoặc khó thu thập. Chúng cho phép các nhóm nhanh chóng tạo ra các ví dụ về sản phẩm, môi trường và góc máy quay mà không cần phải thu thập mọi tình huống trong thực tế. 

Tuy nhiên, các tập dữ liệu tổng hợp đôi khi trông quá sạch sẽ so với cảnh quay thực tế, nơi ánh sáng thay đổi, các đối tượng chồng chéo lên nhau và cảnh có nhiều chi tiết thừa ở hậu cảnh. Kỹ thuật tăng cường dữ liệu giúp thu hẹp khoảng cách này bằng cách đưa vào các biến thể thực tế, chẳng hạn như ánh sáng, nhiễu hoặc vị trí đối tượng khác nhau, để mô hình học cách xử lý các loại điều kiện mà nó sẽ gặp phải khi được triển khai.

Ví dụ, trong một nghiên cứu gần đây, một YOLO11 Mô hình được huấn luyện hoàn toàn trên ảnh tổng hợp , và kỹ thuật tăng cường dữ liệu được thêm vào để tạo thêm sự đa dạng. Điều này đóng vai trò quan trọng trong việc giúp mô hình học cách nhận dạng đối tượng một cách toàn diện hơn. Nó hoạt động tốt khi được kiểm tra trên ảnh thực, mặc dù chưa từng được tiếp xúc với dữ liệu thực tế trong quá trình huấn luyện.

Giúp các giải pháp hình ảnh y tế trở nên đáng tin cậy hơn

Các bộ dữ liệu hình ảnh y tế thường bị hạn chế, và bản thân các hình ảnh quét có thể khác nhau tùy thuộc vào loại thiết bị, cài đặt hình ảnh hoặc môi trường lâm sàng. Sự khác biệt về giải phẫu bệnh nhân, góc chụp, ánh sáng hoặc nhiễu hình ảnh có thể gây khó khăn cho các mô hình thị giác máy tính trong việc học các mẫu có thể khái quát hóa tốt trên nhiều bệnh nhân và bệnh viện.

Tăng cường dữ liệu giúp giải quyết vấn đề này bằng cách tạo ra nhiều biến thể của cùng một ảnh quét trong quá trình huấn luyện, chẳng hạn như thêm nhiễu, dịch chuyển nhẹ hình ảnh hoặc áp dụng các biến dạng nhỏ. Những thay đổi này làm cho dữ liệu huấn luyện có cảm giác gần gũi hơn với các điều kiện lâm sàng thực tế.

Ví dụ, trong một nghiên cứu hình ảnh nhi khoa , các nhà nghiên cứu đã sử dụng YOLO11 Họ đã sử dụng thuật toán phân đoạn giải phẫu và huấn luyện nó trên dữ liệu y tế được tăng cường. Họ đã đưa ra các biến thể như thêm nhiễu, dịch chuyển vị trí nhẹ và các biến dạng nhỏ để làm cho hình ảnh chân thực hơn.

Hình 4. Hình ảnh y tế nhi khoa gốc và được tăng cường ( Nguồn )

Bằng cách học hỏi từ những biến thể này, mô hình tập trung vào các đặc điểm giải phẫu có ý nghĩa thay vì những khác biệt bề ngoài. Điều này giúp kết quả phân đoạn ổn định hơn trên các lần quét và trường hợp bệnh nhân khác nhau.

Những điều cần nhớ

Việc thu thập dữ liệu đa dạng rất khó khăn, nhưng kỹ thuật tăng cường dữ liệu cho phép các mô hình học hỏi từ nhiều điều kiện hình ảnh khác nhau. Điều này giúp mô hình mạnh mẽ hơn khi xử lý các trường hợp bị che khuất, thay đổi ánh sáng và các cảnh đông đúc. Nhìn chung, điều này giúp chúng hoạt động đáng tin cậy hơn ngoài môi trường huấn luyện được kiểm soát. 

Tham gia cộng đồng của chúng tôi và khám phá những thông tin mới nhất về Vision AI trên kho lưu trữ GitHub . Truy cập trang giải pháp của chúng tôi để tìm hiểu cách các ứng dụng như AI trong sản xuấtthị giác máy tính trong chăm sóc sức khỏe đang thúc đẩy sự tiến bộ, đồng thời xem xét các tùy chọn cấp phép của chúng tôi để hỗ trợ giải pháp AI tiếp theo của bạn.

Hãy cùng nhau xây dựng tương lai
của AI!

Bắt đầu hành trình của bạn với tương lai của học máy

Bắt đầu miễn phí