Bằng cách nhấp vào “Chấp nhận tất cả Cookie”, bạn đồng ý với việc lưu trữ cookie trên thiết bị của mình để tăng cường khả năng điều hướng trang web, phân tích việc sử dụng trang web và hỗ trợ các nỗ lực tiếp thị của chúng tôi. Thêm thông tin
Cài đặt Cookie
Bằng cách nhấp vào “Chấp nhận tất cả Cookie”, bạn đồng ý với việc lưu trữ cookie trên thiết bị của mình để tăng cường khả năng điều hướng trang web, phân tích việc sử dụng trang web và hỗ trợ các nỗ lực tiếp thị của chúng tôi. Thêm thông tin
Tìm hiểu cách sai lệch dữ liệu ảnh hưởng đến các mô hình computer vision và cách Ultralytics YOLO11 giúp giảm sai lệch bằng cách tăng cường thông minh và các công cụ đào tạo linh hoạt.
Các mô hình trí tuệ nhân tạo (AI) đang thay đổi cách chúng ta giải quyết vấn đề, nhưng chúng không hoàn hảo. Từ xe tự lái đến các công cụ chẩn đoán trong chăm sóc sức khỏe, chúng ta dựa vào AI để diễn giải dữ liệu và đưa ra quyết định. Điều gì xảy ra khi bản thân dữ liệu có sai sót?
Sai lệch trong AI đề cập đến các mẫu không nhất quán phát triển trong các mô hình, thường là không ai nhận ra. Những sai lệch này có thể khiến các mô hình đưa ra các dự đoán không chính xác, không nhất quán hoặc thậm chí gây hại. Trong computer vision, sai lệch thường bắt nguồn từ một nguồn chính: bộ dữ liệu. Nếu dữ liệu được sử dụng để đào tạo mô hình không cân bằng hoặc không đại diện, mô hình sẽ phản ánh những thiếu sót đó.
Hãy xem xét kỹ hơn cách sai lệch dữ liệu hình thành, cách nó tác động đến các mô hình computer vision và các bước mà các nhà phát triển có thể thực hiện để phát hiện và ngăn chặn nó. Chúng tôi cũng sẽ chỉ ra cách các mô hình như Ultralytics YOLO11 có thể hỗ trợ các nỗ lực xây dựng các hệ thống AI công bằng hơn, khái quát hóa tốt hơn, có nghĩa là chúng hoạt động tốt trên dữ liệu mới, chưa từng thấy và phục vụ mọi người bình đẳng hơn.
Thiên vị AI là gì và tại sao nó lại quan trọng?
Độ lệch AI đề cập đến các lỗi nhất quán trong một hệ thống AI dẫn đến kết quả sai lệch hoặc không chính xác. Nói một cách đơn giản, mô hình bắt đầu ưu tiên một loại đầu vào trực quan hơn những loại khác, điều này ảnh hưởng đến tính công bằng của mô hình, không phải vì nó hoạt động tốt hơn mà là do cách nó được huấn luyện.
Điều này đặc biệt phổ biến trong thị giác máy tính, nơi các mô hình học hỏi từ dữ liệu trực quan. Nếu một tập dữ liệu chủ yếu bao gồm một loại đối tượng, cảnh hoặc người, mô hình sẽ học các mẫu chỉ hoạt động tốt cho những trường hợp đó.
Hãy tưởng tượng một mô hình được huấn luyện chủ yếu trên hình ảnh giao thông từ các thành phố lớn. Nếu được triển khai ở khu vực nông thôn, nó có thể phân loại sai bố cục đường không quen thuộc hoặc không phát hiện được các loại xe mà nó chưa từng thấy trước đây. Đó là thiên vị AI trong thực tế. Nó dẫn đến độ chính xác thấp hơn và khả năng khái quát hóa hạn chế, đề cập đến khả năng của mô hình hoạt động tốt trên các đầu vào mới hoặc đa dạng.
Trong các ứng dụng mà độ chính xác là yếu tố cần thiết, như chăm sóc sức khỏe hoặc an ninh, những sai sót này không chỉ gây khó chịu mà còn có thể nguy hiểm. Giải quyết vấn đề thiên vị là về hiệu suất, độ tin cậy và an toàn.
Ảnh hưởng của thiên vị tập dữ liệu đến hành vi của mô hình
Khi chúng ta nói về thiên vị tập dữ liệu, chúng ta đề cập đến sự mất cân bằng hoặc hạn chế trong dữ liệu được sử dụng để huấn luyện mô hình. Thiên vị tập dữ liệu xảy ra khi dữ liệu huấn luyện không phản ánh đầy đủ sự đa dạng của thế giới thực mà nó được dùng để mô hình hóa.
Các mô hình thị giác máy tính không hiểu thế giới. Chúng hiểu các mẫu. Nếu những hình ảnh duy nhất về chó mà chúng thấy là chó golden retriever trong sân sau, chúng có thể không nhận ra một con husky trên một con đường mòn đầy tuyết.
Hình 1. Việc tái cân bằng dữ liệu nguồn giúp đạt được độ chính xác mô hình tốt hơn.
Điều này làm nổi bật một trong những thách thức chính do thiên vị tập dữ liệu gây ra. Mô hình xây dựng sự hiểu biết của nó dựa trên những gì nó được hiển thị. Nếu dữ liệu huấn luyện đó không phản ánh sự đa dạng của thế giới thực, hành vi của mô hình sẽ trở nên hẹp và kém hiệu quả hơn trong các điều kiện không quen thuộc.
Bộ phân loại hình ảnh thường hoạt động kém hơn đáng kể khi được kiểm tra trên một tập dữ liệu khác với tập dữ liệu mà chúng được huấn luyện, ngay cả khi cả hai tập dữ liệu được xây dựng cho cùng một tác vụ. Những thay đổi nhỏ về ánh sáng, hình nền hoặc góc máy ảnh có thể dẫn đến giảm độ chính xác đáng kể. Điều này cho thấy thiên vị tập dữ liệu có thể ảnh hưởng đến khả năng khái quát hóa của mô hình dễ dàng như thế nào.
Đây không phải là những trường hợp cá biệt. Chúng là những tín hiệu cho thấy quy trình dữ liệu của bạn quan trọng không kém kiến trúc mô hình của bạn.
Các loại thiên vị trong dữ liệu huấn luyện AI
Có thể thấy sự thiên vị trong quá trình phát triển một cách tinh tế, thường là trong quá trình thu thập, gắn nhãn hoặc tuyển chọn dữ liệu. Dưới đây là ba loại thiên vị chính có thể ảnh hưởng đến dữ liệu huấn luyện của bạn:
Thiên vị lựa chọn
Thiên vị lựa chọn có thể xảy ra khi tập dữ liệu không đại diện cho sự đa dạng được thấy trong sử dụng thực tế. Nếu một mô hình phát hiện người đi bộ chỉ được huấn luyện trên hình ảnh rõ ràng, ban ngày, nó sẽ không hoạt động tốt vào ban đêm hoặc trong sương mù. Do đó, quá trình lựa chọn đã bỏ lỡ các trường hợp quan trọng.
Hình 2. Một biểu diễn trực quan về thiên vị lựa chọn, trong đó chỉ một tập hợp con không đa dạng được chọn.
Sự thiên vị này xảy ra khi tập dữ liệu không nắm bắt được đầy đủ các tình huống thực tế do cách thu thập dữ liệu. Ví dụ: một mô hình phát hiện người đi bộ chỉ được huấn luyện trên hình ảnh rõ ràng, ban ngày có thể không hoạt động trong sương mù, tuyết hoặc ánh sáng yếu. Điều này thường xảy ra khi dữ liệu được thu thập trong điều kiện lý tưởng hoặc thuận tiện, hạn chế khả năng hoạt động của mô hình trong các môi trường khác nhau. Mở rộng nỗ lực thu thập để bao gồm nhiều cài đặt đa dạng hơn giúp giảm loại thiên vị này.
Nó cũng có thể phát sinh trong các tập dữ liệu được xây dựng từ các nguồn trực tuyến, nơi nội dung có thể bị lệch nặng nề về một số địa điểm, ngôn ngữ hoặc bối cảnh kinh tế xã hội nhất định. Nếu không có nỗ lực có chủ ý để đa dạng hóa tập dữ liệu, mô hình sẽ kế thừa những hạn chế này.
Thiên vị nhãn
Thiên vị nhãn xảy ra khi người chú thích áp dụng các nhãn không chính xác hoặc không nhất quán. Một nhãn sai có vẻ vô hại, nhưng nếu nó xảy ra thường xuyên, mô hình sẽ bắt đầu học các liên kết sai.
Việc gắn nhãn không nhất quán có thể gây nhầm lẫn cho mô hình trong quá trình huấn luyện, đặc biệt là trong các tác vụ phức tạp như phát hiện đối tượng. Ví dụ: một người chú thích có thể gắn nhãn một chiếc xe là "ô tô", trong khi một người khác gắn nhãn một chiếc tương tự là "xe tải". Những sự không nhất quán này ảnh hưởng đến khả năng học các mẫu đáng tin cậy của mô hình, dẫn đến giảm độ chính xác trong quá trình suy luận.
Hình 3. Thiên vị trong quy trình dữ liệu bắt nguồn từ sự mất cân bằng trong thế giới thực.
Thiên vị nhãn cũng có thể xuất hiện từ các hướng dẫn chú thích không rõ ràng hoặc các cách giải thích khác nhau về cùng một dữ liệu. Thiết lập các tiêu chuẩn gắn nhãn được ghi chép đầy đủ và thực hiện kiểm tra kiểm soát chất lượng có thể giảm đáng kể những thách thức này.
Đào tạo liên tục cho người chú thích và sử dụng gắn nhãn đồng thuận, trong đó nhiều người chú thích xem xét từng mẫu, là hai chiến lược hiệu quả để giảm thiểu thiên vị nhãn và cải thiện chất lượng tập dữ liệu.
Thiên vị do đại diện
Thiên vị do đại diện thường phản ánh những bất bình đẳng xã hội rộng lớn hơn. Dữ liệu được thu thập ở các khu vực giàu có hoặc kết nối tốt hơn có thể không nắm bắt được sự đa dạng của các quần thể hoặc môi trường ít được đại diện. Để giải quyết sự thiên vị này, cần chủ động đưa vào các nhóm và bối cảnh bị bỏ qua.
Thiên vị do đại diện xảy ra khi một số nhóm hoặc lớp nhất định không được đại diện đầy đủ trong tập dữ liệu. Chúng có thể bao gồm các nhóm nhân khẩu học, danh mục đối tượng hoặc điều kiện môi trường. Nếu một mô hình chỉ thấy một tông màu da, một loại đối tượng hoặc một kiểu nền, thì các dự đoán của nó sẽ phản ánh sự mất cân bằng đó.
Chúng ta có thể quan sát loại thiên vị này khi một số nhóm hoặc danh mục nhất định được đưa vào với số lượng nhỏ hơn nhiều so với những nhóm khác. Điều này có thể làm sai lệch các dự đoán của mô hình theo hướng các ví dụ chiếm ưu thế trong tập dữ liệu. Ví dụ: một mô hình nhận dạng khuôn mặt được đào tạo chủ yếu trên một nhóm nhân khẩu học có thể gặp khó khăn trong việc thực hiện chính xác trên tất cả người dùng. Không giống như thiên vị chọn mẫu, vốn gắn liền với sự đa dạng của dữ liệu, thiên vị do đại diện liên quan đến sự cân bằng giữa các nhóm.
Kiểm tra tính đa dạng và các chiến lược mở rộng dữ liệu có mục tiêu có thể giúp đảm bảo rằng tất cả các nhóm nhân khẩu học và danh mục có liên quan đều được đại diện đúng cách trong toàn bộ tập dữ liệu huấn luyện.
Cách phát hiện và giảm thiểu thiên vị tập dữ liệu
Trong các triển khai thực tế, thiên vị AI không chỉ có nghĩa là một vài dự đoán không chính xác. Nó có thể dẫn đến các hệ thống hoạt động tốt cho một số người nhưng không phải cho tất cả mọi người.
Trong AI ô tô, các mô hình phát hiện có thể hoạt động không nhất quán giữa các nhóm người đi bộ, dẫn đến kết quả an toàn thấp hơn cho những cá nhân ít được đại diện. Vấn đề không phải là ý định của mô hình. Đó là các đầu vào trực quan mà nó đã được đào tạo. Ngay cả trong nông nghiệp, sự thiên vị trong phát hiện đối tượng có thể có nghĩa là xác định kém các loại cây trồng trong các điều kiện ánh sáng hoặc thời tiết khác nhau. Đây là những hậu quả phổ biến của việc đào tạo mô hình trên các tập dữ liệu hạn chế hoặc không cân bằng.
Khắc phục thiên vị AI bắt đầu bằng việc biết nơi cần tìm. Nếu tập huấn luyện của bạn thiếu các ví dụ quan trọng hoặc đại diện quá mức một phạm vi hẹp, mô hình của bạn sẽ phản ánh những thiếu sót đó. Đó là lý do tại sao việc phát hiện thiên vị trong AI là một bước quan trọng trong mọi quy trình phát triển.
Hình 4. Các bước chính để giảm thiên vị AI và cải thiện tính công bằng.
Bắt đầu bằng cách phân tích tập dữ liệu của bạn. Xem xét sự phân phối giữa các lớp, môi trường, ánh sáng, tỷ lệ đối tượng và nhân khẩu học. Nếu một danh mục chiếm ưu thế, mô hình của bạn có thể sẽ hoạt động kém hơn trên các danh mục khác.
Tiếp theo, hãy xem xét hiệu suất. Mô hình có hoạt động kém hơn trong một số cài đặt nhất định hoặc cho các loại đối tượng cụ thể không? Nếu vậy, đó là một dấu hiệu của thiên vị đã học được và nó thường chỉ ra dữ liệu.
Đánh giá theo từng lát cắt là rất quan trọng. Một mô hình có thể báo cáo độ chính xác trung bình là 90%, nhưng chỉ 60% trên một nhóm hoặc điều kiện cụ thể. Nếu không kiểm tra các lát cắt đó, bạn sẽ không bao giờ biết.
Sử dụng các số liệu công bằng trong quá trình huấn luyện và đánh giá là một công cụ mạnh mẽ khác. Các số liệu này vượt xa điểm số độ chính xác tiêu chuẩn và đánh giá cách mô hình hoạt động trên các tập hợp con dữ liệu khác nhau. Chúng giúp làm nổi bật những điểm mù mà nếu không có thể không được chú ý.
Tính minh bạch trong thành phần tập dữ liệu và thử nghiệm mô hình dẫn đến các mô hình tốt hơn.
Cải thiện tính công bằng thông qua sự đa dạng và tăng cường dữ liệu
Khi bạn đã xác định được thiên vị, bước tiếp theo là thu hẹp khoảng cách. Một trong những cách hiệu quả nhất để làm điều này là tăng tính đa dạng của dữ liệu trong các mô hình AI. Điều đó có nghĩa là thu thập thêm các mẫu từ các tình huống ít được đại diện, cho dù đó là hình ảnh y tế từ các quần thể khác nhau hay các điều kiện môi trường bất thường.
Thêm nhiều dữ liệu hơn có thể có giá trị, đặc biệt là khi nó làm tăng tính đa dạng. Tuy nhiên, việc cải thiện tính công bằng cũng phụ thuộc vào việc thu thập đúng loại ví dụ. Chúng phải phản ánh sự biến đổi trong thế giới thực mà mô hình của bạn có khả năng gặp phải.
Tăng cường dữ liệu là một chiến lược có giá trị khác. Lật, xoay, điều chỉnh ánh sáng và масштабирование đối tượng có thể giúp mô phỏng các điều kiện thực tế khác nhau. Tăng cường không chỉ làm tăng sự đa dạng của tập dữ liệu mà còn giúp mô hình trở nên mạnh mẽ hơn trước những thay đổi về hình thức, ánh sáng và bối cảnh.
Hầu hết các quy trình huấn luyện hiện đại đều bao gồm tăng cường theo mặc định, nhưng việc sử dụng chiến lược, chẳng hạn như tập trung vào điều chỉnh dựa trên nhu cầu cụ thể của nhiệm vụ, là điều làm cho nó hiệu quả đối với tính công bằng.
Sử dụng dữ liệu tổng hợp để lấp đầy khoảng trống
Dữ liệu tổng hợp đề cập đến dữ liệu được tạo nhân tạo mô phỏng các ví dụ trong thế giới thực. Nó có thể là một công cụ hữu ích khi một số tình huống quá hiếm hoặc quá nhạy cảm để chụp trong tự nhiên.
Ví dụ: nếu bạn đang xây dựng một mô hình để phát hiện các khuyết tật hiếm gặp trong máy móc hoặc các vi phạm giao thông trong trường hợp đặc biệt, bạn có thể mô phỏng các trường hợp đó bằng cách sử dụng dữ liệu tổng hợp. Điều này cho phép mô hình của bạn học hỏi từ các sự kiện mà nó có thể không thường xuyên gặp phải trong tập huấn luyện của bạn.
Các nghiên cứu đã phát hiện ra rằng việc đưa dữ liệu tổng hợp có mục tiêu vào quá trình huấn luyện có thể làm giảm thiên vị tập dữ liệu và cải thiện hiệu suất trên các nhóm nhân khẩu học và môi trường.
Dữ liệu tổng hợp hoạt động tốt nhất khi được ghép nối với các mẫu trong thế giới thực. Nó bổ sung cho tập dữ liệu của bạn; nó không thay thế nó.
YOLO11 hỗ trợ AI đạo đức như thế nào
Xây dựng các mô hình AI không thiên vị cũng phụ thuộc vào các công cụ bạn sử dụng. YOLO11 được thiết kế để linh hoạt, dễ dàng tinh chỉnh và có khả năng thích ứng cao, điều này làm cho nó phù hợp để giảm thiểu sự thiên vị của bộ dữ liệu.
YOLO11 hỗ trợ các kỹ thuật tăng cường dữ liệu nâng cao trong khi huấn luyện mô hình, giúp đưa vào các ngữ cảnh hình ảnh đa dạng và các ví dụ được pha trộn để cải thiện khả năng tổng quát hóa của mô hình và giảm tình trạng quá khớp.
YOLO11 cũng có kiến trúc backbone và neck được cải tiến để trích xuất đặc trưng hiệu quả hơn. Nâng cấp này tăng cường khả năng của mô hình trong việc phát hiện các chi tiết nhỏ, điều này rất quan trọng trong các tình huống ít được đại diện hoặc các trường hợp đặc biệt, nơi các mô hình tiêu chuẩn có thể gặp khó khăn.
Vì YOLO11 rất dễ dàng để huấn luyện lại và triển khai trên các môi trường edge và cloud, các nhóm có thể xác định các khoảng trống về hiệu suất và nhanh chóng cập nhật mô hình khi phát hiện ra sự thiên vị trong quá trình sử dụng.
AI công bằng không phải là một mục tiêu một lần. Đó là một chu trình đánh giá, học hỏi và điều chỉnh. Các công cụ như YOLO11 giúp chu trình đó nhanh hơn và hiệu quả hơn.
Những điều cần nhớ
Sự thiên vị của AI ảnh hưởng đến mọi thứ, từ tính công bằng đến hiệu suất. Sự thiên vị trong thị giác máy tính thường bắt nguồn từ cách thu thập, dán nhãn và cân bằng bộ dữ liệu. May mắn thay, có những cách đã được chứng minh để phát hiện và giảm thiểu nó.
Bắt đầu bằng cách kiểm tra dữ liệu của bạn và kiểm tra hiệu suất của mô hình trong các tình huống khác nhau. Sử dụng thu thập dữ liệu có mục tiêu, tăng cường và dữ liệu tổng hợp để tạo ra phạm vi huấn luyện tốt hơn.
YOLO11 hỗ trợ quy trình làm việc này bằng cách giúp dễ dàng huấn luyện các mô hình tùy chỉnh, áp dụng các kỹ thuật tăng cường mạnh mẽ và phản ứng nhanh chóng khi phát hiện ra sự thiên vị.
Xây dựng AI công bằng không chỉ là điều đúng đắn nên làm. Đó còn là cách bạn xây dựng các hệ thống thông minh hơn, đáng tin cậy hơn.