Tìm hiểu về hiện tượng "đầu độc dữ liệu" và tác động của nó đối với trí tuệ nhân tạo (AI). Khám phá cách bảo mật các mô hình Ultralytics và bảo vệ dữ liệu huấn luyện thông qua Nền Ultralytics .
“Data poisoning” là một mối đe dọa an ninh mạng trong đó các tác nhân độc hại cố ý thao túng dữ liệu huấn luyện được sử dụng để xây dựng các mô hình Học máy (ML). Bằng cách làm hỏng bộ dữ liệu trước khi mô hình được huấn luyện, kẻ tấn công có thể cài đặt các lỗ hổng ẩn, gây ra sự thiên vị hoặc làm suy giảm hiệu suất tổng thể của mô hình. Không giống như các lỗ hổng bảo mật khác nhắm vào mã nguồn của hệ thống, các cuộc tấn công đầu độc dữ liệu nhắm vào chính quá trình học, khiến chúng cực kỳ khó detect mô hình đã được triển khai vào môi trường sản xuất . Theo báo cáo tổng quan về tình báo mối đe dọa của IBM, các cuộc tấn công này gây ra những rủi ro nghiêm trọng đối với tính toàn vẹn và độ tin cậy của các hệ thống trí tuệ nhân tạo.
Khi các tổ chức ngày càng phụ thuộc vào Học sâu (DL) và Các mô hình ngôn ngữ quy mô lớn (LLMs), họ thường thu thập một lượng lớn dữ liệu chưa được xác minh từ internet. Thực tiễn này tạo ra cơ hội cho việc tiêm nhiễm dữ liệu, trong đó các đối tượng xấu chèn các điểm dữ liệu bịa đặt hoặc độc hại vào các kho dữ liệu công khai. Các nghiên cứu gần đây về việc đầu độc AI từ năm 2025 đã tiết lộ một thực tế đáng báo động: ngay cả đối với các mô hình khổng lồ có hàng tỷ tham số, kẻ tấn công chỉ cần thao túng một số lượng mẫu gần như không đổi và tối thiểu là đã có thể làm hỏng hệ thống.
Hiện tượng "LLM poisoning" xảy ra khi các cụm từ kích hoạt cụ thể được chèn vào các văn bản mà mô hình tiếp nhận trong quá trình huấn luyện. Sau khi được triển khai, mô hình có thể hoạt động bình thường cho đến khi người dùng nhập cụm từ kích hoạt, khiến hệ thống bỏ qua các quy trình an toàn hoặc tạo ra các kết quả độc hại. Nghiên cứu năm 2025Anthropic về hiện tượng đầu độc mô hình ngôn ngữ lớn (LLM) cho thấy chỉ cần 250 tài liệu bị đầu độc cũng có thể tạo ra một lỗ hổng bảo mật trong mô hình có 13 tỷ tham số.
Vấn đề dữ liệu bị nhiễm độc không chỉ giới hạn ở việc tạo văn bản mà còn tác động mạnh mẽ đến các mô hình Thị giác máy tính (CV). Dưới đây là hai ví dụ cụ thể về cách mối đe dọa này thể hiện trong các ứng dụng thực tế:
Mặc dù có mối liên hệ chặt chẽ, nhưng điều quan trọng là phải phân biệt giữa việc làm ô nhiễm dữ liệu với các cuộc tấn công đối kháng. Các cuộc tấn công đối kháng xảy ra trong quá trình suy luận — kẻ tấn công thao túng dữ liệu đầu vào (như dán nhãn lên biển báo dừng trong thế giới thực) để đánh lừa mô hình đã được huấn luyện sẵn. Ngược lại, đầu độc dữ liệu xảy ra trong quá trình huấn luyện, làm thay đổi cơ bản logic nội tại của mô hình từ gốc rễ. Để giải quyết cả hai vấn đề này, cần có các quy trình an toàn AI vững chắc.
Để phòng ngừa những mối đe dọa này, cần phải thực hiện việc giám sát mô hình một cách nghiêm ngặt và sử dụng dữ liệu xác thực, đáng tin cậy để kiểm tra tính toàn vẹn của mô hình. Việc đánh giá mô hình dựa trên bộ dữ liệu đã được xác thực có thể giúp các nhóm phát hiện những sự sụt giảm hiệu suất bất thường, vốn có thể là dấu hiệu của hành vi can thiệp trái phép. Các phương pháp hay nhất được đề xuất bởi nhóm nghiên cứu an toàn của OpenAI và Dự án An ninh GenAI của OWASP nhấn mạnh việc tuân thủ nghiêm ngặt nguồn gốc dữ liệu và việc sử dụng các bộ dữ liệu đã được chọn lọc thay vì dữ liệu thô thu thập từ web.
Khi xây dựng và kiểm thử mô hình, các nhóm nên tận dụng các khung công cụ đã được chứng minh như PyTorch hoặc TensorFlow cùng với các quy trình xác thực toàn diện. Bạn có thể dễ dàng xác thực mô hình Ultralytics của mình trên một bộ dữ liệu sạch và đáng tin cậy để đảm bảo độ chính xác không bị ảnh hưởng.
from ultralytics import YOLO
# Load a custom-trained Ultralytics YOLO26 model
model = YOLO("yolo26n.pt")
# Validate the model on a trusted dataset to detect performance drops
# Sudden decreases in precision/recall may indicate data poisoning
metrics = model.val(data="clean_validation_data.yaml")
print(f"mAP50-95: {metrics.box.map}") # Review core metrics
Đối với các dự án thị giác máy tính quy mô lớn, việc theo dõi các chỉ số này qua nhiều đợt huấn luyện là điều thiết yếu. Các nhà phát triển có thể phân tích các thông tin đánh giá mô hình để nắm rõ hiệu suất cơ sở, đồng thời sử dụng Ultralytics để thực hiện việc gắn nhãn, huấn luyện và quản lý dữ liệu một cách an toàn mà không cần dựa vào các nguồn bên ngoài chưa được xác minh. Việc kết hợp quá trình tuyển chọn dữ liệu an toàn với các kỹ thuật mở rộng dữ liệu có kiểm soát giúp đảm bảo các mô hình của bạn luôn chính xác và có khả năng chống lại sự can thiệp từ bên ngoài.
Bắt đầu hành trình của bạn với tương lai của học máy