Thuật ngữ

Dữ liệu đào tạo

Khám phá tầm quan trọng của dữ liệu đào tạo trong AI. Tìm hiểu cách các tập dữ liệu chất lượng cung cấp năng lượng cho các mô hình học máy chính xác, mạnh mẽ cho các tác vụ trong thế giới thực.

Dữ liệu huấn luyện là tập dữ liệu nền tảng được sử dụng để dạy mô hình học máy (ML) cách đưa ra dự đoán hoặc quyết định chính xác. Trong học có giám sát , dữ liệu này bao gồm các mẫu đầu vào được ghép nối với các đầu ra chính xác tương ứng, thường được gọi là nhãn hoặc chú thích. Mô hình học hỏi lặp đi lặp lại từ các ví dụ này, điều chỉnh trọng số mô hình nội bộ để giảm thiểu sự khác biệt giữa dự đoán và nhãn thực tế. Chất lượng, số lượng và tính đa dạng của dữ liệu huấn luyện là những yếu tố quan trọng nhất ảnh hưởng đến hiệu suất của mô hình và khả năng khái quát hóa sang dữ liệu mới, chưa từng thấy.

Tầm quan trọng của dữ liệu đào tạo chất lượng cao

Nguyên tắc "vào rác, ra rác" đặc biệt đúng khi huấn luyện các mô hình ML. Dữ liệu chất lượng cao là yếu tố thiết yếu để xây dựng các hệ thống mạnh mẽ và đáng tin cậy. Các đặc điểm chính bao gồm:

  • Tính liên quan: Dữ liệu phải phản ánh chính xác vấn đề mà mô hình muốn giải quyết.
  • Tính đa dạng: Nó phải bao gồm nhiều tình huống, trường hợp ngoại lệ và biến thể khác nhau mà mô hình sẽ gặp phải trong thế giới thực để tránh tình trạng quá khớp .
  • Ghi nhãn chính xác: Các chú thích phải chính xác và nhất quán. Quá trình ghi nhãn dữ liệu thường là phần tốn nhiều thời gian nhất trong một dự án thị giác máy tính .
  • Khối lượng dữ liệu đủ lớn: Mô hình thường cần một lượng dữ liệu lớn để học các mẫu có ý nghĩa. Các kỹ thuật như tăng cường dữ liệu có thể giúp mở rộng tập dữ liệu một cách nhân tạo.
  • Độ lệch thấp: Dữ liệu phải cân bằng và mang tính đại diện để tránh sai lệch dữ liệu , có thể dẫn đến hành vi mô hình không công bằng hoặc không chính xác. Hiểu được độ lệch thuật toán là một khía cạnh quan trọng của việc phát triển AI có trách nhiệm.

Các nền tảng như Ultralytics HUB cung cấp các công cụ để quản lý tập dữ liệu trong suốt vòng đời phát triển mô hình , trong khi các công cụ nguồn mở như CVAT phổ biến cho các tác vụ chú thích.

Ví dụ thực tế

  1. Xe tự hành: Để huấn luyện mô hình phát hiện vật thể cho xe tự hành , các nhà phát triển sử dụng một lượng lớn dữ liệu huấn luyện từ camera và cảm biến. Dữ liệu này bao gồm hình ảnh và video, trong đó từng khung hình đều được gắn nhãn tỉ mỉ. Người đi bộ, người đi xe đạp, các phương tiện khác và biển báo giao thông được bao quanh trong các hộp giới hạn . Bằng cách huấn luyện trên các tập dữ liệu như Argoverse hoặc nuScenes , AI của xe học cách nhận biết và điều hướng môi trường một cách an toàn.
  2. Phân tích hình ảnh y tế: Trong chăm sóc sức khỏe, dữ liệu đào tạo cho phân tích hình ảnh y tế có thể bao gồm hàng nghìn ảnh chụp MRI hoặc CT. Các bác sĩ X quang chú thích những hình ảnh này để làm nổi bật khối u, gãy xương hoặc các bệnh lý khác. Một mô hình ML, chẳng hạn như mô hình được xây dựng bằng Ultralytics YOLO , có thể được đào tạo trên một tập dữ liệu khối u não để học cách xác định những bất thường này, hoạt động như một công cụ mạnh mẽ hỗ trợ bác sĩ đưa ra chẩn đoán nhanh hơn và chính xác hơn. Các nguồn như Kho lưu trữ Hình ảnh Ung thư (TCIA) cung cấp quyền truy cập công khai vào những dữ liệu này cho mục đích nghiên cứu.

Dữ liệu đào tạo so với dữ liệu xác thực và thử nghiệm

Trong một dự án ML điển hình, dữ liệu được chia thành ba tập riêng biệt:

  • Dữ liệu đào tạo: Phần lớn nhất, được sử dụng trực tiếp để đào tạo mô hình bằng cách điều chỉnh các tham số của nó. Đào tạo hiệu quả thường liên quan đến việc cân nhắc cẩn thận các mẹo đào tạo mô hình .
  • Dữ liệu Xác thực : Một tập con riêng biệt được sử dụng định kỳ trong quá trình huấn luyện để đánh giá hiệu suất của mô hình trên dữ liệu mà nó chưa học được một cách rõ ràng. Điều này giúp điều chỉnh các siêu tham số (ví dụ: tốc độ học , kích thước lô ) thông qua các quy trình như Tối ưu hóa Siêu tham số (Wikipedia) và cung cấp cảnh báo sớm về hiện tượng quá khớp. Chế độ xác thực được sử dụng cho việc đánh giá này.
  • Dữ liệu thử nghiệm : Một tập dữ liệu độc lập, không nhìn thấy trong quá trình đào tạo và xác thực, chỉ được sử dụng sau khi mô hình được đào tạo đầy đủ. Nó cung cấp đánh giá cuối cùng, khách quan về khả năng khái quát hóa của mô hình và hiệu suất mong đợi trong thế giới thực. Kiểm tra mô hình nghiêm ngặt là rất quan trọng trước khi triển khai.

Việc duy trì sự tách biệt chặt chẽ giữa các tập dữ liệu này là điều cần thiết để phát triển các mô hình đáng tin cậy. Các mô hình tiên tiến thường được đào tạo trước trên các tập dữ liệu chuẩn lớn như COCO hoặc ImageNet , đóng vai trò là dữ liệu đào tạo mở rộng. Bạn có thể tìm thấy nhiều tập dữ liệu hơn trên các nền tảng như Google Dataset SearchKaggle Datasets .

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, cộng tác và phát triển với những nhà đổi mới toàn cầu

Tham gia ngay
Liên kết đã được sao chép vào clipboard