Quản lý tập dữ liệu thông minh trong thị giác máy tính với Ultralytics Platform
Khám phá cách bạn có thể sử dụng Ultralytics Platform để quản lý tập dữ liệu tốt hơn trong các dự án thị giác máy tính. Theo dõi, so sánh và cải thiện tập dữ liệu của bạn một cách dễ dàng.

Vision AI, hay thị giác máy tính, đã đạt được nhiều tiến bộ đáng kể từ những ngày đầu, chuyển mình từ nghiên cứu thử nghiệm thành công nghệ then chốt cung cấp năng lượng cho các ứng dụng thực tế. Ngày nay, những người đam mê AI có thể xây dựng các model mạnh mẽ cho các tác vụ như phát hiện đối tượng và phân đoạn cá thể bằng cách sử dụng các công cụ và framework dễ tiếp cận.
Tuy nhiên, khi các ứng dụng này chuyển từ giai đoạn thử nghiệm sang sản xuất, việc quản lý tập dữ liệu vẫn là một thách thức quan trọng và thường bị bỏ qua. Khi tập dữ liệu thị giác máy tính ngày càng lớn và phức tạp hơn, các nhóm thường gặp khó khăn trong việc duy trì tính nhất quán của chú thích, theo dõi các thay đổi qua các phiên bản và đảm bảo chất lượng dữ liệu tổng thể.
Ngay cả những model tiên tiến nhất cũng có thể hoạt động kém trong môi trường thực tế nếu dữ liệu dùng để train không đầy đủ, mất cân bằng hoặc được quản lý kém. Khoảng cách ngày càng tăng giữa hiệu suất phát triển và độ tin cậy trong thực tế chính là lý do cần một phương pháp quản lý tập dữ liệu có cấu trúc hơn.
Một hạn chế phổ biến khác là việc thu thập dữ liệu, chú thích và training thường được xử lý bằng các công cụ riêng biệt. Một quy trình phân mảnh sẽ gây khó khăn hơn cho việc quản lý tập dữ liệu một cách hiệu quả, làm tăng rủi ro về sự không nhất quán và làm chậm quá trình lặp lại.
Để giải quyết các nút thắt trong vision AI như quản lý tập dữ liệu và quy trình phân mảnh, chúng tôi gần đây đã ra mắt Ultralytics Platform. Đây là một workspace end-to-end kết hợp việc quản lý tập dữ liệu, chú thích, training, triển khai và giám sát vào một quy trình thống nhất duy nhất.
Bằng cách kết nối từng giai đoạn của vòng đời thị giác máy tính, việc theo dõi các thay đổi của tập dữ liệu, so sánh hiệu suất qua các phiên bản và liên tục cải thiện dữ liệu để đạt kết quả tốt hơn trở nên dễ dàng hơn.

Hình 1. Ví dụ về việc xem hình ảnh tập dữ liệu của bạn trong Ultralytics Platform (Nguồn)
Trong bài viết này, chúng tôi sẽ tìm hiểu sâu về cách Ultralytics Platform giúp bạn theo dõi, so sánh và cải thiện tập dữ liệu của mình để xây dựng các model thị giác máy tính đáng tin cậy hơn. Hãy bắt đầu thôi!
Link to this sectionTầm quan trọng của việc quản lý tập dữ liệu trong thị giác máy tính#
Hiệu suất của một model thị giác máy tính gắn liền với dữ liệu mà nó được train. Độ chính xác của model, tần suất đưa ra dự đoán đúng, không chỉ phụ thuộc vào thuật toán mà còn vào mức độ đại diện của tập dữ liệu đối với các điều kiện thực tế.
Nói đơn giản, một model học các mẫu trực tiếp từ dữ liệu, do đó bất kỳ khoảng trống, độ chệch hay sự không nhất quán nào trong tập dữ liệu đều có thể ảnh hưởng đến cách nó đưa ra dự đoán. Nói cách khác, dữ liệu kém chất lượng, chú thích không chính xác hoặc mức độ bao phủ hạn chế về các biến thể thực tế trong hình ảnh, chẳng hạn như điều kiện ánh sáng khác nhau, góc đối tượng, nền hoặc các mức độ che khuất, có thể làm giảm đáng kể độ chính xác, ngay cả khi kiến trúc model vốn đã mạnh mẽ.
Điều này cũng áp dụng khi fine-tuning một model, trong đó một model pre-trained được train thêm trên dữ liệu mới hoặc đã cập nhật để thích nghi tốt hơn với một trường hợp sử dụng hoặc môi trường cụ thể. Vì độ chính xác của model phụ thuộc rất nhiều vào dữ liệu, việc quản lý dữ liệu đó một cách hợp lý trở nên thiết yếu.
Quản lý tập dữ liệu bao gồm việc tổ chức, gán nhãn và liên tục cập nhật dữ liệu để đảm bảo dữ liệu luôn chính xác và phù hợp. Điều này giúp cải thiện hiệu suất theo thời gian dễ dàng hơn, đặc biệt là khi retraining hoặc fine-tuning các model trên dữ liệu mới.
Link to this sectionChất lượng tập dữ liệu ảnh hưởng thế nào đến độ tin cậy trong thực tế#
Các trường hợp sử dụng thị giác máy tính, như hệ thống giám sát an ninh, là một ví dụ tuyệt vời cho thấy lý do tại sao quản lý dữ liệu đúng cách lại quan trọng. Các hệ thống này cần hoạt động đáng tin cậy trong nhiều điều kiện thực tế, bao gồm các môi trường ánh sáng khác nhau, góc máy quay, mức độ đông đúc và các phần bị che khuất.
Nếu dữ liệu training không bao phủ các biến thể này hoặc thiếu tính đa dạng về cách các đối tượng xuất hiện trong các bối cảnh và điều kiện khác nhau, model có thể gặp khó khăn trong việc phát hiện đối tượng chính xác. Ví dụ, một model được train chủ yếu trên các khung cảnh sáng sủa, không lộn xộn có thể hoạt động kém trong môi trường ánh sáng yếu hoặc môi trường đông đúc. Trong hệ thống an ninh, điều này có thể dẫn đến việc bỏ lỡ các sự kiện hoặc cảnh báo sai.
Để tránh điều này, điều quan trọng là duy trì các tập dữ liệu không chỉ sạch và được gán nhãn chính xác, mà còn phải cân bằng và được cập nhật liên tục. Điều này có nghĩa là xác định các khoảng trống trong dữ liệu, thêm các ví dụ mới khi điều kiện thay đổi và đảm bảo các lớp và môi trường khác nhau được thể hiện đồng đều.
Với một tập dữ liệu đầy đủ và có cấu trúc hơn, các model được trang bị tốt hơn để xử lý sự biến đổi trong thực tế và tạo ra các dự đoán đáng tin cậy hơn.
Link to this sectionCác khía cạnh chính của quản lý tập dữ liệu#
Vậy, quản lý tập dữ liệu thực sự trông như thế nào? Nó liên quan đến việc tổ chức, gán nhãn và duy trì dữ liệu để có thể sử dụng hiệu quả trong suốt quá trình phát triển model.
Việc tổ chức dữ liệu, ví dụ, bao gồm việc cấu trúc tập dữ liệu và chia nó thành các tập training, validation và test. Tập training được dùng để dạy model, tập validation được dùng để theo dõi hiệu suất và hướng dẫn điều chỉnh trong quá trình phát triển, và tập test được dùng để đánh giá mức độ hoạt động của model cuối cùng trên dữ liệu hoàn toàn chưa từng thấy.
Trong khi đó, việc gán nhãn liên quan đến việc chú thích hình ảnh với các chi tiết như nhãn lớp, bounding box hoặc mặt nạ phân đoạn. Vì model học từ các chú thích này, độ chính xác và tính nhất quán là rất quan trọng để giúp nó học các mẫu có ý nghĩa và đưa ra dự đoán đáng tin cậy.
Ngoài ra, việc duy trì tập dữ liệu còn bao gồm xem xét và cập nhật dữ liệu theo thời gian. Điều này có thể bao gồm việc sửa lỗi chú thích, xóa dữ liệu chất lượng thấp hoặc trùng lặp và thêm các ví dụ mới để bao phủ các trường hợp còn thiếu hoặc các điều kiện đang thay đổi.
Rộng hơn, quản lý tập dữ liệu là một quá trình liên tục. Khi các model được đánh giá và dữ liệu mới được thu thập, các tập dữ liệu cần được cập nhật để phản ánh các điều kiện thực tế và các trường hợp biên. Việc theo dõi các cập nhật này và so sánh các phiên bản khác nhau giúp các nhóm hiểu được những gì đang cải thiện hiệu suất và nơi nào cần thay đổi thêm.
Link to this sectionQuản lý tập dữ liệu với Ultralytics Platform#
Ultralytics Platform cung cấp một quy trình có cấu trúc để quản lý tập dữ liệu trong một môi trường duy nhất, bao gồm mọi thứ từ chuẩn bị dữ liệu đến xuất dữ liệu. Nó được thiết kế để hỗ trợ cả nhà phát triển cá nhân và các nhóm, giúp quản lý tập dữ liệu một cách nhất quán dễ dàng hơn, dù bạn làm việc độc lập hay cộng tác trên nhiều dự án.
Mỗi giai đoạn được thiết kế để đơn giản hóa cách các tập dữ liệu được tổ chức, xử lý và sử dụng trong suốt vòng đời phát triển model. Bằng cách đưa các bước này vào một nơi, nền tảng giảm bớt sự phân mảnh và giúp duy trì tính nhất quán trên các quy trình làm việc trở nên đơn giản hơn.
Tiếp theo, hãy cùng tìm hiểu các bước chính liên quan và cách nền tảng hỗ trợ từng bước một.
Link to this sectionTải tập dữ liệu lên Ultralytics Platform#
Việc bắt đầu với các tập dữ liệu trên nền tảng rất linh hoạt, với nhiều cách để đưa dữ liệu vào hoặc tái sử dụng dữ liệu. Bạn có thể tải lên dữ liệu của riêng mình hoặc bắt đầu nhanh hơn bằng cách sử dụng các tập dữ liệu công khai có sẵn trên nền tảng. Bạn cũng có thể clone các tập dữ liệu hiện có do cộng đồng chia sẻ và xây dựng dựa trên chúng.
Các tính năng cộng đồng của nền tảng giúp việc khám phá và tái sử dụng công việc hiện có trở nên dễ dàng. Với quyền truy cập vào các tập dữ liệu do người dùng khác tạo, bao gồm hàng triệu hình ảnh và chú thích, bạn có thể nhanh chóng bắt đầu mà không cần phải tự thu thập và gán nhãn mọi thứ. Việc clone một tập dữ liệu sẽ tạo ra một bản sao trong workspace của bạn, cho phép bạn sửa đổi và mở rộng nó trong khi vẫn giữ nguyên bản gốc.
Đối với việc tải lên, nền tảng hỗ trợ các hình ảnh đơn lẻ, video và các file lưu trữ tập dữ liệu như ZIP, TAR hoặc GZ. Nó cũng hỗ trợ các định dạng tập dữ liệu được sử dụng rộng rãi như YOLO và COCO, giúp dễ dàng nhập các tập dữ liệu và chú thích hiện có mà không cần chuyển đổi thêm. Ngoài ra, bạn có thể tải lên tập dữ liệu bằng file NDJSON được xuất từ nền tảng, giúp việc tái tạo hoặc tái sử dụng tập dữ liệu qua các dự án trở nên liền mạch.
Sau khi dữ liệu được tải lên, nền tảng xử lý dữ liệu qua một pipeline có cấu trúc. Điều này bao gồm việc xác thực định dạng và kích thước file, thay đổi kích thước hình ảnh khi cần, phân tích chú thích và tạo số liệu thống kê tập dữ liệu.
Ví dụ, video được chuyển đổi thành các khung hình để có thể sử dụng cho việc training, trong khi hình ảnh được tối ưu hóa và chuẩn bị để duyệt và phân tích dễ dàng hơn. Sau khi xử lý, các tập dữ liệu đã sẵn sàng để được sử dụng cho việc chú thích, phân tích và train model trong nền tảng.
Link to this sectionChú thích dữ liệu trên Ultralytics Platform#
Sau khi tải lên, các tập dữ liệu có thể được xem xét và chú thích trực tiếp trong nền tảng. Nền tảng bao gồm các công cụ chú thích hình ảnh tích hợp sẵn cho nhiều tác vụ thị giác máy tính, như phát hiện đối tượng, phân đoạn cá thể, ước tính tư thế, phát hiện hộp bao định hướng (OBB) và phân loại hình ảnh.

Hình 2. Sử dụng Ultralytics Platform để gán nhãn dữ liệu (Nguồn)
Các chú thích có thể được tạo thủ công bằng cách sử dụng các công cụ này hoặc tăng tốc với các tính năng hỗ trợ AI như chú thích thông minh hỗ trợ bởi SAM. Với SAM, bạn có thể tạo mặt nạ, bounding box hoặc hộp định hướng bằng cách tương tác với hình ảnh, giúp tăng tốc quá trình gán nhãn trong khi vẫn duy trì độ chính xác.
Link to this sectionPhân tích chất lượng tập dữ liệu thông qua Ultralytics Platform#
Ngoài việc chuẩn bị và chú thích dữ liệu, việc hiểu chất lượng tập dữ liệu là điều cần thiết để xây dựng các model thị giác máy tính đáng tin cậy. Nếu không có tầm nhìn rõ ràng về các yếu tố như phân phối lớp, chất lượng chú thích, cách chia tập dữ liệu và cách dữ liệu được đại diện trong các điều kiện khác nhau, sẽ rất khó để phát hiện các vấn đề ảnh hưởng đến hiệu suất của model.
Ultralytics Platform bao gồm các tính năng tích hợp sẵn để giúp phân tích tập dữ liệu hiệu quả hơn. Những thông tin chi tiết này có sẵn trực tiếp trong giao diện tập dữ liệu, trên các tab như Hình ảnh, Lớp và Biểu đồ.
Trong tab Biểu đồ, bạn có thể xem các thống kê cấp tập dữ liệu như phân phối phân chia (training, validation và test), tần suất lớp và bản đồ nhiệt chú thích cho thấy các đối tượng xuất hiện ở đâu trong hình ảnh.
Tab Lớp cung cấp bảng phân tích số lượng chú thích theo từng lớp, giúp dễ dàng phát hiện sự mất cân bằng lớp. Trong khi đó, tab Hình ảnh hiển thị các chi tiết cấp hình ảnh như kích thước, số lượng chú thích và cách các nhãn được phân phối trên từng hình ảnh riêng lẻ.
Những thông tin này giúp dễ dàng xác định các vấn đề như mất cân bằng lớp, thiếu các kịch bản hoặc phân phối dữ liệu không đồng đều. Ví dụ, bạn có thể nhận thấy rằng một số lớp có rất ít ví dụ hoặc hầu hết các chú thích tập trung ở các khu vực cụ thể của hình ảnh.
Ngoài việc phân tích dữ liệu, nền tảng còn hỗ trợ việc quản lý và tăng cường tập dữ liệu, có nghĩa là tinh chỉnh tập dữ liệu bằng cách sửa hoặc xóa dữ liệu có vấn đề và tạo ra các biến thể của dữ liệu hiện có để cải thiện hiệu suất model. Những cải tiến này có thể được thực hiện trực tiếp trong nền tảng bằng cách cập nhật chú thích, thêm dữ liệu mới hoặc sắp xếp lại các phần phân chia tập dữ liệu dựa trên những hiểu biết từ phân tích.
Link to this sectionXuất tập dữ liệu từ Ultralytics Platform#
Sau khi một tập dữ liệu được chuẩn bị và xác thực, nó có thể được xuất để sử dụng trong các môi trường khác nhau. Điều này mang lại cho bạn sự linh hoạt để sử dụng dữ liệu thị giác máy tính của mình ở bất cứ đâu bạn muốn, dù đó là train model tại chỗ, trên đám mây hoặc trong các công cụ và quy trình khác.
Ultralytics Platform hỗ trợ nhiều định dạng xuất, bao gồm YOLO, COCO và NDJSON, giúp dễ dàng tích hợp tập dữ liệu vào các quy trình training và công cụ khác nhau.

Hình 3. Xuất tập dữ liệu từ Ultralytics Platform (Nguồn)
Việc xuất một tập dữ liệu sẽ tạo ra một bản snapshot cố định của dữ liệu tại một thời điểm cụ thể, bao gồm các hình ảnh, chú thích và cấu trúc của nó. Điều này hữu ích vì các tập dữ liệu thường thay đổi khi dữ liệu mới được thêm vào, chú thích được cập nhật hoặc các phần phân chia được điều chỉnh. Bằng cách xuất một snapshot, bạn có thể bảo tồn phiên bản chính xác của tập dữ liệu được sử dụng cho một đợt training cụ thể.
Điều này giúp việc tái tạo kết quả sau đó trở nên đơn giản hơn, vì bạn có thể train lại một model trên cùng một thiết lập dữ liệu và so sánh hiệu suất qua các phiên bản tập dữ liệu khác nhau. Ví dụ, bạn có thể đánh giá xem việc thêm hình ảnh mới hoặc sửa chú thích có thực sự cải thiện độ chính xác của model hay không, thay vì đoán xem điều gì đã thay đổi.
Các lần xuất được xử lý không đồng bộ và khi đã sẵn sàng, các tập dữ liệu có thể được tải xuống và sử dụng trong các môi trường training tại chỗ, đám mây hoặc ngoại tuyến.
Link to this sectionCải thiện chất lượng tập dữ liệu thông qua các lần lặp lại trên Ultralytics Platform#
Trong các quy trình học máy và học sâu, việc quản lý tập dữ liệu vẫn tiếp tục ngay cả sau khi triển khai vì dữ liệu thực tế thường khác với dữ liệu được sử dụng trong quá trình training.
Khi các model gặp phải dữ liệu đầu vào mới, các khoảng trống trong tập dữ liệu, chẳng hạn như các điều kiện bị thiếu như môi trường ánh sáng yếu, các góc máy quay khác nhau, sự che khuất hoặc khung cảnh đông đúc, cũng như các lỗi chú thích, trở nên rõ ràng hơn, khiến việc tinh chỉnh dữ liệu theo thời gian trở nên cần thiết.
Có một số cách để cải thiện tập dữ liệu. Bạn có thể thêm hình ảnh hoặc video mới để bao phủ các điều kiện bị thiếu, như môi trường ánh sáng yếu, các góc máy quay khác nhau, sự che khuất hoặc các khung cảnh đông đúc, giúp giảm bớt các điểm mù trong dữ liệu.
Đồng thời, đảm bảo các chú thích chính xác và nhất quán, chẳng hạn như các đối tượng được gán nhãn đúng và bounding box hoặc mặt nạ chính xác, giúp model học các mẫu đáng tin cậy hơn.
Quá trình này thường tuân theo một vòng lặp đơn giản: train model, đánh giá kết quả, xác định lỗi, cải thiện tập dữ liệu và train lại. Mỗi bước giúp làm nổi bật các vấn đề như chú thích không chính xác, dữ liệu bị thiếu hoặc các trường hợp chưa được đại diện đầy đủ.
Giả sử bạn đang làm việc trên một hệ thống giám sát kệ hàng bán lẻ thời gian thực được sử dụng để phát hiện sản phẩm trong cửa hàng. Các phiên bản sớm của tập dữ liệu có thể không bao gồm một số loại sản phẩm, điều kiện ánh sáng hoặc các cách sắp xếp kệ hàng đông đúc. Trong quá trình đánh giá, bạn có thể nhận thấy rằng model gặp khó khăn trong việc phát hiện các mặt hàng trong những tình huống này.
Để cải thiện hiệu suất, bạn có thể thu thập hình ảnh mới bao phủ các kịch bản bị thiếu này và cập nhật chú thích khi cần. Theo thời gian, việc lặp lại quá trình này giúp model trở nên chính xác và đáng tin cậy hơn trong các điều kiện thực tế.
Ultralytics Platform hỗ trợ quy trình này bằng cách kết nối các cập nhật tập dữ liệu với việc training và đánh giá. Với tính năng theo dõi thử nghiệm và số liệu hiệu suất tích hợp sẵn, việc theo dõi tiến độ và liên tục cải thiện các tập dữ liệu theo thời gian trở nên dễ dàng hơn.
Link to this sectionTheo dõi các thay đổi tập dữ liệu bằng Ultralytics Platform#
Chúng tôi đã thảo luận ngắn gọn về cách các tập dữ liệu phát triển theo thời gian như một phần của quá trình phát triển model. Khi dữ liệu mới được thêm vào, các chú thích được tinh chỉnh và các lớp được cập nhật, việc theo dõi các thay đổi này trở thành chìa khóa để duy trì chất lượng dữ liệu và đảm bảo hiệu suất model nhất quán.
Dưới đây là một số tính năng chính của Ultralytics Platform hỗ trợ theo dõi tập dữ liệu và kiểm soát phiên bản:
- Quản lý phiên bản tập dữ liệu: Bạn có thể tạo các phiên bản tập dữ liệu cố định dưới dạng snapshot NDJSON. Mỗi phiên bản ghi lại các chi tiết chính như số lượng hình ảnh, số lượng lớp, số lượng chú thích và kích thước tập dữ liệu tại một thời điểm cụ thể. Các phiên bản này được lưu trữ và có thể tải xuống sau, giúp việc tái tạo các thử nghiệm và so sánh kết quả trên các trạng thái tập dữ liệu khác nhau trở nên dễ dàng hơn.
- Tab Phiên bản: Tất cả các phiên bản tập dữ liệu được tổ chức trong tab Phiên bản, nơi bạn có thể xem lịch sử phiên bản, thêm mô tả cho các thay đổi và theo dõi cách tập dữ liệu phát triển theo thời gian.
- Liên kết với các model: Tab Model hiển thị tất cả các model được train trên một tập dữ liệu, bao gồm các số liệu như mAP và chi tiết training. Các phiên bản tập dữ liệu được liên kết với các đợt training, giúp bạn hiểu cách các thay đổi trong dữ liệu tác động đến hiệu suất model.
- Tab Lỗi: Tab Lỗi làm nổi bật các file thất bại trong quá trình xử lý, cùng với chi tiết lỗi và các đề xuất. Điều này cho phép bạn xác định và khắc phục các vấn đề như file bị hỏng hoặc định dạng không được hỗ trợ trước khi training.
- Giao diện tập dữ liệu (Tab Hình ảnh và Lớp): Các chế độ xem này cho phép bạn duyệt hình ảnh, xem xét chú thích, quản lý nhãn lớp và phân tích phân phối lớp. Các tính năng như lọc, sắp xếp và xác định các hình ảnh chưa được chú thích làm cho việc theo dõi chất lượng tập dữ liệu theo thời gian trở nên đơn giản hơn.
- Thống kê và biểu đồ: Các hình ảnh hóa dữ liệu tích hợp sẵn, chẳng hạn như phân phối phân chia, tần suất lớp và bản đồ nhiệt chú thích, giúp theo dõi các thay đổi trong phân phối dữ liệu và xác định sự mất cân bằng khi tập dữ liệu phát triển.

Hình 4. Một cái nhìn về việc phân tích phân phối lớp của tập dữ liệu trên Ultralytics Platform (Nguồn)
Link to this sectionKết nối tập dữ liệu với việc training và triển khai trong Ultralytics Platform#
Ultralytics Platform kết nối các giai đoạn phát triển model AI khác nhau thành một pipeline duy nhất. Điều này hợp lý hóa quá trình từ dữ liệu thô đến các ứng dụng vision AI sẵn sàng để sản xuất.
Sau khi các tập dữ liệu được chuẩn bị và chú thích, chúng có thể được sử dụng để train các model thị giác máy tính, như Ultralytics YOLO26, trực tiếp trong nền tảng. Trong quá trình training, bạn có thể theo dõi các số liệu hiệu suất, theo dõi thử nghiệm và đánh giá mức độ học tập của model bằng cách sử dụng các bảng điều khiển tích hợp sẵn.

Hình 5. Một cái nhìn về việc xem số liệu training model trên Ultralytics Platform (Nguồn)
Sau khi train, các model có thể được kiểm tra trên hình ảnh mới trực tiếp trong trình duyệt để đánh giá các dự đoán và xác định các lĩnh vực cần cải thiện trước khi triển khai. Khi model hoạt động tốt, nó có thể được triển khai vào sản xuất.
Nền tảng hỗ trợ xuất model sang nhiều định dạng hoặc triển khai chúng thông qua các dịch vụ suy luận và các điểm cuối chuyên dụng, cho phép chúng chạy trên các môi trường khác nhau.
Sau khi triển khai, các công cụ giám sát tích hợp sẵn giúp theo dõi hiệu suất hệ thống theo thời gian, bao gồm các số liệu liên quan đến việc sử dụng và hành vi của model. Điều này làm cho việc duy trì và cải thiện các hệ thống vision AI trong các ứng dụng thực tế trở nên đơn giản hơn.
Link to this sectionCác phương pháp hay nhất để quản lý tập dữ liệu với Ultralytics Platform#
Dưới đây là một số yếu tố chính cần ghi nhớ khi quản lý tập dữ liệu của bạn bằng Ultralytics Platform:
- Sử dụng bộ lọc để tìm các khoảng trống: Xác định dữ liệu chưa được gán nhãn hoặc chưa được đại diện đầy đủ bằng cách sử dụng các công cụ lọc, giúp việc hoàn thành chú thích và cải thiện độ bao phủ trở nên liền mạch hơn.
- Sửa lỗi sớm: Sử dụng tab Lỗi để kiểm soát chất lượng nhằm bắt lỗi các lần tải lên thất bại, file bị hỏng hoặc định dạng không được hỗ trợ trước khi training.
- Cập nhật tập dữ liệu liên tục: Thêm dữ liệu mới, sửa chú thích và bao gồm các trường hợp biên khi chúng xuất hiện. Điều này giúp cải thiện độ bao phủ và đảm bảo các model hoạt động đáng tin cậy trong các kịch bản thực tế.
- Quản lý các phần phân chia tập dữ liệu một cách cẩn thận: Đảm bảo sự cân bằng tốt giữa các tập training, validation và test. Bạn có thể sắp xếp lại các phần phân chia theo cách thủ công hoặc sử dụng phân phối lại tự động khi cần.
Để tìm hiểu thêm về Ultralytics Platform, hãy kiểm tra tài liệu chính thức của Ultralytics.
Link to this sectionCác điểm chính cần lưu ý#
Khi các dự án thị giác máy tính mở rộng, việc quản lý tập dữ liệu hiệu quả cũng trở nên quan trọng như phát triển model. Một phương pháp quản lý tập dữ liệu có cấu trúc giúp cải thiện chất lượng dữ liệu, hợp lý hóa quy trình làm việc và hỗ trợ hiệu suất model tốt hơn theo thời gian.
Ultralytics Platform đơn giản hóa quá trình này bằng cách đưa việc quản lý tập dữ liệu, training và triển khai vào một quy trình duy nhất. Bằng cách áp dụng một phương pháp quản lý tập dữ liệu có cấu trúc, các nhóm có thể giảm độ phức tạp, cải thiện hiệu quả và xây dựng các hệ thống thị giác máy tính có khả năng mở rộng và đáng tin cậy hơn.
Hãy tham gia cộng đồng đang phát triển của chúng tôi và khám phá repository GitHub của chúng tôi để biết các tài nguyên AI. Để xây dựng với vision AI ngay hôm nay, hãy xem các tùy chọn cấp phép của chúng tôi. Tìm hiểu cách AI trong nông nghiệp đang chuyển đổi canh tác và cách vision AI trong chăm sóc sức khỏe đang định hình tương lai bằng cách truy cập các trang giải pháp của chúng tôi.






