Bằng cách nhấp vào “Chấp nhận tất cả Cookie”, bạn đồng ý cho phép lưu trữ cookie trên thiết bị của mình để cải thiện điều hướng trang web, phân tích việc sử dụng trang web và hỗ trợ các nỗ lực tiếp thị của chúng tôi. Thông tin thêm
Cài đặt Cookie
Bằng cách nhấp vào “Chấp nhận tất cả Cookie”, bạn đồng ý cho phép lưu trữ cookie trên thiết bị của mình để cải thiện điều hướng trang web, phân tích việc sử dụng trang web và hỗ trợ các nỗ lực tiếp thị của chúng tôi. Thông tin thêm
Khám phá cách bạn có thể sử dụng Ultralytics Nền tảng giúp quản lý tập dữ liệu tốt hơn trong các dự án thị giác máy tính của bạn. Theo dõi, so sánh và cải thiện tập dữ liệu của bạn một cách dễ dàng.
Mở rộng quy mô các dự án thị giác máy tính của bạn với Ultralytics
Trí tuệ nhân tạo thị giác, hay thị giác máy tính , đã tiến một chặng đường dài kể từ những ngày đầu, phát triển từ nghiên cứu thử nghiệm thành một công nghệ chủ chốt hỗ trợ các ứng dụng thực tế. Ngày nay, những người đam mê AI có thể xây dựng các mô hình mạnh mẽ cho các tác vụ như phát hiện đối tượng và phân đoạn đối tượng bằng cách sử dụng các công cụ và khung phần mềm dễ tiếp cận.
Tuy nhiên, khi các ứng dụng này chuyển từ giai đoạn thử nghiệm sang sản xuất, quản lý tập dữ liệu vẫn là một thách thức quan trọng và thường bị bỏ qua. Khi các tập dữ liệu thị giác máy tính ngày càng lớn và phức tạp, các nhóm thường gặp khó khăn trong việc duy trì chú thích nhất quán. track những thay đổi giữa các phiên bản và đảm bảo chất lượng dữ liệu tổng thể.
Ngay cả những mô hình tiên tiến nhất cũng có thể hoạt động kém hiệu quả trong môi trường thực tế nếu dữ liệu được sử dụng để huấn luyện chúng không đầy đủ, không cân bằng hoặc được quản lý kém. Khoảng cách ngày càng lớn giữa hiệu suất phát triển và độ tin cậy trong thế giới thực là lý do tại sao cần có một phương pháp tiếp cận có cấu trúc hơn đối với việc quản lý tập dữ liệu.
Một hạn chế phổ biến khác là việc thu thập dữ liệu, chú thích và huấn luyện thường được thực hiện bằng các công cụ riêng biệt. Quy trình làm việc rời rạc khiến việc quản lý tập dữ liệu hiệu quả trở nên khó khăn hơn, làm tăng nguy cơ không nhất quán và làm chậm quá trình lặp lại.
Để giải quyết các nút thắt cổ chai trong AI thị giác như quản lý tập dữ liệu và quy trình làm việc rời rạc, chúng tôi vừa ra mắt Nền tảng Ultralytics . Đây là một không gian làm việc toàn diện, tích hợp quản lý tập dữ liệu, chú thích, huấn luyện, triển khai và giám sát vào một quy trình làm việc thống nhất duy nhất.
Bằng cách kết nối từng giai đoạn của vòng đời thị giác máy tính, việc này trở nên dễ dàng hơn. track Thay đổi tập dữ liệu, so sánh hiệu suất giữa các phiên bản và liên tục tinh chỉnh dữ liệu để có kết quả tốt hơn.
Hình 1. Ví dụ về cách xem hình ảnh trong tập dữ liệu của bạn. Ultralytics Nền tảng ( Nguồn )
Trong bài viết này, chúng ta sẽ tìm hiểu sâu hơn về cách thức... Ultralytics Nền tảng giúp bạn track So sánh, và cải thiện tập dữ liệu của bạn để xây dựng các mô hình thị giác máy tính đáng tin cậy hơn. Bắt đầu nào!
Tầm quan trọng của quản lý tập dữ liệu trong thị giác máy tính
Hiệu suất của một mô hình thị giác máy tính gắn liền mật thiết với dữ liệu mà nó được dùng để huấn luyện. Độ chính xác của mô hình, tức là tần suất dự đoán đúng, không chỉ phụ thuộc vào thuật toán mà còn phụ thuộc vào mức độ phản ánh thực tế của tập dữ liệu.
Nói một cách đơn giản, mô hình học các mẫu trực tiếp từ dữ liệu, vì vậy bất kỳ khoảng trống, sai lệch hoặc sự không nhất quán nào trong tập dữ liệu đều có thể ảnh hưởng đến cách nó đưa ra dự đoán. Nói cách khác, dữ liệu chất lượng kém, chú thích không chính xác hoặc phạm vi bao phủ hạn chế các biến thể thực tế trong hình ảnh, chẳng hạn như các điều kiện ánh sáng khác nhau, góc độ vật thể, phông nền hoặc mức độ che khuất, có thể làm giảm đáng kể độ chính xác, ngay cả khi kiến trúc mô hình mạnh mẽ.
Điều này cũng áp dụng khi tinh chỉnh mô hình, trong đó một mô hình đã được huấn luyện trước đó được tiếp tục huấn luyện trên dữ liệu mới hoặc được cập nhật để thích ứng tốt hơn với trường hợp sử dụng hoặc môi trường cụ thể. Vì độ chính xác của mô hình phụ thuộc rất nhiều vào dữ liệu, việc quản lý dữ liệu đúng cách trở nên vô cùng quan trọng.
Quản lý tập dữ liệu bao gồm việc tổ chức, gắn nhãn và liên tục cập nhật dữ liệu để đảm bảo tính chính xác và phù hợp. Điều này giúp dễ dàng cải thiện hiệu suất theo thời gian, đặc biệt là khi huấn luyện lại hoặc tinh chỉnh mô hình trên dữ liệu mới.
Chất lượng bộ dữ liệu ảnh hưởng như thế nào đến độ tin cậy trong thực tế
Các trường hợp ứng dụng thị giác máy tính, chẳng hạn như hệ thống giám sát an ninh , là một ví dụ tuyệt vời cho thấy tại sao quản lý dữ liệu đúng cách lại vô cùng quan trọng. Các hệ thống này cần hoạt động đáng tin cậy trong nhiều điều kiện thực tế khác nhau, bao gồm các môi trường ánh sáng, góc máy quay, mức độ đông đúc và che khuất một phần.
Nếu dữ liệu huấn luyện không bao gồm các biến thể này hoặc thiếu sự đa dạng về cách các đối tượng xuất hiện trong các cảnh và điều kiện khác nhau, mô hình có thể gặp khó khăn trong việc huấn luyện. detect nhận diện đối tượng một cách chính xác. Ví dụ, một mô hình được huấn luyện chủ yếu trên các cảnh sáng sủa, không bị lộn xộn có thể hoạt động kém hiệu quả trong môi trường thiếu sáng hoặc đông đúc. Trong các hệ thống an ninh, điều này có thể dẫn đến bỏ sót sự kiện hoặc cảnh báo sai.
Để tránh điều này, điều quan trọng là phải duy trì các tập dữ liệu không chỉ sạch sẽ và được dán nhãn chính xác, mà còn cân bằng và được cập nhật liên tục. Điều này có nghĩa là xác định những thiếu sót trong dữ liệu, thêm các ví dụ mới khi điều kiện thay đổi và đảm bảo các lớp và môi trường khác nhau được đại diện đồng đều.
Với bộ dữ liệu đầy đủ và có cấu trúc hơn, các mô hình sẽ có khả năng xử lý tốt hơn sự biến động trong thế giới thực và đưa ra các dự đoán đáng tin cậy hơn.
Các khía cạnh chính của quản lý tập dữ liệu
Vậy, quản lý tập dữ liệu thực chất trông như thế nào? Nó bao gồm việc tổ chức, gắn nhãn và duy trì dữ liệu để có thể sử dụng hiệu quả trong suốt quá trình phát triển mô hình.
Ví dụ, việc tổ chức dữ liệu bao gồm cấu trúc tập dữ liệu và chia nó thành các tập huấn luyện, tập xác thực và tập kiểm tra. Tập huấn luyện được sử dụng để dạy mô hình, tập xác thực được sử dụng để theo dõi hiệu suất và hướng dẫn điều chỉnh trong quá trình phát triển, và tập kiểm tra được sử dụng để đánh giá mức độ hoạt động của mô hình cuối cùng trên dữ liệu hoàn toàn chưa từng thấy.
Trong khi đó, việc gắn nhãn bao gồm chú thích hình ảnh với các chi tiết như nhãn lớp, hộp giới hạn hoặc mặt nạ phân đoạn. Vì mô hình học hỏi từ những chú thích này, độ chính xác và tính nhất quán rất quan trọng để giúp nó học được các mẫu có ý nghĩa và đưa ra dự đoán đáng tin cậy.
Ngoài ra, việc duy trì bộ dữ liệu còn bao gồm việc xem xét và cập nhật dữ liệu theo thời gian. Điều này có thể bao gồm việc sửa lỗi chú thích, loại bỏ dữ liệu chất lượng thấp hoặc trùng lặp, và thêm các ví dụ mới để bao phủ các trường hợp bị thiếu hoặc các điều kiện thay đổi.
Nói một cách tổng quát hơn, quản lý tập dữ liệu là một quá trình liên tục. Khi các mô hình được đánh giá và dữ liệu mới được thu thập, các tập dữ liệu cần được cập nhật để phản ánh các điều kiện thực tế và các trường hợp ngoại lệ. Việc theo dõi các bản cập nhật này và so sánh các phiên bản khác nhau giúp các nhóm hiểu được điều gì đang cải thiện hiệu suất và cần thay đổi thêm ở đâu.
Quản lý tập dữ liệu với Ultralytics Nền tảng
Ultralytics Nền tảng này cung cấp quy trình làm việc có cấu trúc để quản lý các tập dữ liệu trong một môi trường duy nhất, bao gồm mọi thứ từ chuẩn bị dữ liệu đến xuất dữ liệu. Nó được thiết kế để hỗ trợ cả các nhà phát triển cá nhân và các nhóm, giúp việc quản lý tập dữ liệu trở nên dễ dàng và nhất quán hơn, cho dù bạn đang làm việc độc lập hay cộng tác trong các dự án khác nhau.
Mỗi giai đoạn được thiết kế để đơn giản hóa cách thức tổ chức, xử lý và sử dụng tập dữ liệu trong suốt vòng đời phát triển mô hình. Bằng cách tập trung các bước này vào một nơi, nền tảng giúp giảm thiểu sự phân mảnh và đơn giản hóa việc duy trì tính nhất quán trong các quy trình làm việc.
Tiếp theo, chúng ta hãy cùng xem xét các bước chính liên quan và cách nền tảng hỗ trợ từng bước đó.
Đang tải tập dữ liệu lên Ultralytics Nền tảng
Việc bắt đầu sử dụng các tập dữ liệu trên nền tảng này rất linh hoạt, với nhiều cách để đưa vào hoặc tái sử dụng dữ liệu. Bạn có thể tải lên dữ liệu của riêng mình hoặc bắt đầu nhanh hơn bằng cách sử dụng các tập dữ liệu công khai có sẵn thông qua nền tảng. Bạn cũng có thể sao chép các tập dữ liệu hiện có được cộng đồng chia sẻ và xây dựng dựa trên chúng.
Các tính năng cộng đồng của nền tảng giúp bạn dễ dàng khám phá và tái sử dụng các tác phẩm hiện có. Với quyền truy cập vào các bộ dữ liệu do người dùng khác tạo ra, bao gồm hàng triệu hình ảnh và chú thích, bạn có thể nhanh chóng bắt đầu mà không cần phải tự mình thu thập và gắn nhãn mọi thứ. Sao chép một bộ dữ liệu sẽ tạo ra một bản sao trong không gian làm việc của bạn, cho phép bạn chỉnh sửa và mở rộng nó trong khi vẫn giữ nguyên bản gốc.
Đối với việc tải lên, nền tảng hỗ trợ các hình ảnh, video riêng lẻ và các tệp lưu trữ dữ liệu như ZIP, TAR hoặc GZ. Nền tảng này cũng hỗ trợ các định dạng dữ liệu phổ biến như... YOLO Và COCO Điều này giúp dễ dàng nhập các tập dữ liệu và chú thích hiện có mà không cần chuyển đổi thêm. Hơn nữa, bạn có thể tải lên tập dữ liệu bằng tệp NDJSON được xuất từ nền tảng, giúp việc tạo lại hoặc tái sử dụng tập dữ liệu giữa các dự án trở nên liền mạch.
Sau khi dữ liệu được tải lên, nền tảng sẽ xử lý dữ liệu thông qua một quy trình có cấu trúc. Điều này bao gồm việc xác thực định dạng và kích thước tệp, thay đổi kích thước hình ảnh khi cần thiết, phân tích chú thích và tạo số liệu thống kê tập dữ liệu.
Ví dụ, video được chuyển đổi thành các khung hình để có thể sử dụng cho việc huấn luyện, trong khi hình ảnh được tối ưu hóa và chuẩn bị để dễ dàng duyệt và phân tích hơn. Sau khi xử lý, các tập dữ liệu đã sẵn sàng để được sử dụng cho việc chú thích, phân tích và huấn luyện mô hình trong nền tảng.
Chú thích dữ liệu trên Ultralytics Nền tảng
Sau khi tải lên, các tập dữ liệu có thể được xem xét và chú thích trực tiếp trong nền tảng. Nền tảng này bao gồm các công cụ chú thích hình ảnh tích hợp sẵn cho một loạt các tác vụ thị giác máy tính, chẳng hạn như phát hiện đối tượng, phân đoạn thể hiện, ước tính tư thế, phát hiện hộp giới hạn định hướng (OBB) và phân loại hình ảnh.
Hình 2. Sử dụng Ultralytics Nền tảng ghi nhãn dữ liệu ( Nguồn )
Việc chú thích có thể được tạo thủ công bằng các công cụ này hoặc được tăng tốc nhờ các tính năng hỗ trợ trí tuệ nhân tạo như... SAM - Chú thích thông minh được hỗ trợ bởi. Với SAM Bạn có thể tạo mặt nạ, khung bao hoặc khung định hướng bằng cách tương tác với hình ảnh, giúp tăng tốc quá trình gắn nhãn trong khi vẫn duy trì độ chính xác.
Phân tích chất lượng tập dữ liệu thông qua Ultralytics Nền tảng
Bên cạnh việc chuẩn bị và chú thích dữ liệu, hiểu rõ chất lượng tập dữ liệu là điều cần thiết để xây dựng các mô hình thị giác máy tính đáng tin cậy. Nếu không nắm rõ các yếu tố như phân bố lớp, chất lượng chú thích, phân chia tập dữ liệu và cách dữ liệu được biểu diễn trong các điều kiện khác nhau, sẽ rất khó để phát hiện các vấn đề ảnh hưởng đến hiệu suất của mô hình.
Ultralytics Nền tảng này tích hợp các tính năng giúp phân tích tập dữ liệu hiệu quả hơn. Những thông tin chi tiết này có sẵn trực tiếp trong giao diện tập dữ liệu, trên các tab như Hình ảnh, Lớp và Biểu đồ.
Trong tab Biểu đồ, bạn có thể xem số liệu thống kê cấp độ tập dữ liệu như phân bổ theo từng phần (huấn luyện, xác thực và kiểm tra), tần suất lớp và bản đồ nhiệt chú thích hiển thị vị trí xuất hiện của các đối tượng trong hình ảnh.
Tab Lớp cung cấp thông tin chi tiết về số lượng chú thích cho mỗi lớp, giúp dễ dàng phát hiện sự mất cân bằng giữa các lớp. Trong khi đó, tab Hình ảnh hiển thị các chi tiết ở cấp độ hình ảnh như kích thước, số lượng chú thích và cách phân bố nhãn trên từng hình ảnh.
Những hiểu biết này giúp dễ dàng xác định các vấn đề như mất cân bằng lớp, thiếu kịch bản hoặc phân bố dữ liệu không đồng đều. Ví dụ, bạn có thể nhận thấy rằng một số lớp có rất ít ví dụ hoặc hầu hết các chú thích tập trung ở những khu vực cụ thể của hình ảnh.
Ngoài phân tích dữ liệu, nền tảng này còn hỗ trợ quản lý và bổ sung tập dữ liệu, nghĩa là tinh chỉnh các tập dữ liệu bằng cách sửa chữa hoặc loại bỏ dữ liệu có vấn đề và tạo ra các biến thể của dữ liệu hiện có để cải thiện hiệu suất mô hình. Những cải tiến này có thể được thực hiện trực tiếp trong nền tảng bằng cách cập nhật chú thích, thêm dữ liệu mới hoặc sắp xếp lại các phân chia tập dữ liệu dựa trên những hiểu biết từ phân tích.
Xuất tập dữ liệu từ Ultralytics Nền tảng
Sau khi tập dữ liệu được chuẩn bị và xác thực, nó có thể được xuất khẩu để sử dụng trong các môi trường khác nhau. Điều này mang lại cho bạn sự linh hoạt để sử dụng dữ liệu thị giác máy tính của mình ở bất cứ nơi nào bạn muốn, cho dù đó là huấn luyện mô hình cục bộ, trên đám mây hay trong các công cụ và quy trình làm việc khác.
Cái Ultralytics Nền tảng hỗ trợ nhiều định dạng xuất khẩu, bao gồm: YOLO , COCO và NDJSON, giúp dễ dàng tích hợp các tập dữ liệu vào các quy trình và công cụ huấn luyện khác nhau.
Hình 3. Xuất tập dữ liệu từ Ultralytics Nền tảng ( Nguồn )
Việc xuất một tập dữ liệu tạo ra một bản sao cố định của dữ liệu tại một thời điểm cụ thể, bao gồm hình ảnh, chú thích và cấu trúc của nó. Điều này rất hữu ích vì các tập dữ liệu thường thay đổi khi dữ liệu mới được thêm vào, chú thích được cập nhật hoặc các phân chia được điều chỉnh. Bằng cách xuất bản sao, bạn có thể lưu giữ phiên bản chính xác của tập dữ liệu được sử dụng cho một lần chạy huấn luyện cụ thể.
Điều này giúp việc tái tạo kết quả sau này trở nên đơn giản hơn, vì bạn có thể huấn luyện lại mô hình trên cùng một tập dữ liệu và so sánh hiệu suất giữa các phiên bản tập dữ liệu khác nhau. Ví dụ, bạn có thể đánh giá xem việc thêm hình ảnh mới hoặc sửa chú thích có thực sự cải thiện độ chính xác của mô hình hay không, thay vì chỉ đoán xem điều gì đã thay đổi.
Quá trình xuất dữ liệu được thực hiện bất đồng bộ, và sau khi hoàn tất, các tập dữ liệu có thể được tải xuống và sử dụng trong môi trường huấn luyện cục bộ, trên đám mây hoặc ngoại tuyến.
Cải thiện chất lượng tập dữ liệu thông qua các lần lặp lại. Ultralytics Nền tảng
Trong quy trình làm việc của học máy và học sâu, việc quản lý tập dữ liệu vẫn tiếp tục ngay cả sau khi triển khai vì dữ liệu thực tế thường khác với dữ liệu được sử dụng trong quá trình huấn luyện.
Khi các mô hình tiếp nhận dữ liệu đầu vào mới, những lỗ hổng trong tập dữ liệu, chẳng hạn như các điều kiện bị thiếu như môi trường thiếu sáng, góc máy quay khác nhau, hiện tượng che khuất hoặc cảnh đông đúc, cũng như các lỗi chú thích, sẽ trở nên rõ ràng hơn, khiến việc tinh chỉnh dữ liệu theo thời gian trở nên cần thiết.
Có nhiều cách để cải thiện tập dữ liệu. Bạn có thể thêm hình ảnh hoặc video mới để bù đắp những thiếu sót, chẳng hạn như môi trường thiếu sáng, góc máy quay khác nhau, vật cản hoặc cảnh đông đúc, giúp giảm thiểu các điểm mù trong dữ liệu.
Đồng thời, việc đảm bảo các chú thích chính xác và nhất quán, chẳng hạn như các đối tượng được dán nhãn chính xác và các hộp giới hạn hoặc mặt nạ chính xác, giúp mô hình học được các mẫu đáng tin cậy hơn.
Quá trình này thường tuân theo một vòng lặp đơn giản: huấn luyện mô hình , đánh giá kết quả, xác định lỗi, cải thiện tập dữ liệu và huấn luyện lại. Mỗi bước giúp làm nổi bật các vấn đề như chú thích không chính xác, dữ liệu bị thiếu hoặc các trường hợp chưa được đại diện đầy đủ.
Giả sử bạn đang làm việc trên một hệ thống giám sát kệ hàng bán lẻ theo thời gian thực được sử dụng để... detect sản phẩm trong cửa hàng. Các phiên bản đầu của bộ dữ liệu có thể không bao gồm một số loại sản phẩm, điều kiện ánh sáng hoặc cách bố trí kệ hàng chật chội. Trong quá trình đánh giá, bạn có thể nhận thấy mô hình gặp khó khăn trong việc... detect các vật phẩm trong những tình huống này.
Để cải thiện hiệu suất, bạn có thể thu thập thêm hình ảnh mới bao phủ các trường hợp còn thiếu và cập nhật chú thích khi cần thiết. Theo thời gian, việc lặp lại quy trình này giúp mô hình trở nên chính xác và đáng tin cậy hơn trong điều kiện thực tế.
Ultralytics Nền tảng hỗ trợ quy trình làm việc này bằng cách kết nối việc cập nhật tập dữ liệu với quá trình huấn luyện và đánh giá. Với tính năng theo dõi thử nghiệm và các chỉ số hiệu suất được tích hợp sẵn, việc theo dõi tiến độ và liên tục cải thiện tập dữ liệu theo thời gian trở nên dễ dàng hơn.
Theo dõi các thay đổi của tập dữ liệu bằng cách sử dụng Ultralytics Nền tảng
Chúng ta đã thảo luận ngắn gọn về cách các tập dữ liệu phát triển theo thời gian như một phần của quá trình phát triển mô hình. Khi dữ liệu mới được thêm vào, các chú thích được tinh chỉnh và các lớp được cập nhật, quá trình này giúp duy trì sự phát triển đó. track Những thay đổi này trở nên then chốt để duy trì chất lượng dữ liệu và đảm bảo hiệu suất mô hình ổn định.
Dưới đây là một số điểm chính. Ultralytics Các tính năng của nền tảng hỗ trợ theo dõi tập dữ liệu và kiểm soát phiên bản:
Quản lý phiên bản tập dữ liệu :Bạn có thể tạo các phiên bản tập dữ liệu cố định dưới dạng ảnh chụp nhanh NDJSON. Mỗi phiên bản ghi lại các chi tiết quan trọng như số lượng hình ảnh, số lượng lớp, số lượng chú thích và kích thước tập dữ liệu tại một thời điểm cụ thể. Các phiên bản này được lưu trữ và có thể tải xuống sau này, giúp dễ dàng tái tạo thí nghiệm và so sánh kết quả giữa các trạng thái tập dữ liệu khác nhau.
Tab Phiên bản: Tất cả các phiên bản của tập dữ liệu được sắp xếp trong tab Phiên bản, nơi bạn có thể xem lịch sử phiên bản, thêm mô tả cho các thay đổi và track Cách bộ dữ liệu thay đổi theo thời gian.
Liên kết với các mô hình: Tab Mô hình hiển thị tất cả các mô hình được huấn luyện trên một tập dữ liệu, bao gồm các chỉ số như... mAP và các chi tiết huấn luyện. Phiên bản tập dữ liệu được liên kết với các lần chạy huấn luyện, giúp bạn hiểu được sự thay đổi trong dữ liệu ảnh hưởng đến hiệu suất mô hình như thế nào.
Tab Lỗi: Tab Lỗi hiển thị các tệp bị lỗi trong quá trình xử lý, cùng với chi tiết lỗi và các đề xuất. Điều này cho phép bạn xác định và khắc phục các sự cố như tệp bị hỏng hoặc định dạng không được hỗ trợ trước khi tiến hành huấn luyện.
Giao diện tập dữ liệu (các tab Hình ảnh và Lớp): Các chế độ xem này cho phép bạn duyệt hình ảnh, xem lại chú thích, quản lý nhãn lớp và phân tích sự phân bố lớp. Các tính năng như lọc, sắp xếp và xác định hình ảnh chưa được chú thích giúp việc theo dõi chất lượng tập dữ liệu theo thời gian trở nên đơn giản hơn.
Thống kê và biểu đồ: Các công cụ trực quan hóa dữ liệu tích hợp sẵn, chẳng hạn như phân bố chia nhỏ, tần suất lớp và bản đồ nhiệt chú thích, giúp track những thay đổi trong phân bố dữ liệu và xác định sự mất cân bằng khi tập dữ liệu phát triển.
Hình 4. Phân tích sự phân bố lớp của tập dữ liệu trên Ultralytics Nền tảng ( Nguồn )
Kết nối các tập dữ liệu với quá trình huấn luyện và triển khai trong môi trường... Ultralytics Nền tảng
Ultralytics Nền tảng này kết nối các giai đoạn khác nhau của quá trình phát triển mô hình AI thành một quy trình duy nhất. Điều này giúp đơn giản hóa quá trình chuyển đổi từ dữ liệu thô sang các ứng dụng AI thị giác sẵn sàng cho sản xuất.
Sau khi các tập dữ liệu được chuẩn bị và chú thích, chúng có thể được sử dụng để huấn luyện các mô hình thị giác máy tính, chẳng hạn như Ultralytics YOLO26 , trực tiếp trong nền tảng. Trong quá trình huấn luyện, bạn có thể theo dõi các chỉ số hiệu suất, track thực hiện các thí nghiệm và đánh giá hiệu quả học tập của mô hình bằng cách sử dụng các bảng điều khiển tích hợp sẵn.
Hình 5. Một cái nhìn thoáng qua về các chỉ số huấn luyện mô hình trên Ultralytics Nền tảng ( Nguồn )
Sau khi huấn luyện, các mô hình có thể được kiểm tra trên các hình ảnh mới trực tiếp trong trình duyệt để đánh giá khả năng dự đoán và xác định các lĩnh vực cần cải thiện trước khi triển khai. Khi mô hình hoạt động tốt, nó có thể được triển khai vào môi trường sản xuất.
Nền tảng này hỗ trợ xuất các mô hình sang nhiều định dạng khác nhau hoặc triển khai chúng thông qua các dịch vụ suy luận và các điểm cuối chuyên dụng, cho phép chúng chạy trên các môi trường khác nhau.
Sau khi được triển khai, các công cụ giám sát tích hợp sẽ giúp track Hiệu suất hệ thống theo thời gian, bao gồm các chỉ số liên quan đến mức độ sử dụng và hành vi của mô hình. Điều này giúp việc bảo trì và cải thiện các hệ thống AI thị giác trong các ứng dụng thực tế trở nên dễ dàng hơn.
Các phương pháp tốt nhất để quản lý tập dữ liệu với Ultralytics Nền tảng
Dưới đây là một số yếu tố quan trọng cần lưu ý khi quản lý tập dữ liệu của bạn bằng cách sử dụng... Ultralytics Nền tảng:
Sử dụng bộ lọc để tìm các khoảng trống: Xác định dữ liệu chưa được gắn nhãn hoặc chưa được thể hiện đầy đủ bằng các công cụ lọc, giúp việc hoàn thiện chú thích trở nên dễ dàng hơn và cải thiện độ bao phủ.
Khắc phục lỗi sớm: Sử dụng tab Lỗi để kiểm soát chất lượng, phát hiện các lỗi tải lên, tệp bị hỏng hoặc định dạng không được hỗ trợ trước khi bắt đầu huấn luyện.
Cập nhật liên tục các tập dữ liệu: Thêm dữ liệu mới, sửa lỗi chú thích và bao gồm các trường hợp ngoại lệ khi chúng xuất hiện. Điều này giúp cải thiện độ bao phủ và đảm bảo các mô hình hoạt động đáng tin cậy trong các tình huống thực tế.
Quản lý việc phân chia tập dữ liệu một cách cẩn thận: Đảm bảo sự cân bằng tốt giữa tập huấn luyện, tập xác thực và tập kiểm tra. Bạn có thể sắp xếp lại việc phân chia theo cách thủ công hoặc sử dụng phân phối lại tự động khi cần thiết.
Khi các dự án thị giác máy tính mở rộng quy mô, việc quản lý tập dữ liệu hiệu quả trở nên quan trọng không kém gì việc phát triển mô hình. Một phương pháp tiếp cận có cấu trúc đối với quản lý tập dữ liệu giúp cải thiện chất lượng dữ liệu, tối ưu hóa quy trình làm việc và hỗ trợ hiệu suất mô hình tốt hơn theo thời gian.
Ultralytics Nền tảng này đơn giản hóa quy trình bằng cách tích hợp quản lý tập dữ liệu, huấn luyện và triển khai vào một quy trình làm việc duy nhất. Bằng cách áp dụng phương pháp tiếp cận có cấu trúc đối với quản lý tập dữ liệu, các nhóm có thể giảm độ phức tạp, cải thiện hiệu quả và xây dựng các hệ thống thị giác máy tính có khả năng mở rộng và đáng tin cậy hơn.