Đón xem YOLO Vision 2025!
25 tháng 9, 2025
10:00 — 18:00 BST
Sự kiện kết hợp
Yolo Vision 2024

Dữ liệu tổng hợp (synthetic data) trong computer vision là gì? Tổng quan

Abirami Vina

5 phút đọc

Ngày 4 tháng 7 năm 2025

Khám phá cách dữ liệu tổng hợp để huấn luyện mô hình AI được sử dụng trong các ứng dụng thị giác máy tính trên nhiều ngành công nghiệp như chăm sóc sức khỏe và robot.

Dữ liệu luôn là yếu tố thúc đẩy trong các lĩnh vực như phân tích và trí tuệ nhân tạo (AI). Trên thực tế, cách chúng ta thu thập, tạo và sử dụng dữ liệu đang định hình tương lai của các hệ thống thông minh. Ví dụ: xe tự lái phụ thuộc vào hàng triệu hình ảnh được gắn nhãn và các chỉ số cảm biến, từ biển báo đường phố đến chuyển động của người đi bộ, để học cách điều hướng đường xá an toàn.

Một trong những loại dữ liệu quan trọng nhất thúc đẩy sự tiến bộ này, đặc biệt là trong các lĩnh vực như xe tự hành và an ninh, là dữ liệu trực quan như hình ảnh và video. 

Đặc biệt, lĩnh vực AI cho phép máy móc diễn giải thông tin trực quan này được gọi là thị giác máy tính. Nó giúp các hệ thống hiểu và phân tích các đầu vào trực quan giống như con người, hỗ trợ các tác vụ như nhận dạng khuôn mặt, phát hiện biển báo giao thông và phân tích hình ảnh y tế. 

Tuy nhiên, việc thu thập các bộ dữ liệu trực quan quy mô lớn, chất lượng cao từ thế giới thực có thể tốn thời gian, tốn kém và thường làm dấy lên những lo ngại về quyền riêng tư. Đó là lý do tại sao các nhà nghiên cứu đang tích cực khám phá khái niệm tận dụng dữ liệu tổng hợp. 

Dữ liệu tổng hợp (Synthetic data) đề cập đến hình ảnh được tạo ra một cách nhân tạo, mô phỏng chặt chẽ hình ảnh và video trong thế giới thực. Nó được tạo ra bằng các kỹ thuật như mô hình 3D, mô phỏng máy tính và các phương pháp AI tạo sinh như Mạng đối nghịch tạo sinh (GANs), học các mẫu từ dữ liệu thực để tạo ra các ví dụ mới thực tế.

Dữ liệu tổng hợp dự kiến sẽ đóng một vai trò quan trọng trong phát triển AI sớm - với việc Gartner dự đoán rằng đến năm 2030, nó sẽ trở nên cần thiết hơn dữ liệu thế giới thực. Trong bài viết này, chúng ta sẽ khám phá dữ liệu tổng hợp là gì trong bối cảnh thị giác máy tính, cách nó được tạo ra và nơi nó đang được áp dụng trong các tình huống thực tế. Hãy bắt đầu nào!

Dữ liệu tổng hợp (synthetic data) trong computer vision là gì?

Giả sử bạn muốn huấn luyện một mô hình Vision AI để phát hiện các đối tượng trong nhiều môi trường và điều kiện khác nhau. Việc chỉ dựa vào dữ liệu thực tế có thể khó khăn và đôi khi cảm thấy hạn chế. 

Trong khi đó, dữ liệu tổng hợp có thể được sử dụng để tạo ra bộ dữ liệu phù hợp, chứa các đối tượng trong nhiều điều kiện được tạo ra một cách nhân tạo. Sử dụng các công cụ như mô hình 3D và mô phỏng, các nhà phát triển có thể tạo ra hình ảnh với khả năng kiểm soát chính xác các yếu tố như ánh sáng, góc độ và vị trí đối tượng. Điều này, đến lượt nó, mang lại sự linh hoạt hơn cho quá trình huấn luyện mô hình so với dữ liệu thực tế.

Dữ liệu tổng hợp đặc biệt hữu ích khi việc thu thập dữ liệu thế giới thực là khó khăn hoặc không thể. Ví dụ: huấn luyện một mô hình để nhận dạng người ở nhiều tư thế khác nhau, chẳng hạn như chạy, cúi người hoặc nằm xuống, sẽ yêu cầu chụp hàng nghìn bức ảnh trong nhiều cài đặt, góc độ và điều kiện ánh sáng khác nhau. 

Mặt khác, với dữ liệu tổng hợp, các nhà phát triển có thể dễ dàng tạo ra các biến thể này với nhãn chính xác, tiết kiệm thời gian và công sức đồng thời cải thiện hiệu suất của mô hình.

Hình 1. Một tập dữ liệu tổng hợp với các tư thế người và biến thể ánh sáng khác nhau (nguồn).

Dữ liệu tổng hợp so với dữ liệu thực trong AI

Tiếp theo, hãy xem xét kỹ hơn sự khác biệt giữa dữ liệu tổng hợp và dữ liệu thực. Cả hai đều có ưu và nhược điểm khi nói đến việc huấn luyện các mô hình AI

Ví dụ: dữ liệu tổng hợp rất hữu ích khi dữ liệu thực khó thu thập, nhưng nó có thể không nắm bắt được mọi chi tiết nhỏ được tìm thấy trong đời thực. Đồng thời, dữ liệu thực xác thực hơn, nhưng có thể khó tìm nguồn, tốn thời gian để gắn nhãn và có thể không bao gồm mọi tình huống.

Bằng cách kết hợp dữ liệu tổng hợp và dữ liệu thực, các nhà phát triển có thể tận dụng tốt nhất cả hai. Sự cân bằng này giúp các mô hình AI học chính xác hơn, khái quát hóa tốt hơn trên các kịch bản khác nhau và giảm thiểu sai lệch.

Hình 2. Dữ liệu tổng hợp so với dữ liệu thực trong AI. Ảnh của tác giả.

Một cái nhìn về việc tạo dữ liệu cho các mô hình computer vision

Từ xây dựng thế giới ảo bằng các công cụ 3D đến tạo hình ảnh bằng AI tạo sinh, đây là một số phương pháp phổ biến được sử dụng để tạo dữ liệu huấn luyện tổng hợp cho các mô hình thị giác máy tính:

  • Mô hình hóa 3D: Các nhà phát triển sử dụng phần mềm 3D để tạo ra các đối tượng và cảnh kỹ thuật số. Điều này cho phép kiểm soát hoàn toàn các yếu tố như ánh sáng, góc camera và vị trí đối tượng, đồng thời hữu ích cho việc tạo ra hình ảnh thực tế về con người, phương tiện và môi trường.

  • Mô phỏng: Chúng tái tạo các tình huống trong thế giới thực, như giao thông hoặc môi trường nhà máy, bằng cách sử dụng các công cụ dựa trên vật lý. Mô phỏng rất hữu ích để tạo dữ liệu huấn luyện một cách an toàn trong các lĩnh vực như robot và xe tự lái.

  • Mạng đối nghịch tạo sinh: GAN là một loại mô hình học sâu được tạo thành từ hai mạng: một mạng tạo hình ảnh và một mạng đánh giá chúng. Cùng nhau, chúng tạo ra những hình ảnh có độ chân thực cao, chẳng hạn như khuôn mặt người hoặc cảnh đường phố, bằng cách học hỏi từ các ví dụ thực tế.

  • Tạo dữ liệu theo thủ tục: Kỹ thuật này sử dụng các quy tắc hoặc mô hình toán học được xác định trước để tự động tạo ra các cấu trúc hình ảnh phức tạp như địa hình, tòa nhà hoặc họa tiết. Nó thường được sử dụng trong các nền tảng trò chơi và mô phỏng và có thể tạo ra các tập dữ liệu quy mô lớn, đa dạng với đầu vào tối thiểu của con người.

  • Domain randomization (Ngẫu nhiên hóa miền): Kỹ thuật này có thể thay đổi ngẫu nhiên các yếu tố như ánh sáng, màu sắc và hình dạng đối tượng trong các cảnh tổng hợp. Mục tiêu của kỹ thuật này là giúp các mô hình tập trung vào những yếu tố thực sự quan trọng, giúp chúng thích ứng tốt hơn với môi trường thực tế.
Hình 3. Các ví dụ dữ liệu: (a) dựa trên mô hình 3D, (b) cảnh đa đối tượng tổng hợp và (c) hình ảnh bộ dữ liệu thực (nguồn).

Đào tạo mô hình Vision AI bằng dữ liệu tổng hợp

Sau khi thảo luận về một số phương pháp khác nhau được sử dụng để tạo dữ liệu tổng hợp, hãy cùng tìm hiểu cách nó được sử dụng để huấn luyện các mô hình AI. 

Sau khi được tạo, dữ liệu tổng hợp thường có thể được tích hợp trực tiếp vào quy trình huấn luyện giống như dữ liệu thế giới thực. Nó thường bao gồm các chú thích cần thiết, chẳng hạn như nhãn đối tượng, hộp giới hạn hoặc mặt nạ phân vùng, có nghĩa là nó có thể được sử dụng cho các tác vụ học có giám sát, trong đó các mô hình học từ các cặp đầu vào-đầu ra được gắn nhãn, mà không cần gắn nhãn thủ công.

Trong quá trình huấn luyện, mô hình xử lý hình ảnh tổng hợp để học cách phát hiện các đặc trưng, nhận dạng các mẫu và phân loại các đối tượng. Dữ liệu này có thể được sử dụng để xây dựng phiên bản ban đầu của mô hình từ đầu hoặc để làm phong phú thêm một tập dữ liệu hiện có, giúp cải thiện hiệu suất của mô hình.

Trong nhiều quy trình làm việc, dữ liệu tổng hợp cũng được sử dụng để huấn luyện trước, cung cấp cho các mô hình một sự hiểu biết nền tảng rộng rãi trước khi được tinh chỉnh bằng các ví dụ thực tế. Tương tự, nó được sử dụng để tăng cường bộ dữ liệu bằng cách giới thiệu các biến thể được kiểm soát, như các điều kiện ánh sáng, góc độ hoặc các lớp đối tượng hiếm khác nhau, để cải thiện khả năng khái quát hóa và giảm tình trạng quá khớp (overfitting). 

Bằng cách kết hợp dữ liệu tổng hợp và dữ liệu thực, các nhóm có thể huấn luyện các mô hình mạnh mẽ hơn, hoạt động tốt trong nhiều điều kiện khác nhau, đồng thời giảm sự phụ thuộc vào các nỗ lực thu thập dữ liệu thủ công tốn thời gian và tốn kém.

Ứng dụng thực tế của dữ liệu tổng hợp trong thị giác máy tính

Khi dữ liệu tổng hợp trở nên thiết thực và dễ tiếp cận hơn, chúng ta bắt đầu thấy nó được áp dụng trong nhiều trường hợp sử dụng Vision AI thực tế. Hãy khám phá một số ứng dụng trong computer vision có tác động lớn nhất, nơi nó đang được sử dụng.

Sử dụng dữ liệu tổng hợp để phát hiện đối tượng trong xe tự hành

Việc dạy xe tự lái lái xe an toàn đòi hỏi phải huấn luyện các mô hình trên một loạt các tình huống, bao gồm cả các tình huống hiếm gặp hoặc nguy hiểm. Tuy nhiên, việc thu thập dữ liệu thực tế cho các trường hợp đặc biệt này có thể gặp nhiều khó khăn và đôi khi không an toàn. Dữ liệu tổng hợp có thể giúp tạo ra các cảnh mà các mô hình có thể học cách phát hiện các đối tượng trong các tình huống khó khăn. Nó cũng có thể mô phỏng các cấu hình cảm biến khác nhau, điều này hữu ích vì không phải tất cả xe tự lái đều sử dụng cùng một phần cứng.

Nền tảng DRIVE Sim của NVIDIA là một ví dụ tuyệt vời về điều này. Nó tạo ra dữ liệu tổng hợp chất lượng cao bằng cách sử dụng các mô hình 3D chân thực như ảnh chụp, môi trường ảo và mô phỏng cảm biến. Nó cũng có thể tạo ra hình ảnh về nhiều góc lái xe từ một hình ảnh duy nhất. Việc sử dụng dữ liệu tổng hợp như thế này giúp giảm nhu cầu kiểm tra thực tế tốn kém, đồng thời cung cấp cho mô hình sự đa dạng cần thiết để học hỏi hiệu quả.

Hình 4. Tạo nhiều chế độ xem lái xe từ một hình ảnh (nguồn).

Giảm sai lệch trong AI hình ảnh y tế bằng dữ liệu tổng hợp

Các mô hình thị giác máy tính như Ultralytics YOLO11 hỗ trợ các tác vụ như phát hiện đối tượng và phân đoạn thể hiện có thể được tùy chỉnh huấn luyện cho các ứng dụng hình ảnh y tế. Tuy nhiên, dữ liệu huấn luyện thực tế thường chứa các sai lệch, vì nó có thể không đại diện đầy đủ cho bệnh nhân từ tất cả các nhóm nhân khẩu học.

Ví dụ: ung thư da ít được chẩn đoán hơn ở những người có tông màu da sẫm màu hơn, dẫn đến dữ liệu hạn chế cho những đối tượng này. Sự mất cân bằng này có thể góp phần vào việc chẩn đoán sai và kết quả chăm sóc sức khỏe không công bằng, đặc biệt trong các lĩnh vực như mô bệnh học, chụp X-quang ngực và da liễu.

Hình ảnh tổng hợp có thể đóng một vai trò trong việc tiến một bước tới việc thu hẹp khoảng cách này trong dữ liệu. Bằng cách tạo ra các ví dụ bổ sung, đa dạng, chẳng hạn như các bất thường về mô khác nhau, một loạt các tình trạng phổi và tông màu da với các loại tổn thương khác nhau, dữ liệu tổng hợp có thể giúp cải thiện hiệu suất mô hình trên các nhóm chưa được đại diện. 

Các nhà nghiên cứu hiện đang nỗ lực phát triển và xác thực các bộ dữ liệu tổng hợp để hỗ trợ các mục tiêu này. Họ cũng đang khám phá cách dữ liệu tổng hợp có thể được sử dụng để kiểm tra các công cụ y tế và các chiến lược điều trị mà không cần dựa vào hồ sơ bệnh nhân thực tế, giúp đẩy nhanh quá trình nghiên cứu đồng thời bảo vệ quyền riêng tư của bệnh nhân. Thông qua công việc này, dữ liệu tổng hợp đang mở đường cho các hệ thống AI y tế toàn diện, chính xác và đạo đức hơn.

Thúc đẩy AI nông nghiệp bằng dữ liệu tổng hợp để canh tác chính xác

Việc xây dựng các hệ thống Vision AI cho các ứng dụng nông nghiệp phụ thuộc vào việc tiếp cận một lượng lớn dữ liệu được gắn nhãn. Tuy nhiên, việc thu thập và gắn nhãn hình ảnh về cây trồng, bệnh tật và điều kiện đồng ruộng diễn ra chậm, tốn kém và thường bị giới hạn bởi những thứ như thời tiết, mùa vụ hoặc mức độ khó khăn để tiếp cận một số khu vực nhất định. 

Những thách thức này gây khó khăn cho việc huấn luyện các mô hình thị giác máy tính để xử lý các tác vụ như phát hiện bệnh thực vật, giám sát mùa màng hoặc dự đoán năng suất. Đó là lý do tại sao dữ liệu tổng hợp có thể giúp ích - bằng cách mô phỏng các môi trường canh tác khác nhau để tạo ra các ví dụ huấn luyện hữu ích.

Hình 5. Sử dụng hình ảnh tổng hợp để cải thiện khả năng phát hiện bệnh (Nguồn).

Những điều cần nhớ

Sử dụng dữ liệu tổng hợp thể hiện một bước tiến quan trọng trong huấn luyện mô hình AI, đặc biệt đối với các hệ thống thị giác máy tính trong các lĩnh vực mà dữ liệu thế giới thực bị hạn chế hoặc khó thu thập. Thay vì chỉ dựa vào ảnh hoặc video thực tế, có thể tốn kém, tốn thời gian hoặc làm dấy lên lo ngại về quyền riêng tư, dữ liệu tổng hợp cho phép chúng ta tạo ra hình ảnh được gắn nhãn thực tế theo yêu cầu. 

Nó giúp dễ dàng huấn luyện các mô hình Vision AI cho các tác vụ như lái xe tự động, phát hiện bệnh hoặc giám sát mùa màng. Khi AI tiếp tục phát triển, dữ liệu tổng hợp được thiết lập để đóng một vai trò lớn hơn nữa trong việc đẩy nhanh đổi mới và cải thiện khả năng tiếp cận trong các ngành công nghiệp.

Tìm hiểu thêm về AI trên kho lưu trữ GitHub của chúng tôi và tham gia cộng đồng đang phát triển của chúng tôi. Khám phá tác động của các ứng dụng như AI trong xe tự hànhcomputer vision trong nông nghiệp. Khám phá các tùy chọn cấp phép của chúng tôi và biến các dự án Vision AI của bạn thành hiện thực.

Hãy cùng nhau xây dựng tương lai
của AI!

Bắt đầu hành trình của bạn với tương lai của học máy

Bắt đầu miễn phí
Đã sao chép liên kết vào clipboard