Mọi điều bạn cần biết về thị giác máy tính trong năm 2025
Khám phá cách thị giác máy tính đang chuyển đổi các ngành công nghiệp với các tác vụ hỗ trợ bởi AI như phát hiện vật thể, phân loại hình ảnh và ước tính tư thế.

Hai mươi năm trước, ý tưởng về việc máy móc và máy tính có thể nhìn thấy và hiểu được thế giới chỉ là khoa học viễn tưởng. Ngày nay, nhờ những tiến bộ trong trí tuệ nhân tạo (AI), khái niệm đó đã trở thành hiện thực. Cụ thể, thị giác máy tính (CV), một nhánh của AI, cho phép máy móc hiểu và phân tích hình ảnh cũng như video. Cho dù là nhận diện đối tượng theo thời gian thực, cải thiện hệ thống an ninh hay tự động hóa các tác vụ phức tạp, tiềm năng của nó đang vượt xa những giới hạn của những gì có thể thực hiện được.
Thị giác máy tính đang nhanh chóng định hình tương lai của công nghệ khi nhiều ngành công nghiệp khác nhau khám phá các phương thức khác nhau để áp dụng những khả năng độc đáo của nó. Quy mô thị trường thị giác máy tính toàn cầu đã đạt 19,83 tỷ USD vào năm 2024 và dự kiến sẽ tăng trưởng 19,8% mỗi năm trong những năm tới.

Hình 1. Quy mô thị trường thị giác máy tính toàn cầu.
Trong bài viết này, chúng ta sẽ tìm hiểu kỹ hơn về thị giác máy tính, bao gồm nó là gì, quá trình phát triển ra sao và cách thức hoạt động hiện nay. Chúng ta cũng sẽ khám phá một số ứng dụng thú vị nhất của nó. Hãy bắt đầu thôi!
Link to this sectionThị giác máy tính là gì?#
Thị giác máy tính là một lĩnh vực con của AI, tận dụng máy học và mạng thần kinh để dạy máy tính hiểu nội dung của dữ liệu thị giác, chẳng hạn như hình ảnh hoặc tệp video. Những hiểu biết thu thập được từ hình ảnh đã qua xử lý có thể được sử dụng để đưa ra các quyết định tốt hơn. Ví dụ, thị giác máy tính có thể được sử dụng trong bán lẻ để theo dõi mức tồn kho bằng cách phân tích hình ảnh kệ hàng hoặc nâng cao trải nghiệm mua sắm với các hệ thống thanh toán tự động. Nhiều doanh nghiệp đang sử dụng công nghệ thị giác máy tính cho các ứng dụng khác nhau, từ những tác vụ như thêm bộ lọc vào ảnh trên điện thoại thông minh đến kiểm soát chất lượng trong sản xuất.
Bạn có thể đang thắc mắc: tại sao lại có nhu cầu lớn về các giải pháp thị giác máy tính đến vậy? Các tác vụ đòi hỏi sự chú ý liên tục, như phát hiện lỗi hoặc nhận diện mô hình, có thể rất khó khăn đối với con người. Mắt có thể mệt mỏi và các chi tiết có thể bị bỏ lỡ, đặc biệt là trong các môi trường nhịp độ nhanh hoặc phức tạp.
Trong khi con người giỏi nhận diện các đối tượng ở nhiều kích thước, màu sắc, ánh sáng hoặc góc độ khác nhau, họ thường gặp khó khăn trong việc duy trì sự nhất quán dưới áp lực. Ngược lại, các giải pháp thị giác máy tính hoạt động không ngừng nghỉ, xử lý lượng lớn dữ liệu thị giác một cách nhanh chóng và chính xác. Ví dụ, nó có thể phân tích giao thông theo thời gian thực để phát hiện ùn tắc, tối ưu hóa thời gian đèn tín hiệu hoặc thậm chí xác định tai nạn nhanh hơn so với người quan sát là con người.
Link to this sectionTìm hiểu lịch sử của thị giác máy tính#
Qua nhiều năm, thị giác máy tính đã phát triển từ một khái niệm lý thuyết thành một công nghệ đáng tin cậy thúc đẩy đổi mới trong nhiều ngành công nghiệp. Hãy cùng xem xét một số cột mốc quan trọng đã định hình sự phát triển của nó:
-
Thập niên 1950 - 1960: Các nhà nghiên cứu bắt đầu phát triển các thuật toán để xử lý và phân tích dữ liệu thị giác, nhưng tiến độ còn chậm do sức mạnh tính toán hạn chế.
-
Thập niên 1970: Thập kỷ này đã chứng kiến những cải tiến lớn về thuật toán, như Hough Transform, giúp cải thiện khả năng phát hiện các đường thẳng và hình dạng hình học trong hình ảnh. Nhận dạng ký tự quang học (OCR) cũng xuất hiện, giúp máy móc có thể đọc được văn bản in.
-
Thập niên 1980 - 1990: Máy học bắt đầu đóng vai trò trong thị giác máy tính, mở đường cho những khả năng tiên tiến hơn và những đột phá trong tương lai.
-
Thập niên 2000 - 2010: Học sâu (deep learning) đã mang lại một chiều hướng mới cho thị giác máy tính, trang bị cho máy móc khả năng diễn giải dữ liệu thị giác hiệu quả hơn. Nó nâng cao các khả năng như nhận diện đối tượng, phân tích chuyển động và thực hiện các tác vụ phức tạp.
Ngày nay, thị giác máy tính đang tiến bộ nhanh chóng và thay đổi cách chúng ta giải quyết vấn đề trong các lĩnh vực như chăm sóc sức khỏe, xe tự lái và thành phố thông minh. Các model Ultralytics YOLO (You Only Look Once), được thiết kế cho các tác vụ thị giác máy tính theo thời gian thực, giúp việc triển khai AI thị giác trở nên dễ dàng, hiệu quả và chính xác hơn trong nhiều ngành công nghiệp. Khi AI và phần cứng tiếp tục cải thiện, các model này đang giúp các doanh nghiệp đưa ra quyết định thông minh hơn và hợp lý hóa hoạt động bằng cách sử dụng phân tích dữ liệu thị giác tiên tiến.
Link to this sectionPhân tích cách thức hoạt động của thị giác máy tính#
Các hệ thống thị giác máy tính hoạt động bằng cách sử dụng các mạng thần kinh, là các thuật toán lấy cảm hứng từ cách bộ não con người làm việc, để phân tích hình ảnh. Một loại cụ thể, gọi là Mạng thần kinh tích chập (CNN), đặc biệt giỏi trong việc nhận diện các mô hình như cạnh và hình dạng trong ảnh.
Để đơn giản hóa dữ liệu thị giác, các kỹ thuật như gộp (pooling) tập trung vào các phần quan trọng nhất của hình ảnh, trong khi các lớp bổ sung xử lý thông tin này để thực hiện các tác vụ như xác định đặc trưng hoặc phát hiện đối tượng. Các model tiên tiến như Ultralytics YOLO11, được thiết kế cho tốc độ và độ chính xác, giúp việc xử lý hình ảnh theo thời gian thực trở nên khả thi.

Hình 2. Một ví dụ về việc sử dụng Ultralytics YOLO11 để phát hiện đối tượng.
Một ứng dụng thị giác máy tính điển hình bao gồm nhiều bước để chuyển đổi hình ảnh thô thành thông tin hữu ích. Dưới đây là bốn giai đoạn chính:
-
Thu thập hình ảnh: Dữ liệu thị giác được thu thập bằng camera hoặc cảm biến, và chất lượng hình ảnh phụ thuộc vào loại cảm biến được sử dụng.
-
Xử lý hình ảnh: Dữ liệu thu thập được sau đó được tăng cường thông qua các kỹ thuật tiền xử lý như giảm nhiễu và làm nổi bật các cạnh để dễ dàng phân tích hơn.
-
Trích xuất đặc trưng: Các chi tiết quan trọng, như hình dạng và kết cấu, được chọn ra, tập trung vào những phần quan trọng nhất của hình ảnh.
-
Nhận diện mô hình: Các đặc trưng được xác định sẽ được phân tích bằng máy học để hoàn thành các tác vụ như phát hiện đối tượng, theo dõi chuyển động hoặc nhận diện mô hình.
Link to this sectionKhám phá các tác vụ thị giác máy tính#
Bạn có thể đã nhận thấy rằng khi nói về cách thức hoạt động của thị giác máy tính, chúng tôi đã đề cập đến các tác vụ thị giác máy tính. Các model như Ultralytics YOLO11 được xây dựng để hỗ trợ các tác vụ này, cung cấp các giải pháp nhanh chóng và chính xác cho các ứng dụng thực tế. Từ phát hiện đối tượng đến theo dõi chuyển động của chúng, YOLO11 xử lý các tác vụ này một cách hiệu quả. Hãy cùng khám phá một số tác vụ thị giác máy tính chính mà nó hỗ trợ và cách chúng hoạt động.
Link to this sectionPhát hiện đối tượng#
Phát hiện đối tượng là một tác vụ thị giác máy tính then chốt, và nó được sử dụng để xác định các đối tượng quan tâm trong hình ảnh. Đầu ra của một tác vụ phát hiện đối tượng là một tập hợp các bbox (các hình chữ nhật được vẽ xung quanh các đối tượng được phát hiện trong hình ảnh), cùng với nhãn lớp (danh mục hoặc loại của mỗi đối tượng, chẳng hạn như "xe hơi" hoặc "người") và điểm tin cậy (một giá trị số cho biết mức độ chắc chắn của model về mỗi phát hiện). Ví dụ, phát hiện đối tượng có thể được sử dụng để xác định và xác định vị trí của một người đi bộ trên đường phố hoặc một chiếc xe trong giao thông.

Hình 3. YOLO11 đang được sử dụng để phát hiện đối tượng.
Link to this sectionPhân loại hình ảnh#
Mục tiêu chính của phân loại hình ảnh là gán một nhãn hoặc danh mục được xác định trước cho một hình ảnh đầu vào dựa trên nội dung tổng thể của nó. Tác vụ này thường liên quan đến việc xác định đối tượng hoặc đặc trưng chủ đạo trong hình ảnh. Ví dụ, phân loại hình ảnh có thể được sử dụng để xác định xem một hình ảnh chứa con mèo hay con chó. Các model thị giác máy tính như YOLO11 thậm chí có thể được huấn luyện tùy chỉnh để phân loại từng giống mèo hoặc chó cụ thể, như được hiển thị bên dưới.

Hình 4. Phân loại các giống mèo khác nhau bằng YOLO11.
Link to this sectionPhân đoạn thực thể#
Phân đoạn thực thể là một tác vụ thị giác máy tính quan trọng khác được sử dụng trong nhiều ứng dụng. Nó liên quan đến việc chia nhỏ hình ảnh thành các phân đoạn và xác định từng đối tượng riêng lẻ, ngay cả khi có nhiều đối tượng cùng loại. Khác với phát hiện đối tượng, phân đoạn thực thể tiến thêm một bước bằng cách vạch ra ranh giới chính xác của từng đối tượng. Ví dụ, trong sản xuất và sửa chữa ô tô, phân đoạn thực thể có thể giúp xác định và dán nhãn từng bộ phận xe một cách riêng biệt, giúp quá trình này trở nên chính xác và hiệu quả hơn.

Hình 5. Phân đoạn bộ phận xe hơi bằng YOLO11.
Link to this sectionƯớc tính tư thế#
Mục tiêu của pose estimation là xác định vị trí và hướng của người hoặc đối tượng bằng cách dự đoán vị trí của các điểm chính, như bàn tay, đầu và khuỷu tay. Điều này đặc biệt hữu ích trong các ứng dụng quan trọng về việc hiểu các hành động vật lý theo thời gian thực. Human pose estimation thường được sử dụng trong các lĩnh vực như phân tích thể thao, theo dõi hành vi động vật và robot.

Hình 6. YOLO11 có thể hỗ trợ ước tính tư thế con người.
Để khám phá các tác vụ thị giác máy tính khác được hỗ trợ bởi YOLO11, bạn có thể tham khảo tài liệu chính thức của Ultralytics. Nó cung cấp thông tin chi tiết về cách YOLO11 xử lý các tác vụ như theo dõi đối tượng và phát hiện đối tượng theo hộp bao xoay (OBB).
Link to this sectionCác model thị giác máy tính phổ biến hiện nay#
Mặc dù có nhiều model thị giác máy tính hiện nay, series Ultralytics YOLO vẫn nổi bật nhờ hiệu suất mạnh mẽ và tính linh hoạt. Theo thời gian, các model Ultralytics YOLO đã được cải tiến, trở nên nhanh hơn, chính xác hơn và có khả năng xử lý nhiều tác vụ hơn. Khi Ultralytics YOLOv5 được giới thiệu, việc triển khai các model trở nên dễ dàng hơn với các framework AI thị giác như PyTorch. Nó cho phép nhiều người dùng hơn làm việc với AI thị giác tiên tiến, kết hợp độ chính xác cao với tính dễ sử dụng.
Tiếp theo, Ultralytics YOLOv8 đã tiến xa hơn bằng cách bổ sung các khả năng mới như phân đoạn thực thể, ước tính tư thế và phân loại hình ảnh. Trong khi đó, phiên bản mới nhất, YOLO11, mang lại hiệu suất hàng đầu trên nhiều tác vụ thị giác máy tính. Với ít tham số hơn 22% so với YOLOv8m, YOLO11m đạt được độ chính xác trung bình (mAP) cao hơn trên dataset COCO, nghĩa là nó có thể phát hiện đối tượng chính xác và hiệu quả hơn. Cho dù bạn là một lập trình viên dày dạn kinh nghiệm hay người mới bắt đầu với AI, YOLO11 cung cấp một giải pháp mạnh mẽ cho các nhu cầu thị giác máy tính của bạn.
Link to this sectionVai trò của thị giác máy tính trong cuộc sống hàng ngày#
Trước đó, chúng tôi đã thảo luận về cách các model thị giác máy tính như YOLO11 có thể được áp dụng trên nhiều ngành công nghiệp khác nhau. Bây giờ, hãy cùng khám phá thêm các trường hợp sử dụng đang thay đổi cuộc sống hàng ngày của chúng ta.
Link to this sectionAI thị giác trong chăm sóc sức khỏe#
Có rất nhiều ứng dụng cho thị giác máy tính trong chăm sóc sức khỏe. Các tác vụ như phát hiện và phân loại đối tượng được sử dụng trong chẩn đoán hình ảnh y tế để làm cho việc phát hiện bệnh trở nên nhanh chóng và chính xác hơn. Trong phân tích X-quang, thị giác máy tính có thể nhận diện các mô hình có thể quá tinh vi đối với mắt người.
Nó cũng được sử dụng trong việc phát hiện ung thư để so sánh các tế bào ung thư với các tế bào khỏe mạnh. Tương tự, đối với các bản chụp CT và MRI, thị giác máy tính có thể được sử dụng để phân tích hình ảnh với độ chính xác gần như con người. Nó giúp các bác sĩ đưa ra quyết định tốt hơn và cuối cùng là cứu được nhiều mạng sống hơn.

Hình 7. YOLO11 đang được sử dụng để phân tích các bản chụp y tế.
Link to this sectionAI trong ngành công nghiệp ô tô#
Thị giác máy tính là yếu tố quan trọng đối với xe tự lái, giúp chúng phát hiện các đối tượng như biển báo đường bộ và đèn giao thông. Các kỹ thuật như nhận dạng ký tự quang học (OCR) cho phép xe đọc văn bản từ các biển báo đường bộ. Nó cũng được sử dụng để phát hiện người đi bộ, nơi các tác vụ phát hiện đối tượng xác định con người trong thời gian thực.
Ngoài ra, thị giác máy tính thậm chí có thể phát hiện các vết nứt và ổ gà trên bề mặt đường, cho phép giám sát tốt hơn các điều kiện đường sá đang thay đổi. Nhìn chung, công nghệ thị giác máy tính có thể đóng vai trò then chốt trong việc cải thiện quản lý giao thông, tăng cường an toàn vận tải và hỗ trợ quy hoạch thành phố thông minh.

Hình 8. Hiểu về giao thông bằng YOLO11.
Link to this sectionThị giác máy tính trong nông nghiệp#
Hãy tưởng tượng nông dân có thể tự động gieo hạt, tưới nước và thu hoạch mùa màng đúng thời hạn mà không phải lo lắng bất cứ điều gì. Đó chính xác là những gì thị giác máy tính mang lại cho nông nghiệp. Nó tạo điều kiện cho việc giám sát mùa màng theo thời gian thực để nông dân có thể phát hiện các vấn đề như sâu bệnh hoặc thiếu hụt dinh dưỡng chính xác hơn con người.
Ngoài việc giám sát, các máy làm cỏ tự động dựa trên AI được tích hợp thị giác máy tính có thể nhận diện và loại bỏ cỏ dại, giúp cắt giảm chi phí nhân công và tăng năng suất cây trồng. Sự kết hợp công nghệ này giúp nông dân tối ưu hóa tài nguyên, cải thiện hiệu quả và bảo vệ mùa màng.

Hình 9. Một ví dụ về việc sử dụng YOLO11 trong nông nghiệp.
Link to this sectionTự động hóa các quy trình sản xuất với AI#
Trong sản xuất, thị giác máy tính giúp giám sát quy trình, kiểm tra chất lượng sản phẩm và theo dõi công nhân một cách tự động. AI thị giác làm cho quy trình nhanh hơn và chính xác hơn, đồng thời giảm thiểu sai sót, dẫn đến cắt giảm chi phí.
Cụ thể, đối với đảm bảo chất lượng, phát hiện đối tượng và phân đoạn thực thể thường được sử dụng. Các hệ thống phát hiện lỗi thực hiện kiểm tra cuối cùng trên các sản phẩm đã hoàn thiện để đảm bảo chỉ những sản phẩm tốt nhất mới đến tay khách hàng. Bất kỳ sản phẩm nào có vết lõm hoặc vết nứt đều được xác định và loại bỏ tự động. Các hệ thống này cũng theo dõi và đếm sản phẩm trong thời gian thực, cung cấp khả năng giám sát liên tục trên dây chuyền lắp ráp.

Hình 10. Giám sát dây chuyền lắp ráp bằng thị giác máy tính.
Link to this sectionGiáo dục trở nên ấn tượng hơn với thị giác máy tính#
Một trong những cách thị giác máy tính được sử dụng trong lớp học là thông qua nhận diện cử chỉ - nó cá nhân hóa việc học bằng cách phát hiện các chuyển động của học sinh. Các model như YOLO11 rất tuyệt vời cho tác vụ này. Chúng có thể xác định chính xác các cử chỉ như giơ tay hoặc các biểu cảm bối rối trong thời gian thực.
Khi các cử chỉ như vậy được phát hiện, bài học đang diễn ra có thể được điều chỉnh bằng cách cung cấp thêm sự trợ giúp hoặc sửa đổi nội dung để phù hợp hơn với nhu cầu của học sinh. Điều này tạo ra một môi trường học tập năng động và linh hoạt hơn, giúp giáo viên tập trung vào việc giảng dạy trong khi hệ thống hỗ trợ trải nghiệm học tập của từng học sinh.
Link to this sectionCác xu hướng gần đây trong thị giác máy tính#
Bây giờ chúng ta đã khám phá một số ứng dụng của thị giác máy tính trong nhiều ngành công nghiệp khác nhau, hãy cùng đi sâu vào các xu hướng chính đang thúc đẩy sự tiến bộ của nó.
Một trong những xu hướng lớn là điện toán biên (edge computing), một framework điện toán phân tán xử lý dữ liệu gần nguồn hơn. Ví dụ, điện toán biên trang bị cho các thiết bị như camera và cảm biến khả năng xử lý dữ liệu thị giác trực tiếp, dẫn đến thời gian phản hồi nhanh hơn, giảm độ trễ và cải thiện quyền riêng tư.
Một xu hướng chính khác trong thị giác máy tính là sử dụng thực tế hỗn hợp. Nó kết hợp thế giới vật lý với các yếu tố kỹ thuật số, sử dụng thị giác máy tính để làm cho các đối tượng ảo hòa quyện một cách mượt mà với thế giới thực. Nó có thể được sử dụng để cải thiện trải nghiệm trong chơi game, giáo dục và đào tạo.
Link to this sectionƯu và nhược điểm của thị giác máy tính#
Dưới đây là một số lợi ích chính mà thị giác máy tính có thể mang lại cho các ngành công nghiệp khác nhau:
-
Tiết kiệm chi phí: Tự động hóa các tác vụ với thị giác máy tính giúp giảm chi phí vận hành, cải thiện năng suất và giảm thiểu sai sót.
-
Khả năng mở rộng: Sau khi được triển khai, các hệ thống thị giác máy tính có thể dễ dàng mở rộng để xử lý lượng dữ liệu lớn, giúp chúng phù hợp cho các doanh nghiệp đang phát triển hoặc các hoạt động quy mô lớn.
-
Tùy chỉnh theo ứng dụng cụ thể: Các model thị giác máy tính có thể được tinh chỉnh (fine-tune) bằng dataset của bạn, mang lại cho bạn các giải pháp chuyên biệt cao đáp ứng các yêu cầu của ứng dụng.
Trong khi những lợi ích này làm nổi bật cách thị giác máy tính có thể tác động đến nhiều ngành công nghiệp, điều quan trọng là phải xem xét các thách thức liên quan đến việc triển khai nó. Dưới đây là một số thách thức chính:
-
Các vấn đề về quyền riêng tư dữ liệu: Việc sử dụng dữ liệu thị giác, đặc biệt là trong các lĩnh vực nhạy cảm như giám sát hoặc chăm sóc sức khỏe, có thể làm dấy lên các vấn đề về quyền riêng tư và an ninh.
-
Các hạn chế về môi trường: Các hệ thống thị giác máy tính có thể gặp khó khăn khi hoạt động bình thường trong các môi trường đầy thử thách, chẳng hạn như ánh sáng kém, hình ảnh chất lượng thấp hoặc phông nền phức tạp.
-
Chi phí ban đầu cao: Việc phát triển và triển khai các hệ thống thị giác máy tính có thể đắt đỏ do cần có phần cứng, phần mềm và chuyên môn chuyên biệt.
Link to this sectionCác điểm chính cần lưu ý#
Thị giác máy tính đang tái tạo cách máy móc tương tác với thế giới bằng cách cho phép chúng nhìn và hiểu thế giới giống như con người. Nó đã được sử dụng trong nhiều lĩnh vực, như cải thiện an toàn trong xe tự lái, giúp các bác sĩ chẩn đoán bệnh nhanh hơn, làm cho việc mua sắm được cá nhân hóa hơn và thậm chí hỗ trợ nông dân giám sát mùa màng.
Khi công nghệ tiếp tục cải thiện, các xu hướng mới như điện toán biên và thực tế hỗn hợp đang mở ra nhiều khả năng hơn nữa. Mặc dù vẫn còn một số thách thức như định kiến và chi phí cao, thị giác máy tính có tiềm năng tạo ra tác động tích cực to lớn cho nhiều ngành công nghiệp trong tương lai.
Để tìm hiểu thêm, hãy truy cập GitHub repository của chúng tôi và tham gia cùng cộng đồng của chúng tôi. Khám phá các đổi mới trong các lĩnh vực như AI trong xe tự lái và thị giác máy tính trong nông nghiệp trên các trang giải pháp của chúng tôi. 🚀






