Yolo Vision Thâm Quyến
Thâm Quyến
Tham gia ngay

Thị giác máy tính thúc đẩy cách các tác nhân Vision AI đưa ra quyết định

Abirami Vina

4 phút đọc

Ngày 20 tháng 1, 2025

Tìm hiểu cách các AI agent (tác nhân AI) đang sử dụng computer vision (thị giác máy tính) để tái tạo các ngành công nghiệp. Khám phá các ứng dụng của chúng trong các lĩnh vực như an ninh, xe tự lái, v.v.

Mọi ngành công nghiệp, từ sản xuất đến bán lẻ, đều phải đối mặt với những thách thức quy trình riêng, và việc tìm ra những cách sáng tạo để giải quyết những vấn đề này luôn là chìa khóa để điều hành các doanh nghiệp thành công. Gần đây, các AI agent đã trở thành một giải pháp phổ biến trong nhiều lĩnh vực. Các hệ thống này không chỉ phân tích dữ liệu. Chúng còn có thể hành động. 

Ví dụ: các tác nhân AI trong sản xuất có thể phát hiện các khuyết tật trong thời gian thực và tự động khởi động các biện pháp kiểm soát chất lượng để giữ cho quá trình sản xuất diễn ra suôn sẻ. Tương tự, trong logistics và bán lẻ, chúng có thể giám sát nhiều địa điểm bằng cách sử dụng hệ thống giám sát thông minh và cảnh báo ngay lập tức cho các nhóm về hoạt động bất thường. 

Khi xu hướng này phát triển, các tác nhân AI đang tích cực chuyển đổi các ngành công nghiệp trên toàn thế giới. Thị trường tác nhân AI toàn cầu đạt 5,1 tỷ đô la vào năm 2024 và được dự đoán sẽ tăng lên 47,1 tỷ đô la vào năm 2030.

__wf_reserved_inherit
Hình 1. Tổng quan về quy mô thị trường AI agents toàn cầu.

Một trong những công nghệ then chốt thúc đẩy những tiến bộ này là thị giác máy tính. Bằng cách cho phép máy móc xử lý và giải thích dữ liệu trực quan, Vision AI giúp các tác nhân AI có thể thực hiện các tác vụ thị giác máy tính như phát hiện đối tượng theo thời gian thực, phân đoạn thể hiện và theo dõi đối tượng với độ chính xác đáng kinh ngạc. Nó thu hẹp khoảng cách giữa những gì máy móc nhìn thấy và cách chúng đưa ra quyết định, khiến nó trở thành một phần quan trọng của nhiều giải pháp được hỗ trợ bởi AI.

Trong bài viết này, chúng ta sẽ khám phá các tác nhân AI và mối quan hệ của chúng với thị giác máy tính. Chúng ta cũng sẽ thảo luận về các loại tác nhân AI khác nhau và cách chúng được sử dụng trong các ứng dụng dựa trên thị giác. Hãy bắt đầu!

AI agent là gì?

Trước khi đi sâu vào các tác nhân AI dựa trên thị giác máy tính, hãy dành một chút thời gian để tìm hiểu về các tác nhân AI nói chung để thấy các hệ thống này có thể linh hoạt đến mức nào.

Một tác nhân AI là một hệ thống thông minh có thể hiểu và trả lời các tác vụ hoặc câu hỏi mà không cần sự trợ giúp của con người. Nhiều tác nhân AI sử dụng máy học và xử lý ngôn ngữ tự nhiên (NLP) để xử lý một loạt các tác vụ, từ trả lời các câu hỏi cơ bản đến quản lý các quy trình phức tạp. 

Một số tác nhân AI thậm chí có khả năng học hỏi và cải thiện theo thời gian, không giống như các hệ thống AI truyền thống dựa vào đầu vào của con người cho mọi bản cập nhật. Đó là lý do tại sao các tác nhân AI đang nhanh chóng trở thành một phần thiết yếu của AI. Chúng có thể tự động hóa các tác vụ, đưa ra quyết định và tương tác với môi trường của chúng mà không cần sự giám sát liên tục. Chúng đặc biệt hữu ích để quản lý các tác vụ lặp đi lặp lại và tốn thời gian.

Ví dụ, bạn có thể tìm thấy các tác nhân AI trong các lĩnh vực như dịch vụ khách hàng và khách sạn. Các tác nhân AI đang được sử dụng để xử lý tiền hoàn lại và đưa ra các đề xuất sản phẩm được cá nhân hóa trong dịch vụ khách hàng. Trong khi đó, trong ngành khách sạn, chúng có thể giúp nhân viên khách sạn quản lý yêu cầu của khách, hợp lý hóa dịch vụ phòng và đề xuất các điểm tham quan gần đó cho khách. Những ví dụ này cho thấy cách các tác nhân AI đang làm cho các quy trình hàng ngày trở nên nhanh hơn và hiệu quả hơn.

Tìm hiểu cách các AI agent thị giác hoạt động

Tiếp theo, hãy xem nhanh cách các tác nhân AI hoạt động. Mặc dù mọi tác nhân AI đều là duy nhất và được thiết kế cho các tác vụ cụ thể, nhưng tất cả chúng đều có chung ba bước chính: nhận thức, ra quyết định và hành động.

Đầu tiên, trong bước nhận thức, các tác nhân AI thu thập thông tin từ các nguồn khác nhau để hiểu những gì đang xảy ra. Tiếp theo là ra quyết định. Dựa trên thông tin thu thập được, chúng sử dụng các thuật toán của mình để phân tích tình huống và quyết định hành động tốt nhất. Cuối cùng là hành động. Khi đã đưa ra quyết định, chúng sẽ thực hiện nó - cho dù đó là trả lời một câu hỏi, hoàn thành một nhiệm vụ hay gắn cờ một vấn đề để con người xử lý.

Nghe có vẻ đơn giản, nhưng tùy thuộc vào loại tác nhân AI, thường có rất nhiều điều xảy ra đằng sau hậu trường để làm cho các bước này hoạt động. Từ việc phân tích dữ liệu phức tạp đến sử dụng các mô hình machine learning tiên tiến, mỗi tác nhân AI được xây dựng để xử lý các tác vụ cụ thể theo cách riêng của nó. 

Ví dụ: trong khi nhiều AI agent tập trung vào xử lý ngôn ngữ thông qua NLP, thì những AI agent khác - được gọi là vision AI agent - tích hợp thị giác máy tính để xử lý dữ liệu trực quan. Sử dụng các mô hình thị giác máy tính tiên tiến như Ultralytics YOLO11, vision AI agent có thể thực hiện phân tích hình ảnh chính xác hơn.

__wf_reserved_inherit
Hình 2. Một ví dụ về đếm số lượng táo trong ảnh bằng YOLO11.

Các tác nhân AI thị giác trong xe tự lái

Hãy sử dụng xe tự lái làm ví dụ để xem cách các tác nhân Vision AI hoạt động thông qua ba bước chính được mô tả ở trên:

  • Nhận thức: Các tác nhân AI thị giác trong xe tự lái thu thập dữ liệu trực quan từ camera và cảm biến được lắp đặt trên xe. Dữ liệu này bao gồm hình ảnh và video về môi trường xung quanh, chẳng hạn như các phương tiện khác, người đi bộ, tín hiệu giao thông và biển báo đường.
  • Ra quyết định: Tác nhân AI xử lý dữ liệu trực quan này bằng cách sử dụng các mô hình như YOLO11. Nó xác định các đối tượng như ô tô và người đi bộ, phát hiện các chướng ngại vật hoặc thay đổi làn đường đột ngột và nhận dạng các kiểu như luồng giao thông và trạng thái tín hiệu. Điều này giúp xe hiểu các điều kiện đường xá trong thời gian thực.
  • Hành động: Dựa trên phân tích của nó, tác nhân AI thực hiện hành động, chẳng hạn như lái xe để tránh chướng ngại vật, điều chỉnh tốc độ hoặc dừng đèn đỏ. Những quyết định này được đưa ra nhanh chóng để đảm bảo lái xe an toàn và hiệu quả.

Xe tự lái của Waymo là một ví dụ tuyệt vời về công nghệ này. Chúng sử dụng các tác nhân AI thị giác để hiểu môi trường xung quanh, đưa ra quyết định theo thời gian thực và điều hướng đường xá một cách an toàn và hiệu quả mà không cần sự can thiệp của con người.

__wf_reserved_inherit
Hình 3. Taxi tự lái dựa trên AI agent của Waymo.

Các loại AI agent thị giác 

Bây giờ chúng ta đã thấy các tác nhân AI hoạt động như thế nào và cách chúng sử dụng thị giác máy tính, hãy xem xét các loại tác nhân AI khác nhau. Mỗi loại được thiết kế cho các tác vụ cụ thể, từ các hành động đơn giản đến việc ra quyết định và học tập phức tạp hơn.

Tác nhân phản xạ đơn giản

Tác nhân phản xạ đơn giản là loại tác nhân AI cơ bản nhất. Chúng phản hồi các đầu vào cụ thể bằng các hành động được xác định trước, dựa hoàn toàn vào tình huống hiện tại mà không xem xét bất kỳ lịch sử hoặc kết quả tương lai nào. Các tác nhân này thường sử dụng các quy tắc "nếu-thì" đơn giản để hướng dẫn hành vi của chúng.

Đối với phân tích hình ảnh, một tác nhân phản xạ đơn giản có thể được lập trình để phát hiện một màu cụ thể (chẳng hạn như màu đỏ) và kích hoạt một hành động ngay lập tức (như làm nổi bật hoặc đếm các đối tượng màu đỏ). Mặc dù điều này có thể hoạt động đối với các tác vụ đơn giản, nhưng nó không hiệu quả trong các môi trường phức tạp hơn, vì tác nhân không học hỏi hoặc thích ứng từ các kinh nghiệm trước đây.

Các tác tử phản xạ dựa trên mô hình

Các tác tử phản xạ dựa trên mô hình tiên tiến hơn các tác tử phản xạ đơn giản vì chúng sử dụng một mô hình nội bộ về môi trường của chúng để hiểu rõ hơn về tình hình. Mô hình này cho phép chúng xử lý thông tin bị thiếu hoặc không đầy đủ và đưa ra các quyết định sáng suốt hơn. 

Ví dụ, hãy xem xét hệ thống camera an ninh AI. Các tác nhân Vision AI được tích hợp vào hệ thống này có thể sử dụng thị giác máy tính để phân tích những gì đang diễn ra trong thời gian thực. Chúng có thể so sánh các chuyển động và hành động với mô hình hành vi bình thường, giúp chúng phát hiện các hoạt động bất thường, như trộm cắp và gắn cờ các mối đe dọa an ninh tiềm ẩn một cách chính xác hơn.

__wf_reserved_inherit
Hình 4. Một ví dụ về sử dụng thị giác máy tính để phát hiện hành vi trộm cắp.

Các tác nhân dựa trên tiện ích

Hãy nghĩ về một máy bay không người lái dựa trên tiện ích được sử dụng để theo dõi cây trồng. Nó điều chỉnh đường bay để bao phủ nhiều diện tích hơn trong khi tránh chướng ngại vật và chọn tuyến đường tốt nhất cho công việc. Điều này có nghĩa là máy bay không người lái đánh giá nhiều hành động tiềm năng, chẳng hạn như khu vực nào cần ưu tiên hoặc cách điều hướng hiệu quả và chọn hành động tối đa hóa hiệu quả của nó. 

Tương tự, các tác nhân dựa trên tiện ích được thiết kế để chọn hành động tốt nhất từ một số tùy chọn để đạt được lợi ích hoặc kết quả lớn nhất. Các tác nhân AI thị giác được thiết kế cho việc này có thể xử lý và phân tích các đầu vào trực quan khác nhau, chẳng hạn như hình ảnh hoặc dữ liệu cảm biến, và chọn kết quả hữu ích nhất dựa trên các tiêu chí được xác định trước.

 

__wf_reserved_inherit
Hình 5. Máy bay không người lái có thể được sử dụng để theo dõi mùa màng.

Các tác nhân dựa trên mục tiêu

Các tác nhân dựa trên mục tiêu tương tự như các tác nhân dựa trên tiện ích vì cả hai đều nhằm đạt được các mục tiêu cụ thể. Tuy nhiên, các tác nhân dựa trên mục tiêu chỉ tập trung vào các hành động đưa chúng đến gần hơn với mục tiêu đã xác định. Chúng đánh giá từng hành động dựa trên cách nó giúp đạt được mục tiêu của chúng, mà không cân nhắc các yếu tố khác như giá trị tổng thể hoặc sự đánh đổi.

Ví dụ: một chiếc xe tự lái hoạt động như một agent dựa trên mục tiêu khi mục tiêu của nó là đến một đích đến. Nó xử lý dữ liệu từ camera AI và cảm biến để đưa ra các quyết định như tránh chướng ngại vật, tuân thủ tín hiệu giao thông và chọn đúng lượt rẽ để đi đúng hướng. Những quyết định này hoàn toàn được hướng dẫn bởi mức độ chúng phù hợp với mục tiêu đến đích một cách an toàn và hiệu quả. Không giống như các agent dựa trên tiện ích, agent dựa trên mục tiêu chỉ tập trung vào việc đạt được mục tiêu mà không xem xét các tiêu chí bổ sung như hiệu quả hoặc tối ưu hóa.

__wf_reserved_inherit
Hình 6. Một chiếc xe tự lái sử dụng thị giác máy tính để xác định các vật thể xung quanh.

Các tác nhân học tập

Nếu bạn quen thuộc với lĩnh vực thị giác máy tính, bạn có thể đã nghe nói về fine-tuning (tinh chỉnh) - một quy trình trong đó các mô hình được cải thiện bằng cách học hỏi từ dữ liệu mới. Các learning agent (tác nhân học) hoạt động theo cách tương tự, thích ứng và cải thiện theo thời gian khi chúng có được kinh nghiệm. Trong các ứng dụng như kiểm soát chất lượng dựa trên thị giác, các tác nhân này sẽ phát hiện các khuyết tật tốt hơn sau mỗi lần kiểm tra. Khả năng tinh chỉnh hiệu suất của chúng đặc biệt quan trọng trong các lĩnh vực như hàng không, nơi an toàn và độ chính xác là rất quan trọng.

Các tác nhân phân cấp

Các tác nhân phân cấp đơn giản hóa các tác vụ phức tạp bằng cách chia chúng thành các bước nhỏ hơn, dễ quản lý hơn. Một tác nhân cấp cao hơn giám sát toàn bộ quy trình, đưa ra các quyết định chiến lược, trong khi các tác nhân cấp thấp hơn xử lý các tác vụ cụ thể. Nó hiệu quả hơn khi thực hiện các hoạt động liên quan đến nhiều bước và thực thi chi tiết.

Ví dụ: trong một nhà kho tự động, một robot cấp cao hơn có thể lên kế hoạch cho quy trình phân loại, quyết định mặt hàng nào sẽ đi đến khu vực nào. Đồng thời, các robot cấp thấp hơn tập trung vào việc xác định các mặt hàng bằng computer vision, phân tích các đặc điểm như kích thước, hình dạng hoặc nhãn và sắp xếp chúng vào các thùng chứa chính xác. Sự phân chia trách nhiệm rõ ràng giúp hệ thống hoạt động trơn tru.

__wf_reserved_inherit
Hình 7. Một ví dụ về tác nhân AI robot đang phân loại các gói hàng.

Cách bắt đầu xây dựng một tác nhân AI thị giác

Cốt lõi của một tác nhân AI có khả năng thị giác là một mô hình thị giác máy tính. Một trong những mô hình thị giác máy tính mới nhất và đáng tin cậy nhất hiện nay là Ultralytics YOLO11. YOLO11 được biết đến với hiệu quả và độ chính xác theo thời gian thực, khiến nó trở nên hoàn hảo cho các tác vụ thị giác máy tính.

Dưới đây là các quy trình khác nhau liên quan đến việc xây dựng AI agent của riêng bạn với các khả năng của YOLO11:

  • Chuẩn bị một bộ dữ liệu: Thu thập và tiền xử lý các hình ảnh được gắn nhãn có liên quan đến tác vụ mà tác nhân AI của bạn sẽ thực hiện.
  • Huấn luyện tùy chỉnh mô hình: Huấn luyện YOLO11 cụ thể trên bộ dữ liệu của bạn để cải thiện độ chính xác và hiệu suất cho ứng dụng độc đáo của bạn.
  • Tích hợp với một khuôn khổ ra quyết định: Kết nối mô hình đã huấn luyện với một hệ thống cho phép tác nhân AI đưa ra quyết định dựa trên đầu vào trực quan.
  • Kiểm tra và tinh chỉnh: Triển khai AI Agent, kiểm tra hiệu suất, thu thập phản hồi và điều chỉnh mô hình để cải thiện độ chính xác và độ tin cậy.

Những điều cần nhớ

Các AI agent tích hợp với thị giác máy tính - AI agent thị giác - đang thay đổi các ngành công nghiệp bằng cách tự động hóa các tác vụ, giúp quy trình nhanh hơn và cải thiện việc ra quyết định. Từ các thành phố thông minh kiểm soát giao thông đến các hệ thống an ninh sử dụng nhận dạng khuôn mặt, các agent này đang mang đến những giải pháp mới cho các vấn đề phổ biến. 

Chúng cũng có thể tiếp tục học hỏi và cải thiện theo thời gian, làm cho chúng hữu ích trong môi trường thay đổi. Với các công cụ như YOLO11, việc tạo và sử dụng các tác nhân AI này trở nên dễ dàng hơn, dẫn đến các giải pháp thông minh hơn, hiệu quả hơn.

Tham gia cộng đồng của chúng tôi và xem kho lưu trữ GitHub của chúng tôi để tìm hiểu về AI. Khám phá các ứng dụng khác nhau của computer vision trong lĩnh vực chăm sóc sức khỏeAI trong nông nghiệp trên các trang giải pháp của chúng tôi. Hãy xem qua các tùy chọn cấp phép hiện có để bắt đầu!

Hãy cùng nhau xây dựng tương lai
của AI!

Bắt đầu hành trình của bạn với tương lai của học máy

Bắt đầu miễn phí
Đã sao chép liên kết vào clipboard