Bằng cách nhấp vào “Chấp nhận tất cả Cookie”, bạn đồng ý với việc lưu trữ cookie trên thiết bị của mình để tăng cường khả năng điều hướng trang web, phân tích việc sử dụng trang web và hỗ trợ các nỗ lực tiếp thị của chúng tôi. Thêm thông tin
Cài đặt Cookie
Bằng cách nhấp vào “Chấp nhận tất cả Cookie”, bạn đồng ý với việc lưu trữ cookie trên thiết bị của mình để tăng cường khả năng điều hướng trang web, phân tích việc sử dụng trang web và hỗ trợ các nỗ lực tiếp thị của chúng tôi. Thêm thông tin
Khám phá lý do tại sao suy luận theo thời gian thực trong thị giác máy tính lại quan trọng đối với một loạt các ứng dụng và khám phá vai trò của chúng trong việc cho phép đưa ra quyết định tức thời.
Tất cả chúng ta đều đã từng đối mặt với sự khó chịu mà kết nối internet chậm có thể gây ra vào một thời điểm nào đó. Tuy nhiên, hãy tưởng tượng sự chậm trễ đó trong một tình huống quan trọng, chẳng hạn như một chiếc xe tự lái phản ứng với một chướng ngại vật hoặc một bác sĩ phân tích một bản quét quan trọng. Một vài giây thừa có thể gây ra hậu quả nghiêm trọng.
Đây là nơi suy luận AI theo thời gian thực có thể tạo ra sự khác biệt. Xử lý nhanh và dự đoán theo thời gian thực cho phép các giải pháp thị giác máy tính xử lý và phản ứng với dữ liệu trực quan ngay lập tức. Những quyết định trong tích tắc này có thể tăng cường sự an toàn, hiệu quả và sự tiện lợi hàng ngày.
Ví dụ: hãy xem xét một bác sĩ phẫu thuật thực hiện một thủ thuật phức tạp bằng cách sử dụng một trợ lý robot. Mọi chuyển động đều được kiểm soát thông qua kết nối tốc độ cao và hệ thống thị giác của robot xử lý trường phẫu thuật trong thời gian thực, cung cấp cho bác sĩ phẫu thuật phản hồi trực quan ngay lập tức. Ngay cả sự chậm trễ nhỏ nhất trong vòng phản hồi này cũng có thể dẫn đến những sai lầm nghiêm trọng, gây nguy hiểm cho bệnh nhân. Đây là một ví dụ hoàn hảo về lý do tại sao suy luận theo thời gian thực lại rất quan trọng; không có chỗ cho sự chậm trễ.
Suy luận AI trong các ứng dụng thực tế phụ thuộc vào ba khái niệm chính: công cụ suy luận (phần mềm hoặc phần cứng chạy hiệu quả các mô hình AI), độ trễ suy luận (thời gian trễ giữa đầu vào và đầu ra) và suy luận thời gian thực (khả năng của hệ thống AI để xử lý và phản ứng với độ trễ tối thiểu).
Trong bài viết này, chúng ta sẽ khám phá các khái niệm cốt lõi này và cách các mô hình thị giác máy tính như Ultralytics YOLO11 cho phép các ứng dụng dựa trên dự đoán tức thì.
Suy luận AI là gì?
Chạy suy luận là quá trình phân tích dữ liệu mới bằng mô hình AI đã được huấn luyện để đưa ra dự đoán hoặc giải quyết một tác vụ. Không giống như huấn luyện, liên quan đến việc dạy một mô hình bằng cách xử lý một lượng lớn dữ liệu được gắn nhãn, suy luận tập trung vào việc tạo ra kết quả nhanh chóng và chính xác bằng cách sử dụng một mô hình đã được huấn luyện.
Hình 1. Tìm hiểu về các phép suy luận (inferences).
Ví dụ: trong bảo tồn động vật hoang dã, bẫy camera AI sử dụng các mô hình computer vision để xác định và phân loại động vật trong thời gian thực. Khi camera phát hiện chuyển động, mô hình AI ngay lập tức nhận ra đó là hươu, động vật ăn thịt hay thậm chí là kẻ săn trộm, giúp các nhà nghiên cứu theo dõi quần thể động vật và bảo vệ các loài có nguy cơ tuyệt chủng mà không cần sự can thiệp của con người. Việc xác định nhanh chóng này giúp giám sát theo thời gian thực và phản ứng nhanh hơn với các mối đe dọa tiềm ẩn trở nên khả thi.
Tìm hiểu về inference engine (công cụ suy luận)
Một mô hình máy học đã được huấn luyện không phải lúc nào cũng sẵn sàng để triển khai ở dạng thô của nó. Một inference engine (công cụ suy luận) là một công cụ phần mềm hoặc phần cứng chuyên dụng được thiết kế để thực thi các mô hình máy học một cách hiệu quả và tối ưu hóa chúng để triển khai trong thế giới thực. Nó sử dụng các kỹ thuật tối ưu hóa như nén mô hình, lượng tử hóa và chuyển đổi đồ thị để cải thiện hiệu suất và giảm tiêu thụ tài nguyên, giúp mô hình có thể triển khai trên nhiều môi trường khác nhau.
Về cốt lõi, một inference engine tập trung vào việc giảm chi phí tính toán, giảm thiểu độ trễ và cải thiện hiệu quả để cho phép đưa ra các dự đoán nhanh chóng và chính xác. Sau khi được tối ưu hóa, engine sẽ thực thi mô hình trên dữ liệu mới, cho phép nó tạo ra các suy luận theo thời gian thực một cách hiệu quả. Tối ưu hóa này đảm bảo rằng các mô hình AI có thể chạy trơn tru trên cả máy chủ đám mây hiệu suất cao và các thiết bị biên có tài nguyên hạn chế như điện thoại thông minh, thiết bị IoT và hệ thống nhúng.
Các vấn đề do độ trễ suy luận gây ra
Độ trễ suy luận là độ trễ thời gian giữa thời điểm hệ thống AI nhận dữ liệu đầu vào (chẳng hạn như hình ảnh từ máy ảnh) và thời điểm nó tạo ra đầu ra (như phát hiện các đối tượng trong hình ảnh). Ngay cả một độ trễ nhỏ cũng có thể ảnh hưởng đáng kể đến hiệu suất và khả năng sử dụng của các ứng dụng AI thời gian thực.
Độ trễ suy luận xảy ra ở ba giai đoạn chính:
Thời gian tiền xử lý: Thời gian cần thiết để chuẩn bị dữ liệu đầu vào trước khi đưa vào mô hình. Quá trình này bao gồm thay đổi kích thước hình ảnh để phù hợp với kích thước đầu vào của mô hình, chuẩn hóa các giá trị pixel để có độ chính xác tốt hơn và chuyển đổi định dạng (ví dụ: RGB sang thang độ xám hoặc video thành chuỗi khung hình).
Thời gian tính toán: Thời gian thực tế mà mô hình cần để thực hiện suy luận. Điều này bao gồm các hoạt động như tính toán theo từng lớp trong mạng sâu, phép nhân ma trận, tích chập và truyền dữ liệu giữa bộ nhớ và các đơn vị xử lý.
Thời gian hậu xử lý (Post-processing time): Thời gian cần thiết để chuyển đổi đầu ra thô của mô hình thành kết quả có ý nghĩa. Điều này có thể bao gồm vẽ hộp giới hạn trong phát hiện đối tượng, lọc các kết quả dương tính giả trong nhận dạng hình ảnh hoặc áp dụng ngưỡng trong phát hiện bất thường.
Độ trễ suy luận rất quan trọng trong các ứng dụng thời gian thực. Ví dụ: trong phát hiện lỗi tự động trên dây chuyền lắp ráp, thị giác máy tính có thể được sử dụng để kiểm tra sản phẩm khi chúng di chuyển trên băng chuyền.
Hệ thống phải nhanh chóng xác định và gắn cờ các lỗi trước khi sản phẩm chuyển sang giai đoạn tiếp theo. Nếu mô hình mất quá nhiều thời gian để xử lý hình ảnh, các sản phẩm lỗi có thể không được phát hiện kịp thời, dẫn đến lãng phí vật liệu, làm lại tốn kém hoặc sản phẩm bị lỗi đến tay khách hàng. Bằng cách giảm độ trễ, các nhà sản xuất có thể cải thiện kiểm soát chất lượng, tăng hiệu quả và giảm thiểu tổn thất.
Cách giảm độ trễ suy luận
Giữ độ trễ suy luận ở mức tối thiểu là điều cần thiết trong nhiều ứng dụng thị giác máy tính. Có thể sử dụng nhiều kỹ thuật khác nhau để đạt được điều này. Hãy cùng thảo luận về một số kỹ thuật phổ biến nhất được sử dụng để giảm độ trễ suy luận.
Tỉa bớt mô hình
Tỉa thưa mô hình (Model pruning) đơn giản hóa một mạng nơ-ron bằng cách loại bỏ các kết nối (trọng số) không cần thiết, làm cho nó nhỏ hơn và nhanh hơn. Quá trình này làm giảm tải tính toán của mô hình, cải thiện tốc độ mà không ảnh hưởng quá nhiều đến độ chính xác.
Bằng cách chỉ giữ lại các kết nối quan trọng nhất, tỉa bớt (pruning) đảm bảo suy luận hiệu quả và hiệu suất tốt hơn, đặc biệt là trên các thiết bị có sức mạnh xử lý hạn chế. Nó được sử dụng rộng rãi trong các ứng dụng thời gian thực như AI di động, robot và điện toán biên để nâng cao hiệu quả đồng thời duy trì độ tin cậy.
Hình 2. Loại bỏ các kết nối kém hiệu quả bằng cách sử dụng tỉa thưa mô hình (model pruning).
Lượng tử hóa mô hình (Model quantization)
Lượng tử hóa mô hình (Model quantization) là một kỹ thuật giúp các mô hình AI chạy nhanh hơn và sử dụng ít bộ nhớ hơn bằng cách đơn giản hóa các con số mà chúng sử dụng để tính toán. Thông thường, các mô hình này hoạt động với các số dấu phẩy động 32-bit, rất chính xác nhưng đòi hỏi nhiều sức mạnh xử lý. Lượng tử hóa làm giảm các số này thành số nguyên 8-bit, dễ xử lý hơn và chiếm ít không gian hơn.
Hình 3. Sử dụng lượng tử hóa mô hình để chuyển đổi các giá trị dấu phẩy động thành biểu diễn số nguyên.
Sử dụng các mô hình hiệu quả
Thiết kế của một mô hình AI có tác động lớn đến tốc độ đưa ra dự đoán của nó. Các mô hình như YOLO11, được xây dựng để suy luận hiệu quả, là lý tưởng cho các ứng dụng mà tốc độ xử lý là rất quan trọng.
Khi bạn xây dựng một giải pháp AI, điều quan trọng là chọn đúng mô hình dựa trên các tài nguyên có sẵn và nhu cầu hiệu suất. Nếu bạn bắt đầu với một mô hình quá nặng, bạn có nhiều khả năng gặp phải các vấn đề như thời gian xử lý chậm, tiêu thụ điện năng cao hơn và khó triển khai trên các thiết bị hạn chế tài nguyên. Một mô hình nhẹ đảm bảo hiệu suất mượt mà, đặc biệt đối với các ứng dụng thời gian thực và biên.
Tốc độ so với độ chính xác: tối ưu hóa suy luận theo thời gian thực
Mặc dù có nhiều kỹ thuật khác nhau để giảm độ trễ, một phần quan trọng của suy luận thời gian thực là cân bằng giữa tốc độ và độ chính xác. Làm cho mô hình nhanh hơn là không đủ - tốc độ suy luận cần được tối ưu hóa mà không ảnh hưởng đến độ chính xác. Một hệ thống tạo ra các dự đoán nhanh chóng nhưng không chính xác là không hiệu quả. Đó là lý do tại sao thử nghiệm kỹ lưỡng là rất quan trọng để đảm bảo các mô hình hoạt động tốt trong các tình huống thực tế. Một hệ thống có vẻ nhanh trong quá trình thử nghiệm nhưng thất bại trong điều kiện thực tế thì không thực sự được tối ưu hóa.
Các ứng dụng AI Thị Giác tận dụng suy luận theo thời gian thực
Tiếp theo, hãy cùng tìm hiểu một số ứng dụng thực tế, nơi suy luận thời gian thực đang chuyển đổi các ngành công nghiệp bằng cách cho phép phản hồi tức thì đối với đầu vào trực quan.
Hệ thống tự thanh toán tại các cửa hàng bán lẻ
Các mô hình thị giác máy tính như YOLO11 có thể giúp cải thiện hệ thống tự thanh toán bằng cách làm cho việc nhận dạng mặt hàng nhanh hơn và chính xác hơn. Khả năng hỗ trợ các tác vụ thị giác máy tính khác nhau như phát hiện đối tượng và phân đoạn thể hiện của YOLO11 giúp có thể xác định sản phẩm ngay cả khi mã vạch bị thiếu hoặc bị hỏng. Vision AI có thể giảm nhu cầu nhập liệu thủ công và tăng tốc quá trình thanh toán.
Ngoài việc xác định sản phẩm, thị giác máy tính cũng có thể được tích hợp vào các hệ thống tự thanh toán để xác minh giá, ngăn chặn gian lận và tăng cường sự tiện lợi cho khách hàng. Các camera hỗ trợ AI có thể tự động phân biệt giữa các sản phẩm tương tự và phát hiện các hành vi đáng ngờ tại quầy thanh toán. Điều này bao gồm việc xác định các trường hợp "không quét", khi khách hàng hoặc nhân viên thu ngân vô tình bỏ sót một mặt hàng, và các hành vi gian lận có chủ ý hơn, chẳng hạn như "tráo đổi sản phẩm", khi một mã vạch rẻ hơn được dán lên một mặt hàng đắt tiền hơn.
Một ví dụ tuyệt vời về điều này là Kroger, một nhà bán lẻ lớn của Hoa Kỳ, đã tích hợp thị giác máy tính và AI vào hệ thống tự thanh toán của mình. Bằng cách sử dụng phân tích video theo thời gian thực, Kroger đã có thể tự động sửa hơn 75% lỗi thanh toán, cải thiện cả trải nghiệm của khách hàng và hoạt động của cửa hàng.
Kiểm tra chất lượng bằng thị giác máy tính
Việc kiểm tra sản phẩm thủ công để kiểm soát chất lượng có thể chậm và không phải lúc nào cũng chính xác. Đó là lý do tại sao ngày càng có nhiều nhà sản xuất chuyển sang các quy trình kiểm tra trực quan sử dụng thị giác máy tính để phát hiện các lỗi sớm hơn trong quy trình sản xuất.
Camera độ phân giải cao và AI thị giác có thể phát hiện những lỗi nhỏ mà con người có thể bỏ qua, và các mô hình như YOLO11 có thể giúp kiểm tra chất lượng theo thời gian thực, phân loại và đếm để đảm bảo chỉ những sản phẩm hoàn hảo mới đến tay khách hàng. Tự động hóa quy trình này giúp tiết kiệm thời gian, giảm chi phí và giảm lãng phí, giúp quá trình sản xuất diễn ra suôn sẻ và hiệu quả hơn.
Hình 5. Một ví dụ về việc sử dụng YOLO11 để đếm sản phẩm trên dây chuyền lắp ráp.
Những điều cần nhớ
Suy luận theo thời gian thực giúp các mô hình AI đưa ra quyết định ngay lập tức, điều này rất quan trọng trong nhiều ngành công nghiệp. Cho dù đó là một chiếc xe tự lái tránh tai nạn, một bác sĩ nhanh chóng phân tích các bản quét y tế hay một nhà máy phát hiện các khuyết tật của sản phẩm, thì phản hồi nhanh chóng và chính xác của AI tạo ra một sự khác biệt lớn.
Bằng cách cải thiện tốc độ và hiệu quả của các mô hình AI, chúng ta có thể tạo ra các hệ thống thông minh hơn, đáng tin cậy hơn, hoạt động liền mạch trong các tình huống thực tế. Khi công nghệ tiến bộ, các giải pháp AI thời gian thực sẽ tiếp tục định hình tương lai, làm cho các quy trình hàng ngày nhanh hơn, an toàn hơn và hiệu quả hơn.