Hãy cùng chúng tôi điểm lại những đột phá của Sony trong xử lý AI trên edge với cảm biến IMX500 và nền tảng AITRIOS, để giúp tối ưu hóa các mô hình Ultralytics YOLO.
Hãy cùng chúng tôi điểm lại những đột phá của Sony trong xử lý AI trên edge với cảm biến IMX500 và nền tảng AITRIOS, để giúp tối ưu hóa các mô hình Ultralytics YOLO.
Edge AI cho phép các mô hình trí tuệ nhân tạo (AI) hoạt động trực tiếp trên các thiết bị như điện thoại thông minh, máy ảnh và máy bay không người lái. Ưu điểm chính của nó là hỗ trợ đưa ra quyết định nhanh hơn, theo thời gian thực mà không cần dựa vào điện toán đám mây. Trên thực tế, các nghiên cứu cho thấy rằng việc sử dụng AI trên các nền tảng edge có thể tăng hiệu quả hoạt động lên đến 40%.
Những tiến bộ gần đây trong edge AI, đặc biệt là trong thị giác máy tính, đã biến nó thành một chủ đề trung tâm tại YOLO Vision 2024 (YV24), sự kiện kết hợp thường niên của Ultralytics, nơi quy tụ những người đam mê và các chuyên gia AI để khám phá những điều mới nhất trong Vision AI. Một trong những điểm nổi bật của sự kiện là bài thuyết trình quan trọng của Sony, nơi họ giới thiệu phần cứng AI và các giải pháp phần mềm tiên tiến mới nhất của mình. Cảm biến IMX500 và nền tảng AITRIOS đã được giới thiệu và Sony đã chứng minh cách những cải tiến này giúp triển khai các mô hình Ultralytics YOLO như Ultralytics YOLO11 và Ultralytics YOLOv8 trên edge dễ dàng và hiệu quả hơn.
Phiên họp được dẫn dắt bởi Wei Tang, Giám đốc Phát triển Kinh doanh, người tập trung vào các giải pháp hình ảnh của Sony, và Amir Servi, Giám đốc Sản phẩm Deep Learning Edge, người có chuyên môn trong việc triển khai các mô hình deep learning trên các thiết bị edge.
Trong bài viết này, chúng ta sẽ xem lại bài nói chuyện của Sony tại YV24 và khám phá cách cảm biến IMX500 và nền tảng AITRIOS tối ưu hóa việc sử dụng các mô hình YOLO để xử lý AI trên edge nhanh hơn, theo thời gian thực. Hãy bắt đầu!
Wei Tang đã mở đầu phiên họp bằng cách nói về mục tiêu của Sony là làm cho edge AI trở nên dễ tiếp cận như họ đã làm với nhiếp ảnh nhiều năm trước. Bà nhấn mạnh cách Sony hiện đang tập trung vào việc mang Vision AI tiên tiến đến với nhiều người hơn thông qua điện toán edge. Một trong những yếu tố thúc đẩy điều này là tác động tích cực mà edge AI có thể mang lại cho môi trường. Bằng cách xử lý dữ liệu trực tiếp trên các thiết bị thay vì dựa vào các trung tâm dữ liệu khổng lồ, điện toán edge giúp cắt giảm mức sử dụng năng lượng và giảm lượng khí thải carbon. Đó là một cách tiếp cận xanh hơn, thông minh hơn, hoàn toàn phù hợp với cam kết của Sony trong việc xây dựng công nghệ không chỉ hoạt động tốt hơn mà còn giúp tạo ra một tương lai bền vững hơn.
Wei tiếp tục giải thích cách Sony Semiconductor Solutions, bộ phận của Sony chuyên về công nghệ hình ảnh và cảm biến, tạo ra các cảm biến hình ảnh tiên tiến. Các cảm biến này được sử dụng trong nhiều loại thiết bị, chuyển đổi ánh sáng thành tín hiệu điện tử để chụp ảnh. Với hơn 1,2 tỷ cảm biến được xuất xưởng mỗi năm, chúng được tìm thấy trong gần một nửa số điện thoại di động trên thế giới, khiến Sony trở thành một công ty lớn trong ngành hình ảnh.

Dựa trên chuyên môn này, Sony hiện đang tiến xa hơn bằng cách chuyển đổi các cảm biến này từ các thiết bị chụp ảnh thành các công cụ thông minh có thể xử lý dữ liệu theo thời gian thực, cho phép thông tin chi tiết do AI cung cấp trực tiếp trên các thiết bị. Trước khi chúng ta thảo luận về các giải pháp phần cứng và phần mềm mà Sony đang sử dụng để hỗ trợ sự thay đổi này, hãy hiểu những thách thức về edge AI mà những cải tiến này hướng đến giải quyết.
Phát triển các giải pháp edge AI đi kèm với một vài thách thức chính, đặc biệt là khi làm việc với các thiết bị như máy ảnh và cảm biến. Nhiều thiết bị trong số này có công suất và khả năng xử lý hạn chế, điều này gây khó khăn cho việc chạy các mô hình AI tiên tiến một cách hiệu quả.
Dưới đây là một số hạn chế chính khác:
Cảm biến thị giác thông minh Sony IMX500 là một phần cứng mang tính đột phá trong xử lý AI biên. Đây là cảm biến thị giác thông minh đầu tiên trên thế giới có khả năng AI trên chip. Cảm biến này giúp vượt qua nhiều thách thức trong AI biên, bao gồm các nút thắt cổ chai trong xử lý dữ liệu, các lo ngại về quyền riêng tư và các hạn chế về hiệu suất.
Trong khi các cảm biến khác chỉ đơn thuần chuyển tiếp hình ảnh và khung hình, IMX500 kể một câu chuyện hoàn chỉnh. Nó xử lý dữ liệu trực tiếp trên cảm biến, cho phép các thiết bị tạo ra thông tin chi tiết theo thời gian thực. Trong phiên họp, Wei Tang cho biết, "Bằng cách tận dụng công nghệ cảm biến hình ảnh tiên tiến của chúng tôi, chúng tôi mong muốn trao quyền cho một thế hệ ứng dụng mới có thể nâng cao cuộc sống hàng ngày." IMX500 được thiết kế để đáp ứng mục tiêu này, chuyển đổi cách các thiết bị xử lý dữ liệu trực tiếp trên cảm biến mà không cần gửi nó lên đám mây để xử lý.
Dưới đây là một số tính năng chính của nó:
IMX500 không chỉ là một cảm biến máy ảnh - nó là một công cụ cảm biến mạnh mẽ, chuyển đổi cách các thiết bị nhận thức và tương tác với thế giới xung quanh. Bằng cách nhúng AI trực tiếp vào cảm biến, Sony đang làm cho AI biên dễ tiếp cận hơn cho các ngành như ô tô, chăm sóc sức khỏe và các thành phố thông minh. Trong các phần tiếp theo, chúng ta sẽ đi sâu hơn vào cách IMX500 hoạt động với các mô hình Ultralytics YOLO để cải thiện phát hiện đối tượng và xử lý dữ liệu trên các thiết bị biên.

Sau khi giới thiệu cảm biến IMX500, Wei Tang bày tỏ rằng mặc dù phần cứng là rất quan trọng, nhưng nó không đủ để giải quyết toàn bộ các thách thức liên quan đến triển khai AI biên. Bà đã nói về việc tích hợp AI trên các thiết bị như máy ảnh và cảm biến đòi hỏi nhiều hơn là chỉ phần cứng tiên tiến - nó cần phần mềm thông minh để quản lý nó. Đây là nơi nền tảng AITRIOS của Sony xuất hiện, cung cấp một giải pháp phần mềm đáng tin cậy được thiết kế để làm cho việc triển khai AI trên các thiết bị biên trở nên đơn giản và hiệu quả hơn.
AITRIOS hoạt động như một cầu nối giữa các mô hình AI phức tạp và các hạn chế của các thiết bị biên. Nó cung cấp cho các nhà phát triển một loạt các công cụ để nhanh chóng triển khai các mô hình AI đã được huấn luyện trước. Nhưng quan trọng hơn, nó hỗ trợ tái huấn luyện liên tục để các mô hình AI có thể thích ứng với những thay đổi trong thế giới thực.
Wei cũng nhấn mạnh cách AITRIOS đơn giản hóa quy trình cho những người không có chuyên môn sâu về AI, mang lại sự linh hoạt để tùy chỉnh các mô hình AI cho các trường hợp sử dụng AI biên cụ thể. Nó cũng giải quyết các thách thức phổ biến như hạn chế về bộ nhớ và giảm hiệu suất, giúp tích hợp AI vào các thiết bị nhỏ hơn dễ dàng hơn mà không làm giảm độ chính xác hoặc tốc độ.

Trong phần thứ hai của buổi nói chuyện, micrô được chuyển cho Amir, người đã đi sâu vào khía cạnh kỹ thuật về cách Sony tối ưu hóa các mô hình YOLO trên cảm biến IMX500.
Amir bắt đầu bằng cách nói, "Các mô hình YOLO có khả năng hoạt động trên biên và khá dễ tối ưu hóa, nhờ có Glenn và nhóm. Tôi sẽ thuyết phục bạn về điều đó, đừng lo lắng." Sau đó, Amir giải thích rằng trong khi rất nhiều sự tập trung thường đổ dồn vào việc tối ưu hóa chính mô hình AI, thì cách tiếp cận này thường bỏ qua một mối quan tâm quan trọng: các nút thắt cổ chai trong quá trình hậu xử lý.
Amir chỉ ra rằng trong nhiều trường hợp, sau khi mô hình AI hoàn thành nhiệm vụ của mình, quá trình truyền dữ liệu và xử lý hậu kỳ trên thiết bị chủ có thể gây ra sự chậm trễ đáng kể. Việc truyền dữ liệu qua lại giữa thiết bị và máy chủ này gây ra độ trễ, có thể là một trở ngại lớn để đạt được hiệu suất tốt nhất.

Để giải quyết vấn đề này, Amir nhấn mạnh tầm quan trọng của việc xem xét toàn bộ hệ thống đầu cuối, thay vì chỉ tập trung vào mô hình AI. Với cảm biến IMX500, họ phát hiện ra rằng quá trình hậu xử lý là nút thắt cổ chai chính làm chậm mọi thứ. Ông chia sẻ rằng bước đột phá thực sự là mở khóa ức chế không tối đa (NMS) trên chip.
Nó cho phép quá trình hậu xử lý diễn ra trực tiếp trên cảm biến, loại bỏ nhu cầu truyền một lượng lớn dữ liệu đến thiết bị chủ. Bằng cách chạy NMS trực tiếp trên IMX500, Sony đã phá vỡ cái mà Amir gọi là "trần kính hậu xử lý", đạt được hiệu suất tốt hơn nhiều và giảm độ trễ.

Tiếp theo, chúng ta sẽ xem xét cách cải tiến này đã giúp các mô hình YOLO, đặc biệt là YOLOv8 Nano, chạy hiệu quả hơn trên các thiết bị biên, tạo ra những cơ hội mới cho việc xử lý AI theo thời gian thực trên các phần cứng nhỏ hơn, bị hạn chế về tài nguyên.
Để kết thúc bài nói chuyện một cách ấn tượng, Amir đã chứng minh cách họ có thể tăng gấp bốn lần hiệu suất của mô hình YOLOv8 Nano bằng cách chạy NMS trên thiết bị biên. Ông đã trình diễn điều này trên một Raspberry Pi 5, được tích hợp với cảm biến AI IMX500. Amir đã so sánh hiệu suất khi quá trình hậu xử lý được thực hiện trên một thiết bị chủ so với trên chip IMX500.
Kết quả cho thấy rõ sự cải thiện đáng kể về số khung hình trên giây (FPS) và hiệu quả tổng thể khi quá trình xử lý được thực hiện trên chip. Tối ưu hóa này giúp cho việc phát hiện đối tượng nhanh hơn và mượt mà hơn, đồng thời chứng minh tính thực tế của việc xử lý AI theo thời gian thực trên các thiết bị nhỏ hơn, bị hạn chế về tài nguyên như Raspberry Pi.
Cảm biến IMX500 của Sony, nền tảng AITRIOS và các mô hình Ultralytics YOLO đang định hình lại quá trình phát triển AI trên thiết bị biên. Xử lý AI trên chip giúp giảm thiểu việc truyền dữ liệu và độ trễ, đồng thời tăng cường quyền riêng tư, bảo mật và hiệu quả. Bằng cách tập trung vào toàn bộ hệ thống, chứ không chỉ mô hình AI, những cải tiến này giúp AI trên thiết bị biên trở nên dễ tiếp cận hơn đối với các nhà phát triển và những người không có nhiều kiến thức chuyên sâu về AI. Khi công nghệ AI trên thiết bị biên tiếp tục phát triển, nó có thể sẽ cho phép các thiết bị thông minh hơn, đưa ra quyết định nhanh hơn và bảo vệ quyền riêng tư mạnh mẽ hơn trong nhiều ngành và ứng dụng.
Hãy kết nối với cộng đồng của chúng tôi để tiếp tục tìm hiểu về AI! Tham khảo kho lưu trữ GitHub của chúng tôi để khám phá cách chúng ta có thể sử dụng AI để tạo ra các giải pháp sáng tạo trong nhiều ngành khác nhau như nông nghiệp và sản xuất. 🚀