Yolo Vision Thâm Quyến
Thâm Quyến
Tham gia ngay

Nâng cao Edge AI với Sony IMX500 và AITRIOS

Abirami Vina

4 phút đọc

Ngày 25 tháng 10 năm 2024

Hãy cùng chúng tôi điểm lại những đột phá của Sony trong xử lý AI trên edge với cảm biến IMX500 và nền tảng AITRIOS, để giúp tối ưu hóa các mô hình Ultralytics YOLO.

Edge AI cho phép các mô hình trí tuệ nhân tạo (AI) hoạt động trực tiếp trên các thiết bị như điện thoại thông minh, máy ảnhmáy bay không người lái. Ưu điểm chính của nó là hỗ trợ đưa ra quyết định nhanh hơn, theo thời gian thực mà không cần dựa vào điện toán đám mây. Trên thực tế, các nghiên cứu cho thấy rằng việc sử dụng AI trên các nền tảng edge có thể tăng hiệu quả hoạt động lên đến 40%. 

Những tiến bộ gần đây trong edge AI, đặc biệt là trong thị giác máy tính, đã biến nó thành một chủ đề trung tâm tại YOLO Vision 2024 (YV24), sự kiện kết hợp thường niên của Ultralytics, nơi quy tụ những người đam mê và các chuyên gia AI để khám phá những điều mới nhất trong Vision AI. Một trong những điểm nổi bật của sự kiện là bài thuyết trình quan trọng của Sony, nơi họ giới thiệu phần cứng AI và các giải pháp phần mềm tiên tiến mới nhất của mình. Cảm biến IMX500 và nền tảng AITRIOS đã được giới thiệu và Sony đã chứng minh cách những cải tiến này giúp triển khai các mô hình Ultralytics YOLO như Ultralytics YOLO11Ultralytics YOLOv8 trên edge dễ dàng và hiệu quả hơn.

Phiên họp được dẫn dắt bởi Wei Tang, Giám đốc Phát triển Kinh doanh, người tập trung vào các giải pháp hình ảnh của Sony, và Amir Servi, Giám đốc Sản phẩm Deep Learning Edge, người có chuyên môn trong việc triển khai các mô hình deep learning trên các thiết bị edge

Trong bài viết này, chúng ta sẽ xem lại bài nói chuyện của Sony tại YV24 và khám phá cách cảm biến IMX500 và nền tảng AITRIOS tối ưu hóa việc sử dụng các mô hình YOLO để xử lý AI trên edge nhanh hơn, theo thời gian thực. Hãy bắt đầu!

Tầm nhìn của Sony: Dân chủ hóa AI trên các thiết bị edge

Wei Tang đã mở đầu phiên họp bằng cách nói về mục tiêu của Sony là làm cho edge AI trở nên dễ tiếp cận như họ đã làm với nhiếp ảnh nhiều năm trước. Bà nhấn mạnh cách Sony hiện đang tập trung vào việc mang Vision AI tiên tiến đến với nhiều người hơn thông qua điện toán edge. Một trong những yếu tố thúc đẩy điều này là tác động tích cực mà edge AI có thể mang lại cho môi trường. Bằng cách xử lý dữ liệu trực tiếp trên các thiết bị thay vì dựa vào các trung tâm dữ liệu khổng lồ, điện toán edge giúp cắt giảm mức sử dụng năng lượng và giảm lượng khí thải carbon. Đó là một cách tiếp cận xanh hơn, thông minh hơn, hoàn toàn phù hợp với cam kết của Sony trong việc xây dựng công nghệ không chỉ hoạt động tốt hơn mà còn giúp tạo ra một tương lai bền vững hơn.

Wei tiếp tục giải thích cách Sony Semiconductor Solutions, bộ phận của Sony chuyên về công nghệ hình ảnh và cảm biến, tạo ra các cảm biến hình ảnh tiên tiến. Các cảm biến này được sử dụng trong nhiều loại thiết bị, chuyển đổi ánh sáng thành tín hiệu điện tử để chụp ảnh. Với hơn 1,2 tỷ cảm biến được xuất xưởng mỗi năm, chúng được tìm thấy trong gần một nửa số điện thoại di động trên thế giới, khiến Sony trở thành một công ty lớn trong ngành hình ảnh

__wf_reserved_inherit
Hình 1. Ví dụ về Cảm biến hình ảnh của Sony.

Dựa trên chuyên môn này, Sony hiện đang tiến xa hơn bằng cách chuyển đổi các cảm biến này từ các thiết bị chụp ảnh thành các công cụ thông minh có thể xử lý dữ liệu theo thời gian thực, cho phép thông tin chi tiết do AI cung cấp trực tiếp trên các thiết bị. Trước khi chúng ta thảo luận về các giải pháp phần cứng và phần mềm mà Sony đang sử dụng để hỗ trợ sự thay đổi này, hãy hiểu những thách thức về edge AI mà những cải tiến này hướng đến giải quyết.

Những thách thức liên quan đến xử lý ảnh AI trên các thiết bị edge

Phát triển các giải pháp edge AI đi kèm với một vài thách thức chính, đặc biệt là khi làm việc với các thiết bị như máy ảnh và cảm biến. Nhiều thiết bị trong số này có công suất và khả năng xử lý hạn chế, điều này gây khó khăn cho việc chạy các mô hình AI tiên tiến một cách hiệu quả.

Dưới đây là một số hạn chế chính khác:

  • Độ phức tạp của phần mềm: Việc điều chỉnh các mô hình AI để hoạt động trên nhiều thiết bị biên khác nhau với cấu hình phần cứng khác nhau có thể phức tạp và đòi hỏi các điều chỉnh và tối ưu hóa.
  • Các nút thắt cổ chai trong quá trình hậu xử lý: Thường có một độ trễ khi truyền một lượng lớn dữ liệu từ thiết bị đến máy chủ để hậu xử lý. Nó thường tốn nhiều thời gian hơn so với suy luận mô hình AI thực tế.
  • Bùng nổ dữ liệu: Với nhiều thiết bị IoT liên tục tạo ra dữ liệu, khối lượng dữ liệu cần được xử lý cục bộ có thể trở nên quá tải, gây thêm áp lực lên các thiết bị biên.

Tìm hiểu về cảm biến thị giác thông minh Sony IMX500

Cảm biến thị giác thông minh Sony IMX500 là một phần cứng mang tính đột phá trong xử lý AI biên. Đây là cảm biến thị giác thông minh đầu tiên trên thế giới có khả năng AI trên chip. Cảm biến này giúp vượt qua nhiều thách thức trong AI biên, bao gồm các nút thắt cổ chai trong xử lý dữ liệu, các lo ngại về quyền riêng tư và các hạn chế về hiệu suất.

Trong khi các cảm biến khác chỉ đơn thuần chuyển tiếp hình ảnh và khung hình, IMX500 kể một câu chuyện hoàn chỉnh. Nó xử lý dữ liệu trực tiếp trên cảm biến, cho phép các thiết bị tạo ra thông tin chi tiết theo thời gian thực. Trong phiên họp, Wei Tang cho biết, "Bằng cách tận dụng công nghệ cảm biến hình ảnh tiên tiến của chúng tôi, chúng tôi mong muốn trao quyền cho một thế hệ ứng dụng mới có thể nâng cao cuộc sống hàng ngày." IMX500 được thiết kế để đáp ứng mục tiêu này, chuyển đổi cách các thiết bị xử lý dữ liệu trực tiếp trên cảm biến mà không cần gửi nó lên đám mây để xử lý.

Dưới đây là một số tính năng chính của nó:

  • Đầu ra siêu dữ liệu: Thay vì gửi toàn bộ hình ảnh, nó xuất ra siêu dữ liệu, giảm đáng kể kích thước dữ liệu, giúp giảm việc sử dụng băng thông và chi phí.
  • Tăng cường quyền riêng tư: Bằng cách xử lý dữ liệu trên thiết bị, IMX500 cải thiện quyền riêng tư, đặc biệt là trong các tình huống liên quan đến thông tin nhạy cảm, chẳng hạn như các tác vụ thị giác máy tính liên quan đến con người như đếm người.
  • Xử lý theo thời gian thực: Khả năng xử lý dữ liệu nhanh chóng của cảm biến có nghĩa là nó hỗ trợ việc ra quyết định nhanh chóng, theo thời gian thực, cho phép các ứng dụng AI biên như các hệ thống tự động.

IMX500 không chỉ là một cảm biến máy ảnh - nó là một công cụ cảm biến mạnh mẽ, chuyển đổi cách các thiết bị nhận thức và tương tác với thế giới xung quanh. Bằng cách nhúng AI trực tiếp vào cảm biến, Sony đang làm cho AI biên dễ tiếp cận hơn cho các ngành như ô tô, chăm sóc sức khỏecác thành phố thông minh. Trong các phần tiếp theo, chúng ta sẽ đi sâu hơn vào cách IMX500 hoạt động với các mô hình Ultralytics YOLO để cải thiện phát hiện đối tượngxử lý dữ liệu trên các thiết bị biên.

__wf_reserved_inherit
Hình 2. Wei Tang trên sân khấu tại YOLO Vision 2024 giới thiệu Cảm biến thị giác thông minh Sony IMX500.

Nền tảng AITRIOS của Sony: Đơn giản hóa AI biên

Sau khi giới thiệu cảm biến IMX500, Wei Tang bày tỏ rằng mặc dù phần cứng là rất quan trọng, nhưng nó không đủ để giải quyết toàn bộ các thách thức liên quan đến triển khai AI biên. Bà đã nói về việc tích hợp AI trên các thiết bị như máy ảnh và cảm biến đòi hỏi nhiều hơn là chỉ phần cứng tiên tiến - nó cần phần mềm thông minh để quản lý nó. Đây là nơi nền tảng AITRIOS của Sony xuất hiện, cung cấp một giải pháp phần mềm đáng tin cậy được thiết kế để làm cho việc triển khai AI trên các thiết bị biên trở nên đơn giản và hiệu quả hơn.

AITRIOS hoạt động như một cầu nối giữa các mô hình AI phức tạp và các hạn chế của các thiết bị biên. Nó cung cấp cho các nhà phát triển một loạt các công cụ để nhanh chóng triển khai các mô hình AI đã được huấn luyện trước. Nhưng quan trọng hơn, nó hỗ trợ tái huấn luyện liên tục để các mô hình AI có thể thích ứng với những thay đổi trong thế giới thực. 

Wei cũng nhấn mạnh cách AITRIOS đơn giản hóa quy trình cho những người không có chuyên môn sâu về AI, mang lại sự linh hoạt để tùy chỉnh các mô hình AI cho các trường hợp sử dụng AI biên cụ thể. Nó cũng giải quyết các thách thức phổ biến như hạn chế về bộ nhớ và giảm hiệu suất, giúp tích hợp AI vào các thiết bị nhỏ hơn dễ dàng hơn mà không làm giảm độ chính xác hoặc tốc độ. 

__wf_reserved_inherit
Hình 3. Các ví dụ về trường hợp sử dụng AI biên. Nguồn ảnh: SONY Semicon | AITRIOS.

Tối ưu hóa các mô hình YOLO trên IMX500

Trong phần thứ hai của buổi nói chuyện, micrô được chuyển cho Amir, người đã đi sâu vào khía cạnh kỹ thuật về cách Sony tối ưu hóa các mô hình YOLO trên cảm biến IMX500. 

Amir bắt đầu bằng cách nói, "Các mô hình YOLO có khả năng hoạt động trên biên và khá dễ tối ưu hóa, nhờ có Glenn và nhóm. Tôi sẽ thuyết phục bạn về điều đó, đừng lo lắng." Sau đó, Amir giải thích rằng trong khi rất nhiều sự tập trung thường đổ dồn vào việc tối ưu hóa chính mô hình AI, thì cách tiếp cận này thường bỏ qua một mối quan tâm quan trọng: các nút thắt cổ chai trong quá trình hậu xử lý.

Amir chỉ ra rằng trong nhiều trường hợp, sau khi mô hình AI hoàn thành nhiệm vụ của mình, quá trình truyền dữ liệu và xử lý hậu kỳ trên thiết bị chủ có thể gây ra sự chậm trễ đáng kể. Việc truyền dữ liệu qua lại giữa thiết bị và máy chủ này gây ra độ trễ, có thể là một trở ngại lớn để đạt được hiệu suất tốt nhất.

__wf_reserved_inherit
Hình 4. Amir Servi trên sân khấu tại YOLO Vision 2024 giải thích về các nút thắt cổ chai trong quá trình hậu xử lý.

Để giải quyết vấn đề này, Amir nhấn mạnh tầm quan trọng của việc xem xét toàn bộ hệ thống đầu cuối, thay vì chỉ tập trung vào mô hình AI. Với cảm biến IMX500, họ phát hiện ra rằng quá trình hậu xử lý là nút thắt cổ chai chính làm chậm mọi thứ. Ông chia sẻ rằng bước đột phá thực sự là mở khóa ức chế không tối đa (NMS) trên chip. 

Nó cho phép quá trình hậu xử lý diễn ra trực tiếp trên cảm biến, loại bỏ nhu cầu truyền một lượng lớn dữ liệu đến thiết bị chủ. Bằng cách chạy NMS trực tiếp trên IMX500, Sony đã phá vỡ cái mà Amir gọi là "trần kính hậu xử lý", đạt được hiệu suất tốt hơn nhiều và giảm độ trễ.

__wf_reserved_inherit
Hình 6. Vượt qua nút thắt cổ chai hậu xử lý. Nguồn ảnh: SONY Semicon | AITRIOS

Tiếp theo, chúng ta sẽ xem xét cách cải tiến này đã giúp các mô hình YOLO, đặc biệt là YOLOv8 Nano, chạy hiệu quả hơn trên các thiết bị biên, tạo ra những cơ hội mới cho việc xử lý AI theo thời gian thực trên các phần cứng nhỏ hơn, bị hạn chế về tài nguyên.

Các mô hình YOLOv8 tăng tốc gấp 4 lần nhờ IMX500 của Sony

Để kết thúc bài nói chuyện một cách ấn tượng, Amir đã chứng minh cách họ có thể tăng gấp bốn lần hiệu suất của mô hình YOLOv8 Nano bằng cách chạy NMS trên thiết bị biên. Ông đã trình diễn điều này trên một Raspberry Pi 5, được tích hợp với cảm biến AI IMX500. Amir đã so sánh hiệu suất khi quá trình hậu xử lý được thực hiện trên một thiết bị chủ so với trên chip IMX500. 

Kết quả cho thấy rõ sự cải thiện đáng kể về số khung hình trên giây (FPS) và hiệu quả tổng thể khi quá trình xử lý được thực hiện trên chip. Tối ưu hóa này giúp cho việc phát hiện đối tượng nhanh hơn và mượt mà hơn, đồng thời chứng minh tính thực tế của việc xử lý AI theo thời gian thực trên các thiết bị nhỏ hơn, bị hạn chế về tài nguyên như Raspberry Pi.

Những điều cần nhớ

Cảm biến IMX500 của Sony, nền tảng AITRIOS và các mô hình Ultralytics YOLO đang định hình lại quá trình phát triển AI trên thiết bị biên. Xử lý AI trên chip giúp giảm thiểu việc truyền dữ liệu và độ trễ, đồng thời tăng cường quyền riêng tư, bảo mật và hiệu quả. Bằng cách tập trung vào toàn bộ hệ thống, chứ không chỉ mô hình AI, những cải tiến này giúp AI trên thiết bị biên trở nên dễ tiếp cận hơn đối với các nhà phát triển và những người không có nhiều kiến thức chuyên sâu về AI. Khi công nghệ AI trên thiết bị biên tiếp tục phát triển, nó có thể sẽ cho phép các thiết bị thông minh hơn, đưa ra quyết định nhanh hơn và bảo vệ quyền riêng tư mạnh mẽ hơn trong nhiều ngành và ứng dụng.

Hãy kết nối với cộng đồng của chúng tôi để tiếp tục tìm hiểu về AI! Tham khảo kho lưu trữ GitHub của chúng tôi để khám phá cách chúng ta có thể sử dụng AI để tạo ra các giải pháp sáng tạo trong nhiều ngành khác nhau như nông nghiệpsản xuất. 🚀

Hãy cùng nhau xây dựng tương lai
của AI!

Bắt đầu hành trình của bạn với tương lai của học máy

Bắt đầu miễn phí
Đã sao chép liên kết vào clipboard