Khám phá Google Beam: Một công cụ hội nghị video 3D thế hệ tiếp theo

19 tháng 6, 2025
Tìm hiểu về Google Beam, một công cụ hội nghị video 3D thế hệ mới. Khám phá cách nó sử dụng hình ảnh 3D và AI để cho phép các cuộc họp ảo sống động như thật.


19 tháng 6, 2025
Tìm hiểu về Google Beam, một công cụ hội nghị video 3D thế hệ mới. Khám phá cách nó sử dụng hình ảnh 3D và AI để cho phép các cuộc họp ảo sống động như thật.

Các cuộc gọi video và cuộc họp ảo đã giúp công việc từ xa trở nên khả thi, giúp các nhóm kết nối với nhau trên khắp các quốc gia và múi giờ. Chúng đã trở thành một phần thường xuyên trong cuộc sống của chúng ta và đã thay đổi cách chúng ta giao tiếp.
Tuy nhiên, mặc dù được sử dụng rộng rãi, công nghệ cốt lõi đằng sau hội nghị video phần lớn vẫn không thay đổi trong nhiều năm. Nhờ những tiến bộ gần đây, các nền tảng hội nghị video đang bắt đầu thay đổi, hướng đến cảm giác tự nhiên và sống động như thật hơn.
Điều thú vị là, tại hội nghị các nhà phát triển hàng năm (Google I/O 2025), Google đã giới thiệu công cụ giao tiếp video mới của mình, được gọi là Google Beam. Beam sử dụng trí tuệ nhân tạo (AI) và công nghệ hội nghị truyền hình 3D để vượt ra ngoài màn hình phẳng truyền thống và tạo ra trải nghiệm trực tiếp, sống động hơn.

Trên thực tế, Google Beam được thiết kế để tạo cảm giác như người bạn đang nói chuyện đang ở ngay trước mặt bạn. Không giống như các cuộc gọi video thông thường, nó mang lại những tín hiệu tinh tế của con người, như giao tiếp bằng mắt và chuyển động tự nhiên thay đổi theo góc nhìn của bạn, những chi tiết thường bị mất trên màn hình phẳng.
Trong bài viết này, chúng ta sẽ đi sâu vào Google Beam là gì, cách nó được phát triển, cách nó hoạt động và các ứng dụng của nó. Hãy bắt đầu!
Trước khi xem xét kỹ hơn về Google Beam, hãy hiểu rõ hơn về người tiền nhiệm của nó, Project Starline.
Được giới thiệu tại Google I/O 2021, Project Starline là một sáng kiến nghiên cứu nhằm làm cho giao tiếp từ xa trở nên sống động hơn, gần như thể bạn đang ở trong cùng một phòng. Nó hoạt động bằng cách tạo ra hình ảnh 3D kích thước thật của mọi người trong thời gian thực. Mặc dù công nghệ này thu hút rất nhiều sự chú ý, nhưng nó đòi hỏi các thiết lập phức tạp và phần cứng nặng nề.

Trong những năm qua, khi công nghệ tiến bộ, Google đã tinh chỉnh phần mềm và hợp lý hóa phần cứng. Sau bốn năm phát triển, Project Starline đã phát triển thành Google Beam - một giải pháp nhỏ gọn và thân thiện với người dùng hơn.
Google Beam sử dụng AI để nâng cao chất lượng cuộc gọi video bằng cách tạo ra hình ảnh 3D chân thực hơn về những người bạn đang nói chuyện. Nó biến video 2D thông thường thành hình ảnh có thể điều chỉnh theo các góc độ khác nhau, giúp duy trì giao tiếp bằng mắt và giúp bạn dễ dàng nhìn thấy biểu cảm khuôn mặt. Nó cũng bao gồm các tính năng như dịch thuật theo thời gian thực, theo dõi đầu và âm thanh không gian.
Google Beam được phát triển để hoạt động mà không cần các phụ kiện bổ sung như kính thực tế tăng cường (AR) hoặc thực tế ảo (VR). Thay vào đó, nó đi kèm với màn hình tích hợp sẵn, hệ thống camera và phần cứng để tạo ra hình ảnh 3D. Điều này làm cho các cuộc gọi video trở nên tự nhiên, thoải mái và hấp dẫn hơn so với các cuộc họp video thông thường.

Sau khi thảo luận về sự ra đời của Google Beam, hãy cùng xem xét kỹ hơn cách nó hoạt động.
Tất cả bắt đầu bằng việc thu thập thông tin trực quan. Beam sử dụng sáu camera độ phân giải cao để chụp ảnh từ các góc độ khác nhau cùng một lúc.
Các camera này giúp theo dõi các đặc điểm trên khuôn mặt, ngôn ngữ cơ thể và các chuyển động nhỏ trong thời gian thực. AI đóng một vai trò quan trọng bằng cách tối ưu hóa cài đặt camera và giữ cho tất cả các nguồn cấp video được đồng bộ hóa hoàn hảo. Điều này chuẩn bị cho hệ thống cho giai đoạn tiếp theo: xử lý dữ liệu.
Tiếp theo, AI được sử dụng để kết hợp sáu luồng camera 2D để tạo ra một mô hình 3D theo thời gian thực của người đang xem. Thay vì chỉ đơn giản xếp lớp các hình ảnh 2D, nó tái tạo độ sâu, bóng và các mối quan hệ không gian để tạo ra một bản sao kỹ thuật số 3D đầy đủ.
Để xây dựng mô hình 3D này, Beam sử dụng AI và các kỹ thuật thị giác máy tính như ước tính độ sâu và theo dõi chuyển động. Các phương pháp này giúp xác định khoảng cách của một người so với máy ảnh, cách họ di chuyển và vị trí cơ thể của họ. Với dữ liệu này, hệ thống có thể lập bản đồ các đặc điểm khuôn mặt và các bộ phận cơ thể một cách chính xác trong không gian 3D.
Mô hình AI đằng sau Beam cập nhật biểu diễn 3D ở tốc độ 60 khung hình trên giây (FPS) để giữ cho cuộc trò chuyện mượt mà và sống động như thật. Nó cũng thực hiện các điều chỉnh theo thời gian thực để phản ánh chính xác các chuyển động của người đó.

Mô hình 3D được hiển thị trên hệ thống Beam của người nhận bằng cách sử dụng màn hình trường ánh sáng. Không giống như các màn hình thông thường hiển thị cùng một hình ảnh cho cả hai mắt, màn hình trường ánh sáng phát ra các hình ảnh hơi khác nhau cho mỗi mắt, mô phỏng cách chúng ta cảm nhận độ sâu trong đời thực. Điều này tạo ra trải nghiệm hình ảnh ba chiều chân thực hơn.

Một trong những tính năng ấn tượng nhất của Google Beam là khả năng theo dõi AI theo thời gian thực. Hệ thống sử dụng khả năng theo dõi đầu và mắt chính xác để theo dõi các chuyển động đến từng chi tiết nhỏ nhất.
Ví dụ: công cụ AI của Beam có thể liên tục theo dõi vị trí đầu của người dùng và thực hiện các điều chỉnh nhỏ đối với hình ảnh trong thời gian thực. Điều này tạo ấn tượng rằng người trên màn hình thực sự đang ngồi đối diện với bạn. Khi bạn di chuyển đầu, hình ảnh 3D sẽ thay đổi tương ứng, giống như trong một cuộc trò chuyện trực tiếp thực sự.
Beam cũng cải thiện trải nghiệm âm thanh bằng cách sử dụng âm thanh không gian phù hợp với vị trí người đó xuất hiện trên màn hình. Nếu ai đó ở bên trái màn hình, giọng nói của họ sẽ phát ra như thể đến từ bên trái. Khi họ thay đổi vị trí, âm thanh sẽ điều chỉnh theo họ. Điều này làm cho các cuộc trò chuyện trở nên tự nhiên hơn và giúp não bộ của bạn theo dõi ai đang nói mà không cần nỗ lực thêm.
Điều này hoạt động bằng cách kết hợp các kỹ thuật âm thanh định hướng với theo dõi thời gian thực. Beam sử dụng âm thanh không gian để mô phỏng cách chúng ta cảm nhận âm thanh một cách tự nhiên trong thế giới thực (dựa trên hướng nó đến và cách nó đến từng tai). Hệ thống cũng theo dõi chuyển động đầu của người xem và điều chỉnh đầu ra âm thanh cho phù hợp, do đó âm thanh vẫn “đính kèm” với người trên màn hình.
Google Beam, mặc dù vẫn còn trong giai đoạn đầu, cho thấy tiềm năng đầy hứa hẹn trong lĩnh vực hội nghị truyền hình. Dưới đây là một số ứng dụng chính của nó:
Dưới đây là một số lợi ích chính mà một cải tiến như Google Beam mang lại:
Beam là một bước tiến đầy hứa hẹn, nhưng giống như bất kỳ công nghệ mới nào, nó đi kèm với một vài hạn chế. Dưới đây là một số điều cần xem xét:
Google Beam là một bước tiến thú vị hướng tới việc làm cho giao tiếp ảo trở nên giống con người hơn. Mặc dù vẫn còn trong giai đoạn đầu, nhưng nó có tiềm năng thay đổi cách chúng ta gặp gỡ, kết nối và cộng tác. Bằng cách kết hợp AI tiên tiến, hình ảnh 3D và âm thanh không gian, nó tạo ra trải nghiệm từ xa sống động và hấp dẫn hơn.
Khi Google tiếp tục cải thiện phần cứng của Beam, làm cho nó nhỏ hơn nữa và có thể mang nó đến với người dùng hàng ngày, nó mang đến những khả năng thú vị cho tương lai của giao tiếp ảo. Cùng với các xu hướng công nghệ mới như cuộc họp голографи và hình авата 3D, Beam đang thiết lập một tiêu chuẩn mới cho các cuộc họp ảo.
Tham gia cộng đồng của chúng tôi và xem qua các tùy chọn cấp phép của chúng tôi để bắt đầu với thị giác máy tính ngay hôm nay. Xem kho lưu trữ GitHub của chúng tôi để tìm hiểu thêm về AI. Đọc các trang giải pháp của chúng tôi để hiểu rõ hơn về các trường hợp sử dụng khác nhau của AI trong bán lẻ và thị giác máy tính trong nông nghiệp.