Khám phá Google Beam: Công cụ hội nghị truyền hình 3D thế hệ tiếp theo
Tìm hiểu về Google Beam, công cụ hội nghị truyền hình 3D thế hệ mới. Khám phá cách công cụ này sử dụng hình ảnh 3D và AI để tạo nên những cuộc họp ảo sống động và chân thực.

Tìm hiểu về Google Beam, công cụ hội nghị truyền hình 3D thế hệ mới. Khám phá cách công cụ này sử dụng hình ảnh 3D và AI để tạo nên những cuộc họp ảo sống động và chân thực.

Các cuộc gọi video và cuộc họp ảo đã giúp công việc từ xa trở nên khả thi, giúp các nhóm kết nối với nhau trên khắp các quốc gia và múi giờ. Chúng đã trở thành một phần thường xuyên trong cuộc sống của chúng ta và đã thay đổi cách chúng ta giao tiếp.
Tuy nhiên, mặc dù được sử dụng rộng rãi, công nghệ cốt lõi đằng sau hội nghị video phần lớn vẫn không thay đổi trong nhiều năm. Nhờ những tiến bộ gần đây, các nền tảng hội nghị video đang bắt đầu thay đổi, hướng đến cảm giác tự nhiên và sống động như thật hơn.
Điều thú vị là tại hội nghị nhà phát triển thường niên của mình ( Google I/O 2025), Google đã giới thiệu công cụ truyền thông video mới của mình, được gọi là Google Beam. Beam sử dụng trí tuệ nhân tạo (AI) và công nghệ hội nghị truyền hình 3D để vượt ra ngoài màn hình phẳng truyền thống và tạo ra trải nghiệm trực tiếp, sống động hơn.

Trong thực tế, Google Beam được thiết kế để mang lại cảm giác như người bạn đang trò chuyện đang ở ngay trước mặt bạn. Không giống như các cuộc gọi video thông thường, Beam mang lại những tín hiệu tinh tế của con người, chẳng hạn như giao tiếp bằng mắt và chuyển động tự nhiên thay đổi theo góc nhìn của bạn, những chi tiết thường bị mất trên màn hình phẳng.
Trong bài viết này, chúng ta sẽ đi sâu vào những gì Google Beam là gì, nó được phát triển như thế nào, hoạt động ra sao và ứng dụng ra sao. Hãy cùng bắt đầu nhé!
Trước khi chúng ta xem xét kỹ hơn Google Beam, chúng ta hãy cùng tìm hiểu rõ hơn về dự án tiền nhiệm của nó, Dự án Starline.
Được giới thiệu tại Google Tại I/O 2021, Dự án Starline là một sáng kiến nghiên cứu nhằm mục đích mang lại trải nghiệm giao tiếp từ xa chân thực hơn, gần như thể bạn đang ở trong cùng một phòng. Dự án hoạt động bằng cách tạo ra hình ảnh 3D kích thước thật của con người theo thời gian thực. Mặc dù công nghệ này thu hút được nhiều sự chú ý, nhưng nó đòi hỏi thiết lập phức tạp và phần cứng nặng.

Qua nhiều năm, khi công nghệ phát triển, Google đã tinh chỉnh phần mềm và hợp lý hóa phần cứng. Sau bốn năm phát triển, Dự án Starline đã phát triển thành Google Beam - giải pháp nhỏ gọn và thân thiện hơn với người dùng.
Google Beam sử dụng AI để nâng cao chất lượng cuộc gọi video bằng cách tạo ra hình ảnh 3D chân thực hơn về người bạn đang trò chuyện. Công nghệ này biến video 2D thông thường thành các góc nhìn có thể điều chỉnh theo nhiều góc độ khác nhau, giúp duy trì giao tiếp bằng mắt và giúp biểu cảm khuôn mặt dễ nhìn hơn. Beam cũng bao gồm các tính năng như dịch thuật theo thời gian thực, theo dõi chuyển động đầu và âm thanh không gian.
Google Beam được phát triển để hoạt động mà không cần các phụ kiện bổ sung như kính thực tế tăng cường (AR) hay thực tế ảo (VR). Thay vào đó, nó được tích hợp màn hình, hệ thống camera và phần cứng riêng để tạo hình ảnh 3D. Điều này giúp các cuộc gọi video trở nên tự nhiên, thoải mái và hấp dẫn hơn so với các cuộc họp video thông thường.

Bây giờ chúng ta đã thảo luận về cách Google Beam đã ra đời, chúng ta hãy cùng xem xét kỹ hơn cách thức hoạt động của nó.
Tất cả bắt đầu bằng việc thu thập thông tin trực quan. Beam sử dụng sáu camera độ phân giải cao để chụp ảnh từ các góc độ khác nhau cùng một lúc.
Những máy ảnh này giúp track Đặc điểm khuôn mặt, ngôn ngữ cơ thể và các chuyển động nhỏ theo thời gian thực. AI đóng vai trò quan trọng bằng cách tối ưu hóa cài đặt camera và đồng bộ hóa hoàn hảo tất cả nguồn cấp dữ liệu video. Điều này chuẩn bị hệ thống cho giai đoạn tiếp theo: xử lý dữ liệu.
Tiếp theo, AI được sử dụng để kết hợp sáu luồng camera 2D để tạo ra một mô hình 3D theo thời gian thực của người đang xem. Thay vì chỉ đơn giản xếp lớp các hình ảnh 2D, nó tái tạo độ sâu, bóng và các mối quan hệ không gian để tạo ra một bản sao kỹ thuật số 3D đầy đủ.
Để xây dựng mô hình 3D này, Beam sử dụng AI và các kỹ thuật thị giác máy tính như ước tính độ sâu và theo dõi chuyển động. Các phương pháp này giúp xác định khoảng cách của một người so với máy ảnh, cách họ di chuyển và vị trí cơ thể của họ. Với dữ liệu này, hệ thống có thể lập bản đồ các đặc điểm khuôn mặt và các bộ phận cơ thể một cách chính xác trong không gian 3D.
Mô hình AI đằng sau Beam cập nhật biểu diễn 3D ở tốc độ 60 khung hình trên giây (FPS) để giữ cho cuộc trò chuyện mượt mà và sống động như thật. Nó cũng thực hiện các điều chỉnh theo thời gian thực để phản ánh chính xác các chuyển động của người đó.

Mô hình 3D được hiển thị trên hệ thống Beam của người nhận bằng cách sử dụng màn hình trường ánh sáng. Không giống như các màn hình thông thường hiển thị cùng một hình ảnh cho cả hai mắt, màn hình trường ánh sáng phát ra các hình ảnh hơi khác nhau cho mỗi mắt, mô phỏng cách chúng ta cảm nhận độ sâu trong đời thực. Điều này tạo ra trải nghiệm hình ảnh ba chiều chân thực hơn.

Một trong những Google Tính năng ấn tượng nhất của Beam là khả năng theo dõi AI theo thời gian thực. Hệ thống sử dụng công nghệ theo dõi chính xác chuyển động của đầu và mắt để theo dõi các chuyển động đến từng chi tiết nhỏ nhất.
Ví dụ, công cụ AI của Beam có thể liên tục track Vị trí đầu của người dùng và thực hiện các điều chỉnh tinh tế cho hình ảnh theo thời gian thực . Điều này tạo cảm giác như người trên màn hình thực sự đang ngồi đối diện với bạn. Khi bạn di chuyển đầu, hình ảnh 3D cũng sẽ dịch chuyển tương ứng, giống như trong một cuộc trò chuyện trực tiếp thực sự.
Beam cũng cải thiện trải nghiệm âm thanh bằng cách sử dụng âm thanh không gian phù hợp với vị trí người đó xuất hiện trên màn hình. Nếu ai đó ở bên trái màn hình, giọng nói của họ sẽ phát ra như thể đến từ bên trái. Khi họ thay đổi vị trí, âm thanh sẽ điều chỉnh theo họ. Điều này làm cho các cuộc trò chuyện trở nên tự nhiên hơn và giúp não bộ của bạn theo dõi ai đang nói mà không cần nỗ lực thêm.
Điều này hoạt động bằng cách kết hợp các kỹ thuật âm thanh định hướng với theo dõi thời gian thực. Beam sử dụng âm thanh không gian để mô phỏng cách chúng ta cảm nhận âm thanh một cách tự nhiên trong thế giới thực (dựa trên hướng nó đến và cách nó đến từng tai). Hệ thống cũng theo dõi chuyển động đầu của người xem và điều chỉnh đầu ra âm thanh cho phù hợp, do đó âm thanh vẫn “đính kèm” với người trên màn hình.
Google Beam, mặc dù vẫn đang trong giai đoạn đầu, cho thấy tiềm năng đầy hứa hẹn trong lĩnh vực hội nghị truyền hình. Dưới đây là một số ứng dụng chính của nó:
Dưới đây là một số lợi ích chính mà một sự đổi mới như Google Beam mang đến:
Beam là một bước tiến đầy hứa hẹn, nhưng giống như bất kỳ công nghệ mới nào, nó đi kèm với một vài hạn chế. Dưới đây là một số điều cần xem xét:
Google Beam là một bước tiến đáng chú ý hướng đến việc biến giao tiếp ảo trở nên gần gũi với con người hơn. Mặc dù vẫn đang trong giai đoạn đầu, nhưng công nghệ này có tiềm năng thay đổi cách chúng ta gặp gỡ, kết nối và cộng tác. Bằng cách kết hợp AI tiên tiến, hình ảnh 3D và âm thanh không gian, Beam tạo ra trải nghiệm từ xa chân thực và hấp dẫn hơn.
BẰNG Google Tiếp tục cải tiến phần cứng của Beam, thu nhỏ kích thước hơn nữa và có thể đưa nó đến với người dùng thông thường, Beam mang đến những khả năng thú vị cho tương lai của giao tiếp ảo. Cùng với các xu hướng công nghệ mới như họp trực tuyến ba chiều và hình đại diện 3D, Beam đang thiết lập một tiêu chuẩn mới cho các cuộc họp ảo.
Tham gia cộng đồng của chúng tôi và xem qua các tùy chọn cấp phép của chúng tôi để bắt đầu với thị giác máy tính ngay hôm nay. Xem kho lưu trữ GitHub của chúng tôi để tìm hiểu thêm về AI. Đọc các trang giải pháp của chúng tôi để hiểu rõ hơn về các trường hợp sử dụng khác nhau của AI trong bán lẻ và thị giác máy tính trong nông nghiệp.