Google Beam: Công cụ hội nghị truyền hình 3D thế hệ tiếp theo

Các cuộc gọi video và cuộc họp ảo đã giúp công việc từ xa trở nên khả thi, giúp các nhóm kết nối với nhau trên khắp các quốc gia và múi giờ. Chúng đã trở thành một phần thường xuyên trong cuộc sống của chúng ta và đã thay đổi cách chúng ta giao tiếp.

Tuy nhiên, mặc dù được sử dụng rộng rãi, công nghệ cốt lõi đằng sau hội nghị video phần lớn vẫn không thay đổi trong nhiều năm. Nhờ những tiến bộ gần đây, các nền tảng hội nghị video đang bắt đầu thay đổi, hướng đến cảm giác tự nhiên và sống động như thật hơn.

Điều thú vị là tại hội nghị nhà phát triển thường niên của mình ( Google I/O 2025), Google đã giới thiệu công cụ truyền thông video mới của mình, được gọi là Google Beam. Beam sử dụng trí tuệ nhân tạo (AI) và công nghệ hội nghị truyền hình 3D để vượt ra ngoài màn hình phẳng truyền thống và tạo ra trải nghiệm trực tiếp, sống động hơn.

Hình 1. Google CEO của Sundar Pichai giới thiệu Google Beam ( Nguồn ).

‍

Trong thực tế, Google Beam được thiết kế để mang lại cảm giác như người bạn đang trò chuyện đang ở ngay trước mặt bạn. Không giống như các cuộc gọi video thông thường, Beam mang lại những tín hiệu tinh tế của con người, chẳng hạn như giao tiếp bằng mắt và chuyển động tự nhiên thay đổi theo góc nhìn của bạn, những chi tiết thường bị mất trên màn hình phẳng.

Trong bài viết này, chúng ta sẽ đi sâu vào những gì Google Beam là gì, nó được phát triển như thế nào, hoạt động ra sao và ứng dụng ra sao. Hãy cùng bắt đầu nhé!

Đi từ Dự án Starline đến Google Chùm tia

Trước khi chúng ta xem xét kỹ hơn Google Beam, chúng ta hãy cùng tìm hiểu rõ hơn về dự án tiền nhiệm của nó, Dự án Starline.

Được giới thiệu tại Google Tại I/O 2021, Dự án Starline là một sáng kiến nghiên cứu nhằm mục đích mang lại trải nghiệm giao tiếp từ xa chân thực hơn, gần như thể bạn đang ở trong cùng một phòng. Dự án hoạt động bằng cách tạo ra hình ảnh 3D kích thước thật của con người theo thời gian thực. Mặc dù công nghệ này thu hút được nhiều sự chú ý, nhưng nó đòi hỏi thiết lập phức tạp và phần cứng nặng.

Hình 2. Cái nhìn về Project Starline (Nguồn).

‍

Qua nhiều năm, khi công nghệ phát triển, Google đã tinh chỉnh phần mềm và hợp lý hóa phần cứng. Sau bốn năm phát triển, Dự án Starline đã phát triển thành Google Beam - giải pháp nhỏ gọn và thân thiện hơn với người dùng.

Google Beam sử dụng AI để nâng cao chất lượng cuộc gọi video bằng cách tạo ra hình ảnh 3D chân thực hơn về người bạn đang trò chuyện. Công nghệ này biến video 2D thông thường thành các góc nhìn có thể điều chỉnh theo nhiều góc độ khác nhau, giúp duy trì giao tiếp bằng mắt và giúp biểu cảm khuôn mặt dễ nhìn hơn. Beam cũng bao gồm các tính năng như dịch thuật theo thời gian thực, theo dõi chuyển động đầu và âm thanh không gian.

Tổng quan về Google Chùm tia

Google Beam được phát triển để hoạt động mà không cần các phụ kiện bổ sung như kính thực tế tăng cường (AR) hay thực tế ảo (VR). Thay vào đó, nó được tích hợp màn hình, hệ thống camera và phần cứng riêng để tạo hình ảnh 3D. Điều này giúp các cuộc gọi video trở nên tự nhiên, thoải mái và hấp dẫn hơn so với các cuộc họp video thông thường.

Hình 3. Một ví dụ về việc sử dụng Google Beam ( Nguồn ).

‍

Làm sao Google Beam tạo ra các cuộc họp ảo thực tế

Bây giờ chúng ta đã thảo luận về cách Google Beam đã ra đời, chúng ta hãy cùng xem xét kỹ hơn cách thức hoạt động của nó.

Chụp ảnh để cộng tác từ xa sống động

Tất cả bắt đầu bằng việc thu thập thông tin trực quan. Beam sử dụng sáu camera độ phân giải cao để chụp ảnh từ các góc độ khác nhau cùng một lúc.

Những máy ảnh này giúp track Đặc điểm khuôn mặt, ngôn ngữ cơ thể và các chuyển động nhỏ theo thời gian thực. AI đóng vai trò quan trọng bằng cách tối ưu hóa cài đặt camera và đồng bộ hóa hoàn hảo tất cả nguồn cấp dữ liệu video. Điều này chuẩn bị hệ thống cho giai đoạn tiếp theo: xử lý dữ liệu.

Chuyển đổi ảnh 2D thành hội nghị video 3D

Tiếp theo, AI được sử dụng để kết hợp sáu luồng camera 2D để tạo ra một mô hình 3D theo thời gian thực của người đang xem. Thay vì chỉ đơn giản xếp lớp các hình ảnh 2D, nó tái tạo độ sâu, bóng và các mối quan hệ không gian để tạo ra một bản sao kỹ thuật số 3D đầy đủ.

Để xây dựng mô hình 3D này, Beam sử dụng AI và các kỹ thuật thị giác máy tính như ước tính độ sâu và theo dõi chuyển động. Các phương pháp này giúp xác định khoảng cách của một người so với máy ảnh, cách họ di chuyển và vị trí cơ thể của họ. Với dữ liệu này, hệ thống có thể lập bản đồ các đặc điểm khuôn mặt và các bộ phận cơ thể một cách chính xác trong không gian 3D.

Mô hình AI đằng sau Beam cập nhật biểu diễn 3D ở tốc độ 60 khung hình trên giây (FPS) để giữ cho cuộc trò chuyện mượt mà và sống động như thật. Nó cũng thực hiện các điều chỉnh theo thời gian thực để phản ánh chính xác các chuyển động của người đó.

Hình 4. Google Sáu camera của Beam chụp ảnh từ nhiều góc độ khác nhau ( Nguồn ).

‍

Google Hệ thống hiển thị trường ánh sáng của Beam

Mô hình 3D được hiển thị trên hệ thống Beam của người nhận bằng cách sử dụng màn hình trường ánh sáng. Không giống như các màn hình thông thường hiển thị cùng một hình ảnh cho cả hai mắt, màn hình trường ánh sáng phát ra các hình ảnh hơi khác nhau cho mỗi mắt, mô phỏng cách chúng ta cảm nhận độ sâu trong đời thực. Điều này tạo ra trải nghiệm hình ảnh ba chiều chân thực hơn.

Hình 5. Trao đổi những cái vỗ tay ảo thông qua Google Beam ( Nguồn ).

‍

Theo dõi đầu chính xác đến từng milimet theo thời gian thực

Một trong những Google Tính năng ấn tượng nhất của Beam là khả năng theo dõi AI theo thời gian thực. Hệ thống sử dụng công nghệ theo dõi chính xác chuyển động của đầu và mắt để theo dõi các chuyển động đến từng chi tiết nhỏ nhất.

Ví dụ, công cụ AI của Beam có thể liên tục track Vị trí đầu của người dùng và thực hiện các điều chỉnh tinh tế cho hình ảnh theo thời gian thực . Điều này tạo cảm giác như người trên màn hình thực sự đang ngồi đối diện với bạn. Khi bạn di chuyển đầu, hình ảnh 3D cũng sẽ dịch chuyển tương ứng, giống như trong một cuộc trò chuyện trực tiếp thực sự.

Xử lý âm thanh cho giao tiếp ảo tăng cường bằng AI

Beam cũng cải thiện trải nghiệm âm thanh bằng cách sử dụng âm thanh không gian phù hợp với vị trí người đó xuất hiện trên màn hình. Nếu ai đó ở bên trái màn hình, giọng nói của họ sẽ phát ra như thể đến từ bên trái. Khi họ thay đổi vị trí, âm thanh sẽ điều chỉnh theo họ. Điều này làm cho các cuộc trò chuyện trở nên tự nhiên hơn và giúp não bộ của bạn theo dõi ai đang nói mà không cần nỗ lực thêm.

Điều này hoạt động bằng cách kết hợp các kỹ thuật âm thanh định hướng với theo dõi thời gian thực. Beam sử dụng âm thanh không gian để mô phỏng cách chúng ta cảm nhận âm thanh một cách tự nhiên trong thế giới thực (dựa trên hướng nó đến và cách nó đến từng tai). Hệ thống cũng theo dõi chuyển động đầu của người xem và điều chỉnh đầu ra âm thanh cho phù hợp, do đó âm thanh vẫn “đính kèm” với người trên màn hình.

Ứng dụng của Google Chùm tia

Google Beam, mặc dù vẫn đang trong giai đoạn đầu, cho thấy tiềm năng đầy hứa hẹn trong lĩnh vực hội nghị truyền hình. Dưới đây là một số ứng dụng chính của nó:

Hợp tác từ xa: Google Beam có thể giúp các cuộc họp, đặc biệt là các cuộc thảo luận về lãnh đạo hoặc các cuộc đàm phán quan trọng, trở nên gần gũi và hiệu quả hơn. Bằng cách nắm bắt các yếu tố tinh tế như ngôn ngữ cơ thể và giao tiếp bằng mắt, Beam giúp mọi người cảm thấy hiện diện hơn, ngay cả khi họ ở xa nhau.
‍
Giáo dục: Beam có tiềm năng làm cho việc học tập ảo trở nên thú vị và dễ tiếp cận hơn. Hãy tưởng tượng một nhà khoa học giảng bài trực tiếp cho sinh viên ở nửa vòng trái đất, và thực tế cảm giác như họ đang ở cùng một phòng.
‍
Chăm sóc sức khỏe: Beam có thể làm cho các cuộc tư vấn từ xa trở nên cá nhân hơn. Khi bác sĩ và bệnh nhân có thể nhìn thấy nhau rõ ràng và giao tiếp bằng mắt tự nhiên, nó sẽ xây dựng lòng tin và làm cho sự tương tác trở nên gần gũi hơn.
‍
Các ngành công nghiệp sáng tạo: Đối với những người trong lĩnh vực sáng tạo, như nhà làm phim hoạt hình, nghệ sĩ và nhà sản xuất, Beam có thể giúp làm việc nhóm từ xa trở nên dễ dàng và tự nhiên hơn. Cho dù đó là động não các ý tưởng hoặc xem xét một dự án, nó có cảm giác giống như ngồi cùng nhau trong một studio hơn là thực hiện một cuộc gọi video.

Ưu và nhược điểm của Google Chùm tia

Dưới đây là một số lợi ích chính mà một sự đổi mới như Google Beam mang đến:

Không cần thiết bị đeo: Không giống như nhiều công nghệ nhập vai, Beam hoạt động mà không cần thiết bị AR hoặc VR. Điều này làm cho trải nghiệm thoải mái hơn và tránh các vấn đề thường gặp như say tàu xe hoặc sự bất tiện khi đeo thêm thiết bị.
‍
Giảm mỏi mắt: Màn hình 3D mang lại trải nghiệm xem tự nhiên và thoải mái hơn, có thể giúp giảm mỏi mắt so với việc nhìn chằm chằm vào màn hình phẳng trong thời gian dài.
‍
Dịch ngôn ngữ theo thời gian thực: Beam có thể kết hợp dịch thuật theo thời gian thực do AI cung cấp, giúp những người nói các ngôn ngữ khác nhau giao tiếp tự nhiên hơn trong các cuộc họp quốc tế hoặc môi trường học tập.

Beam là một bước tiến đầy hứa hẹn, nhưng giống như bất kỳ công nghệ mới nào, nó đi kèm với một vài hạn chế. Dưới đây là một số điều cần xem xét:

Yêu cầu phần cứng: Beam yêu cầu các thiết bị chuyên dụng, cao cấp, chẳng hạn như màn hình trường ánh sáng và nhiều camera, điều này khiến nó trở nên đắt đỏ và ít được các cá nhân và tổ chức nhỏ hơn tiếp cận hơn.
‍
Không di động: Hệ thống của Beam được thiết kế để lắp đặt cố định và không có nghĩa là dễ dàng di chuyển, điều này hạn chế tính linh hoạt và sử dụng của nó trong môi trường di động hoặc thay đổi.

Những điều cần nhớ

Google Beam là một bước tiến đáng chú ý hướng đến việc biến giao tiếp ảo trở nên gần gũi với con người hơn. Mặc dù vẫn đang trong giai đoạn đầu, nhưng công nghệ này có tiềm năng thay đổi cách chúng ta gặp gỡ, kết nối và cộng tác. Bằng cách kết hợp AI tiên tiến, hình ảnh 3D và âm thanh không gian, Beam tạo ra trải nghiệm từ xa chân thực và hấp dẫn hơn.

BẰNG Google Tiếp tục cải tiến phần cứng của Beam, thu nhỏ kích thước hơn nữa và có thể đưa nó đến với người dùng thông thường, Beam mang đến những khả năng thú vị cho tương lai của giao tiếp ảo. Cùng với các xu hướng công nghệ mới như họp trực tuyến ba chiều và hình đại diện 3D, Beam đang thiết lập một tiêu chuẩn mới cho các cuộc họp ảo.

Tham gia cộng đồng của chúng tôi và xem qua các tùy chọn cấp phép của chúng tôi để bắt đầu với thị giác máy tính ngay hôm nay. Xem kho lưu trữ GitHub của chúng tôi để tìm hiểu thêm về AI. Đọc các trang giải pháp của chúng tôi để hiểu rõ hơn về các trường hợp sử dụng khác nhau của AI trong bán lẻ và thị giác máy tính trong nông nghiệp.

Khám phá Google Beam: Công cụ hội nghị truyền hình 3D thế hệ tiếp theo

Đi từ Dự án Starline đến Google Chùm tia

Tổng quan về Google Chùm tia

Làm sao Google Beam tạo ra các cuộc họp ảo thực tế

Chụp ảnh để cộng tác từ xa sống động

Chuyển đổi ảnh 2D thành hội nghị video 3D

Google Hệ thống hiển thị trường ánh sáng của Beam

Theo dõi đầu chính xác đến từng milimet theo thời gian thực

Xử lý âm thanh cho giao tiếp ảo tăng cường bằng AI

Ứng dụng của Google Chùm tia

Ưu và nhược điểm của Google Chùm tia

Những điều cần nhớ

Đọc thêm trong danh mục này

12 trường hợp sử dụng ảnh chụp từ trên không được hỗ trợ bởi thị giác máy tính

Công cụ AI thị giác cho chẩn đoán y tế

Từ dữ liệu đến quyết định: Sử dụng trí tuệ nhân tạo thị giác cho chiến lược doanh nghiệp

Hãy cùng nhau xây dựng tương lai
của AI!

Khám phá Google Beam: Công cụ hội nghị truyền hình 3D thế hệ tiếp theo

Đi từ Dự án Starline đến Google Chùm tia

Tổng quan về Google Chùm tia

Làm sao Google Beam tạo ra các cuộc họp ảo thực tế

Chụp ảnh để cộng tác từ xa sống động

Chuyển đổi ảnh 2D thành hội nghị video 3D

Google Hệ thống hiển thị trường ánh sáng của Beam

Theo dõi đầu chính xác đến từng milimet theo thời gian thực

Xử lý âm thanh cho giao tiếp ảo tăng cường bằng AI

Ứng dụng của Google Chùm tia

Ưu và nhược điểm của Google Chùm tia

Những điều cần nhớ

Đọc thêm trong danh mục này

12 trường hợp sử dụng ảnh chụp từ trên không được hỗ trợ bởi thị giác máy tính

Công cụ AI thị giác cho chẩn đoán y tế

Từ dữ liệu đến quyết định: Sử dụng trí tuệ nhân tạo thị giác cho chiến lược doanh nghiệp

Hãy cùng nhau xây dựng tương lai của AI!

Hãy cùng nhau xây dựng tương lai
của AI!