Đón xem YOLO Vision 2025!
25 tháng 9, 2025
10:00 — 18:00 BST
Sự kiện kết hợp
Yolo Vision 2024

GPT-4o của OpenAI thể hiện tiềm năng của AI

Abirami Vina

5 phút đọc

14 tháng 5, 2024

Khám phá GPT-4o mới của OpenAI, có AI tiên tiến với các tương tác sống động như thật, thay đổi cách chúng ta giao tiếp với công nghệ. Khám phá các tính năng đột phá của nó!

Vào Thứ Hai, ngày 13 tháng 5 năm 2024, OpenAI đã công bố ra mắt mô hình hàng đầu mới của mình, GPT-4o, trong đó 'o' là viết tắt của 'omni'. GPT-4o là một mô hình AI đa phương thức tiên tiến để tương tác văn bản, âm thanh và thị giác theo thời gian thực, cung cấp khả năng xử lý nhanh hơn, hỗ trợ đa ngôn ngữ và tăng cường độ an toàn.

Nó mang đến những khả năng AI tạo sinh chưa từng thấy. Dựa trên thế mạnh đàm thoại của ChatGPT, các tính năng của GPT-4o đánh dấu một bước tiến đáng kể trong cách mọi người cảm nhận về AI. Giờ đây, chúng ta có thể trò chuyện với GPT-4o như thể đó là một người thật. Hãy cùng đi sâu vào tìm hiểu chính xác những gì GPT-4o có thể làm!

Tìm hiểu về GPT-4o

Tại bản cập nhật mùa xuân của OpenAI, người ta đã tiết lộ rằng mặc dù GPT-4o thông minh như GPT-4, nhưng nó có thể xử lý dữ liệu nhanh hơn và được trang bị tốt hơn để xử lý văn bản, hình ảnh và âm thanh. Không giống như các bản phát hành trước đây tập trung vào việc làm cho các mô hình thông minh hơn, bản phát hành này được thực hiện có tính đến nhu cầu làm cho AI dễ sử dụng hơn đối với khán giả nói chung. 

Hình 1. Bản cập nhật mùa xuân của OpenAI

Chế độ giọng nói của ChatGPT, được phát hành vào cuối năm ngoái, bao gồm ba mô hình khác nhau kết hợp với nhau để phiên âm các đầu vào bằng giọng nói, hiểu và tạo ra các phản hồi bằng văn bản, đồng thời chuyển đổi văn bản thành giọng nói để người dùng có thể nghe thấy phản hồi. Chế độ này gặp phải các vấn đề về độ trễ và không mang lại cảm giác tự nhiên. GPT-4o có thể xử lý văn bản, hình ảnh và âm thanh một cách tự nhiên cùng một lúc để tạo cho người dùng ấn tượng rằng họ đang tham gia vào một cuộc trò chuyện tự nhiên. 

Ngoài ra, không giống như trong chế độ giọng nói, giờ đây bạn có thể ngắt lời GPT-4o khi nó đang nói và nó sẽ phản ứng giống như một người bình thường. Nó sẽ tạm dừng và lắng nghe, sau đó đưa ra phản hồi theo thời gian thực dựa trên những gì bạn nói. Nó cũng có thể thể hiện cảm xúc thông qua giọng nói và hiểu được giọng điệu của bạn. 

Các tính năng thú vị của GPT-4o

Đánh giá mô hình của GPT-4o cho thấy nó tiên tiến đến mức nào. Một trong những kết quả thú vị nhất được tìm thấy là GPT-4o cải thiện đáng kể khả năng nhận dạng giọng nói so với Whisper-v3 ở tất cả các ngôn ngữ, đặc biệt là những ngôn ngữ ít được sử dụng hơn. 

Hiệu suất Audio ASR (Nhận dạng giọng nói tự động) đo lường mức độ chính xác của một mô hình trong việc phiên âm ngôn ngữ nói thành văn bản. Hiệu suất của GPT-4o được theo dõi bởi Tỷ lệ lỗi từ (WER), cho biết tỷ lệ phần trăm các từ được phiên âm không chính xác (WER thấp hơn có nghĩa là chất lượng tốt hơn). Biểu đồ bên dưới cho thấy WER thấp hơn của GPT-4o ở nhiều khu vực khác nhau, chứng minh hiệu quả của nó trong việc cải thiện khả năng nhận dạng giọng nói cho các ngôn ngữ ít tài nguyên hơn.

Hình 2. GPT-4o có khả năng nhận dạng giọng nói vượt trội ở nhiều ngôn ngữ.

Dưới đây là một số tính năng độc đáo khác của GPT-4o:

  • Nhanh hơn - Nhanh gấp đôi so với GPT-4 Turbo. Nó có thể phản hồi các đầu vào âm thanh chỉ trong 232 mili giây, tương tự như thời gian phản hồi trong cuộc trò chuyện của con người.
  • Hiệu quả về chi phí - Phiên bản API của GPT-4o rẻ hơn 50% so với GPT-4 Turbo.
  • Bộ nhớ - GPT-4o có khả năng duy trì nhận thức trong các cuộc trò chuyện khác nhau. Nó có thể nhớ những gì bạn đang nói trong các cuộc trò chuyện khác nhau.
  • Đa ngôn ngữ - GPT-4o đã được đào tạo để cải thiện tốc độ và chất lượng ở 50 ngôn ngữ khác nhau.

Ví dụ về những gì GPT-4o có thể làm

Giờ đây, bạn có thể lấy GPT-4o trên điện thoại, bật máy ảnh và yêu cầu GPT-4o, giống như bạn làm với một người bạn, đoán tâm trạng của bạn dựa trên biểu cảm khuôn mặt của bạn. GPT-4o có thể nhìn bạn qua máy ảnh và trả lời.

Hình 3. GPT-4o hiểu tâm trạng của một người thông qua video.

Bạn thậm chí có thể sử dụng nó để giúp bạn giải các bài toán bằng cách cho GPT-4o xem những gì bạn đang viết qua video. Ngoài ra, bạn có thể chia sẻ màn hình của mình và nó có thể trở thành một gia sư hữu ích trên Khan Academy, yêu cầu bạn chỉ ra các phần khác nhau của một tam giác trong hình học, như được hiển thị bên dưới.

Hình 4. GPT-4o đóng vai trò là gia sư trên Khan Academy.

Ngoài việc giúp trẻ em giải toán, các nhà phát triển có thể trò chuyện với GPT-4o để gỡ lỗi mã của họ. Điều này có thể thực hiện được nhờ sự ra đời của ChatGPT như một ứng dụng dành cho máy tính để bàn. Nếu bạn đánh dấu và sao chép mã của mình bằng CTRL “C” trong khi nói chuyện với ứng dụng giọng nói GPT-4o trên máy tính để bàn, nó sẽ có thể đọc mã của bạn. Hoặc, bạn có thể sử dụng nó để dịch các cuộc trò chuyện giữa các nhà phát triển nói các ngôn ngữ khác nhau. 

Những khả năng với GPT-4o dường như là vô tận. Một trong những bản demo thú vị nhất từ OpenAI đã sử dụng hai điện thoại để hiển thị GPT-4o nói chuyện với các phiên bản khác nhau của chính nó và hát cùng nhau.

Hình 5. AI nói chuyện và hát với AI.

Các ứng dụng của GPT-4o

Như được hiển thị trong một bản demo, GPT-4o có thể làm cho thế giới trở nên dễ tiếp cận hơn đối với những người khiếm thị. Nó có thể giúp họ tương tác và di chuyển xung quanh an toàn và độc lập hơn. Ví dụ: người dùng có thể bật video của họ và cho GPT-4o xem khung cảnh đường phố. Sau đó, GPT-4o có thể cung cấp mô tả theo thời gian thực về môi trường, chẳng hạn như xác định chướng ngại vật, đọc biển báo đường phố hoặc hướng dẫn họ đến một vị trí cụ thể. Nó thậm chí có thể giúp họ gọi taxi bằng cách cảnh báo họ khi có taxi đang đến.

Hình 6. GPT-4o cảnh báo khi có taxi đến.

Tương tự, GPT-4o có thể thay đổi nhiều ngành công nghiệp khác nhau nhờ các khả năng tiên tiến của nó. Trong lĩnh vực bán lẻ, nó có thể cải thiện dịch vụ khách hàng bằng cách cung cấp hỗ trợ theo thời gian thực, trả lời các câu hỏi và giúp khách hàng tìm sản phẩm cả trực tuyến và tại cửa hàng. Giả sử bạn đang xem một kệ sản phẩm và không thể chọn ra sản phẩm mình đang tìm kiếm, GPT-4o có thể giúp bạn. 

Trong lĩnh vực chăm sóc sức khỏe, GPT-4o có thể hỗ trợ chẩn đoán bằng cách phân tích dữ liệu bệnh nhân, đề xuất các tình trạng bệnh có thể xảy ra dựa trên các triệu chứng và đưa ra hướng dẫn về các lựa chọn điều trị. Nó cũng có thể hỗ trợ các chuyên gia y tế bằng cách tóm tắt hồ sơ bệnh nhân, cung cấp quyền truy cập nhanh vào tài liệu y tế và thậm chí cung cấp dịch thuật ngôn ngữ theo thời gian thực để giao tiếp với bệnh nhân nói các ngôn ngữ khác nhau. Đây chỉ là một vài ví dụ. Các ứng dụng của GPT-4o giúp cuộc sống hàng ngày trở nên dễ dàng hơn bằng cách cung cấp hỗ trợ phù hợp, nhận biết ngữ cảnh và phá vỡ các rào cản đối với thông tin và giao tiếp.

GPT-4o và tính an toàn của mô hình

Giống như các phiên bản GPT trước đây, vốn đã tác động đến hàng trăm triệu người, GPT-4o có khả năng sẽ tương tác với âm thanh và video theo thời gian thực trên toàn cầu, khiến an toàn trở thành một yếu tố quan trọng trong các ứng dụng này. OpenAI đã rất cẩn thận để xây dựng GPT-4o với trọng tâm là giảm thiểu các rủi ro tiềm ẩn.

Để đảm bảo an toàn và độ tin cậy, OpenAI đã thực hiện các biện pháp an toàn nghiêm ngặt. Chúng bao gồm lọc dữ liệu huấn luyện, tinh chỉnh hành vi của mô hình sau khi huấn luyện và kết hợp các hệ thống an toàn mới để quản lý đầu ra giọng nói. Hơn nữa, GPT-4o đã được thử nghiệm rộng rãi bởi hơn 70 chuyên gia bên ngoài trong các lĩnh vực như tâm lý học xã hội, sự thiên vị và công bằng, và thông tin sai lệch. Thử nghiệm bên ngoài đảm bảo rằng mọi rủi ro do các tính năng mới gây ra hoặc khuếch đại đều được xác định và giải quyết.

Để duy trì các tiêu chuẩn an toàn cao, OpenAI đang phát hành các tính năng của GPT-4o dần dần trong vài tuần tới. Việc triển khai theo từng giai đoạn cho phép OpenAI theo dõi hiệu suất, giải quyết mọi vấn đề và thu thập phản hồi của người dùng. Cách tiếp cận cẩn thận này đảm bảo rằng GPT-4o cung cấp các khả năng nâng cao đồng thời duy trì các tiêu chuẩn cao nhất về an toàn và sử dụng có đạo đức.

Tự mình dùng thử GPT-4o

GPT-4o được cung cấp để truy cập miễn phí. Để dùng thử các khả năng trò chuyện theo thời gian thực được đề cập ở trên, bạn có thể tải xuống ứng dụng ChatGPT từ Google Play Store hoặc Apple App Store trực tiếp trên điện thoại của mình. 

Sau khi đăng nhập, bạn sẽ có thể chọn GPT-4o từ danh sách hiển thị bằng cách nhấn vào ba dấu chấm ở góc trên bên phải của màn hình. Sau khi điều hướng đến một cuộc trò chuyện được bật với GPT-4o, nếu bạn nhấn vào dấu cộng ở góc dưới bên trái của màn hình, bạn sẽ thấy nhiều tùy chọn đầu vào. Ở góc dưới bên phải của màn hình, bạn sẽ thấy biểu tượng tai nghe. Sau khi chọn biểu tượng tai nghe, bạn sẽ được hỏi liệu bạn có muốn trải nghiệm phiên bản rảnh tay của GPT-4o hay không. Sau khi đồng ý, bạn sẽ có thể dùng thử GPT-4o, như được hiển thị bên dưới.

Hình 7. Dùng thử GPT-4o trên ứng dụng di động ChatGPT.

Nếu bạn muốn tích hợp các khả năng nâng cao của GPT-4o vào các dự án của riêng mình, nó có sẵn dưới dạng API cho các nhà phát triển. Nó cho phép bạn kết hợp khả năng nhận dạng giọng nói mạnh mẽ, hỗ trợ đa ngôn ngữ và khả năng đàm thoại theo thời gian thực của GPT-4o vào các ứng dụng của bạn. Bằng cách sử dụng API, bạn có thể nâng cao trải nghiệm người dùng, xây dựng các ứng dụng thông minh hơn và mang công nghệ AI tiên tiến đến các lĩnh vực khác nhau.

GPT-4o: Chưa hoàn toàn giống con người

Mặc dù GPT-4o tiên tiến hơn nhiều so với các mô hình AI trước đây, nhưng điều quan trọng cần nhớ là GPT-4o đi kèm với những hạn chế riêng. OpenAI đã đề cập rằng đôi khi nó có thể ngẫu nhiên chuyển đổi ngôn ngữ khi nói chuyện, chuyển từ tiếng Anh sang tiếng Pháp. Họ cũng đã thấy GPT-4o dịch không chính xác giữa các ngôn ngữ. Khi có nhiều người dùng thử mô hình hơn, chúng ta sẽ hiểu GPT-4o vượt trội ở đâu và cần cải thiện thêm điều gì.

Kết luận

GPT-4o của OpenAI mở ra những cánh cửa mới cho AI với khả năng xử lý văn bản, hình ảnh và âm thanh tiên tiến, mang đến các tương tác tự nhiên, giống con người. Nó vượt trội về tốc độ, hiệu quả chi phí và hỗ trợ đa ngôn ngữ. GPT-4o là một công cụ linh hoạt cho giáo dục, khả năng tiếp cận và hỗ trợ theo thời gian thực. Khi người dùng khám phá các khả năng của GPT-4o, phản hồi sẽ thúc đẩy sự phát triển của nó. GPT-4o chứng minh rằng AI đang thực sự thay đổi thế giới của chúng ta và trở thành một phần trong cuộc sống hàng ngày của chúng ta. 

Khám phá kho lưu trữ GitHub của chúng tôi và tham gia cộng đồng của chúng tôi để tìm hiểu sâu hơn về AI. Truy cập các trang giải pháp của chúng tôi để xem AI đang chuyển đổi các ngành công nghiệp như sản xuấtnông nghiệp như thế nào.

Hãy cùng nhau xây dựng tương lai
của AI!

Bắt đầu hành trình của bạn với tương lai của học máy

Bắt đầu miễn phí
Đã sao chép liên kết vào clipboard