GPT-4o của OpenAI giới thiệu tiềm năng của AI
Khám phá GPT-4o mới của OpenAI, có AI tiên tiến với các tương tác giống như thật thay đổi cách chúng ta giao tiếp với công nghệ. Khám phá các tính năng đột phá của nó!

Vào thứ Hai, ngày 13 tháng 5 năm 2024, OpenAI đã thông báo ra mắt model chủ đạo mới của mình, GPT-4o, trong đó chữ 'o' là viết tắt của 'omni' (toàn năng). GPT-4o là một model AI đa phương thức tiên tiến dành cho các tương tác văn bản, âm thanh và hình ảnh theo thời gian thực, mang đến khả năng xử lý nhanh hơn, hỗ trợ đa ngôn ngữ và nâng cao tính an toàn.
Model này mang đến những khả năng AI tạo sinh chưa từng thấy trước đây. Dựa trên thế mạnh hội thoại của ChatGPT, các tính năng của GPT-4o đánh dấu một bước tiến đáng kể trong cách mọi người nhìn nhận AI. Giờ đây, chúng ta có thể trò chuyện với GPT-4o như thể đang nói chuyện với một người thật. Hãy cùng tìm hiểu sâu hơn để xem chính xác GPT-4o có khả năng gì!
Link to this sectionLàm quen với GPT-4o#
Tại bản cập nhật mùa xuân của OpenAI, người ta đã tiết lộ rằng mặc dù GPT-4o thông minh ngang bằng với GPT-4, nhưng nó có thể xử lý dữ liệu nhanh hơn và được trang bị tốt hơn để xử lý văn bản, hình ảnh và âm thanh. Không giống như các phiên bản trước tập trung vào việc làm cho các model thông minh hơn, phiên bản này được tạo ra với mục tiêu làm cho AI dễ sử dụng hơn đối với đại chúng.

Hình 1. Bản cập nhật mùa xuân của OpenAI
Chế độ giọng nói của ChatGPT, được phát hành vào cuối năm ngoái, cần ba model khác nhau phối hợp để chuyển đổi đầu vào giọng nói thành văn bản, hiểu và tạo phản hồi bằng văn bản, sau đó chuyển đổi văn bản thành giọng nói để người dùng có thể nghe thấy câu trả lời. Chế độ này gặp phải các vấn đề về độ trễ và cảm giác không tự nhiên cho lắm. GPT-4o có thể xử lý văn bản, hình ảnh và âm thanh một cách tự nhiên trong một lượt để mang lại cho người dùng cảm giác như họ đang tham gia vào một cuộc trò chuyện tự nhiên.
Ngoài ra, không giống như chế độ giọng nói trước đây, giờ đây bạn có thể ngắt lời GPT-4o khi nó đang nói và nó sẽ phản ứng giống như một con người. Nó sẽ tạm dừng và lắng nghe, sau đó đưa ra câu trả lời theo thời gian thực dựa trên những gì bạn đã nói. Nó cũng có thể thể hiện cảm xúc qua giọng nói và hiểu được tông giọng của bạn.
Link to this sectionCác tính năng thú vị của GPT-4o#
Việc đánh giá model GPT-4o cho thấy mức độ tiên tiến của nó. Một trong những kết quả thú vị nhất được tìm thấy là GPT-4o cải thiện đáng kể khả năng nhận dạng giọng nói so với Whisper-v3 trong tất cả các ngôn ngữ, đặc biệt là những ngôn ngữ ít phổ biến hơn.
Hiệu suất Audio ASR (Nhận dạng giọng nói tự động) đo lường độ chính xác của một model khi chuyển đổi ngôn ngữ nói thành văn bản. Hiệu suất của GPT-4o được theo dõi bằng Tỷ lệ lỗi từ (WER), cho thấy tỷ lệ phần trăm các từ được phiên âm không chính xác (WER thấp hơn nghĩa là chất lượng tốt hơn). Biểu đồ dưới đây cho thấy chỉ số WER thấp hơn của GPT-4o trên nhiều khu vực khác nhau, chứng minh hiệu quả của nó trong việc cải thiện khả năng nhận dạng giọng nói cho các ngôn ngữ có ít tài nguyên hơn.

Hình 2. GPT-4o có khả năng nhận dạng giọng nói vượt trội trong nhiều ngôn ngữ.
Dưới đây là một cái nhìn về một số tính năng độc đáo khác của GPT-4o:
- Nhanh hơn - Nó nhanh gấp đôi GPT-4 Turbo. Nó có thể phản hồi các đầu vào âm thanh chỉ trong 232 mili giây, tương tự như thời gian phản hồi của cuộc hội thoại giữa người với người.
- Tiết kiệm chi phí - Phiên bản API của GPT-4o rẻ hơn 50% so với GPT-4 Turbo.
- Bộ nhớ - GPT-4o có khả năng duy trì nhận thức giữa các cuộc trò chuyện khác nhau. Nó có thể ghi nhớ những gì bạn đang thảo luận trong các phiên chat khác nhau.
- Đa ngôn ngữ - GPT-4o đã được đào tạo để cải thiện tốc độ và chất lượng trong 50 ngôn ngữ khác nhau.
Link to this sectionVí dụ về những gì GPT-4o có thể làm#
Giờ đây, bạn có thể rút điện thoại ra, bật camera và yêu cầu GPT-4o đoán tâm trạng của bạn dựa trên biểu cảm khuôn mặt, giống như bạn làm với một người bạn vậy. GPT-4o có thể nhìn thấy bạn qua camera và trả lời.

Hình 3. GPT-4o hiểu tâm trạng con người qua video.
Bạn thậm chí có thể sử dụng nó để giúp giải các bài toán bằng cách cho GPT-4o xem những gì bạn đang viết qua video. Hoặc bạn có thể chia sẻ màn hình của mình, và nó có thể trở thành một gia sư hữu ích trên Khan Academy, yêu cầu bạn chỉ ra các phần khác nhau của một hình tam giác trong hình học, như hiển thị bên dưới.

Hình 4. GPT-4o đóng vai trò gia sư trên Khan Academy.
Ngoài việc giúp trẻ em học toán, các nhà phát triển có thể trò chuyện với GPT-4o để debug code của họ. Điều này khả thi nhờ sự ra mắt của ChatGPT dưới dạng ứng dụng desktop. Nếu bạn bôi đen và sao chép code của mình bằng CTRL “C” trong khi đang nói chuyện với ứng dụng voice của GPT-4o trên desktop, nó sẽ có thể đọc được code của bạn. Hoặc, bạn có thể dùng nó để dịch các cuộc hội thoại giữa các nhà phát triển sử dụng các ngôn ngữ khác nhau.
Các khả năng với GPT-4o dường như là vô tận. Một trong những bản demo thú vị nhất từ OpenAI đã sử dụng hai chiếc điện thoại để cho thấy GPT-4o đang trò chuyện với các phiên bản khác nhau của chính nó và cùng nhau ca hát.

Hình 5. AI trò chuyện và ca hát cùng AI.
Link to this sectionCác ứng dụng của GPT-4o#
Như đã trình bày trong bản demo, GPT-4o có thể làm cho thế giới trở nên dễ tiếp cận hơn đối với những người khiếm thị. Nó có thể giúp họ tương tác và di chuyển xung quanh một cách an toàn và độc lập hơn. Ví dụ, người dùng có thể bật video và cho GPT-4o xem quang cảnh đường phố. Sau đó, GPT-4o có thể cung cấp các mô tả theo thời gian thực về môi trường, chẳng hạn như xác định các chướng ngại vật, đọc biển báo đường phố hoặc hướng dẫn họ đến một địa điểm cụ thể. Nó thậm chí có thể giúp họ vẫy taxi bằng cách cảnh báo khi có taxi đang đến gần.

Hình 6. GPT-4o cảnh báo khi có taxi đang đến.
Tương tự, GPT-4o có thể biến đổi nhiều ngành công nghiệp khác nhau với các khả năng tiên tiến của mình. Trong bán lẻ, nó có thể cải thiện dịch vụ khách hàng bằng cách cung cấp hỗ trợ thời gian thực, trả lời các thắc mắc và giúp khách hàng tìm kiếm sản phẩm cả trực tuyến lẫn tại cửa hàng. Giả sử bạn đang nhìn vào một kệ hàng hóa và không thể tìm thấy sản phẩm bạn đang cần, GPT-4o có thể giúp bạn.
Trong chăm sóc sức khỏe, GPT-4o có thể hỗ trợ chẩn đoán bằng cách phân tích dữ liệu bệnh nhân, gợi ý các tình trạng có thể xảy ra dựa trên các triệu chứng và cung cấp hướng dẫn về các phương án điều trị. Nó cũng có thể hỗ trợ các chuyên gia y tế bằng cách tóm tắt hồ sơ bệnh nhân, cung cấp quyền truy cập nhanh vào tài liệu y khoa và thậm chí cung cấp dịch thuật ngôn ngữ thời gian thực để giao tiếp với những bệnh nhân nói ngôn ngữ khác nhau. Đây chỉ là một vài ví dụ. Các ứng dụng của GPT-4o làm cho cuộc sống hàng ngày trở nên dễ dàng hơn bằng cách cung cấp hỗ trợ phù hợp, có ngữ cảnh và phá bỏ các rào cản về thông tin và giao tiếp.
Link to this sectionGPT-4o và an toàn model#
Cũng giống như các phiên bản GPT trước đây, vốn đã tác động đến hàng trăm triệu cuộc sống, GPT-4o có khả năng sẽ tương tác với âm thanh và video thời gian thực trên toàn cầu, khiến tính an toàn trở thành một yếu tố quan trọng trong các ứng dụng này. OpenAI đã rất cẩn trọng khi xây dựng GPT-4o với trọng tâm là giảm thiểu các rủi ro tiềm ẩn.
Để đảm bảo an toàn và độ tin cậy, OpenAI đã thực hiện các biện pháp an toàn nghiêm ngặt. Chúng bao gồm việc lọc dữ liệu đào tạo, tinh chỉnh hành vi của model sau khi đào tạo và tích hợp các hệ thống an toàn mới để quản lý đầu ra giọng nói. Hơn nữa, GPT-4o đã được thử nghiệm rộng rãi bởi hơn 70 chuyên gia bên ngoài trong các lĩnh vực như tâm lý học xã hội, định kiến và sự công bằng, cũng như thông tin sai lệch. Việc thử nghiệm bên ngoài đảm bảo rằng mọi rủi ro do các tính năng mới gây ra hoặc khuếch đại đều được xác định và giải quyết.
Để duy trì các tiêu chuẩn an toàn cao, OpenAI đang phát hành các tính năng của GPT-4o dần dần trong vài tuần tới. Việc triển khai theo từng giai đoạn cho phép OpenAI theo dõi hiệu suất, giải quyết mọi vấn đề và thu thập phản hồi của người dùng. Việc tiếp cận cẩn thận đảm bảo rằng GPT-4o cung cấp các khả năng tiên tiến trong khi vẫn duy trì các tiêu chuẩn cao nhất về an toàn và sử dụng đạo đức.
Link to this sectionHãy tự mình trải nghiệm GPT-4o#
GPT-4o có sẵn để truy cập miễn phí. Để thử các khả năng trò chuyện thời gian thực đã đề cập ở trên, bạn có thể tải xuống ứng dụng ChatGPT từ Google Play Store hoặc Apple App Store trực tiếp lên điện thoại của mình.
Sau khi đăng nhập, bạn có thể chọn GPT-4o từ danh sách hiển thị bằng cách nhấn vào ba dấu chấm ở góc trên bên phải màn hình. Sau khi điều hướng đến một cuộc trò chuyện được kích hoạt GPT-4o, nếu bạn nhấn vào dấu cộng ở góc dưới bên trái màn hình, bạn sẽ thấy nhiều tùy chọn đầu vào. Ở góc dưới bên phải màn hình, bạn sẽ thấy biểu tượng tai nghe. Sau khi chọn biểu tượng tai nghe, bạn sẽ được hỏi liệu có muốn trải nghiệm phiên bản rảnh tay của GPT-4o hay không. Sau khi đồng ý, bạn sẽ có thể thử trải nghiệm GPT-4o như hiển thị bên dưới.

Hình 7. Trải nghiệm GPT-4o trên ứng dụng di động ChatGPT.
Nếu bạn muốn tích hợp các khả năng tiên tiến của GPT-4o vào các dự án của riêng mình, nó có sẵn dưới dạng API cho các nhà phát triển. Nó cho phép bạn kết hợp khả năng nhận dạng giọng nói mạnh mẽ, hỗ trợ đa ngôn ngữ và các khả năng hội thoại thời gian thực của GPT-4o vào các ứng dụng của bạn. Bằng cách sử dụng API, bạn có thể nâng cao trải nghiệm người dùng, xây dựng các ứng dụng thông minh hơn và mang công nghệ AI tiên tiến đến nhiều lĩnh vực khác nhau.
Link to this sectionGPT-4o: Chưa hoàn toàn là con người#
Mặc dù GPT-4o tiên tiến hơn nhiều so với các model AI trước đây, nhưng điều quan trọng cần nhớ là GPT-4o vẫn có những hạn chế riêng. OpenAI đã đề cập rằng đôi khi nó có thể tự động chuyển đổi ngôn ngữ khi đang nói, từ tiếng Anh sang tiếng Pháp. Họ cũng nhận thấy GPT-4o dịch không chính xác giữa các ngôn ngữ. Khi có nhiều người dùng thử model này hơn, chúng ta sẽ hiểu rõ hơn nơi mà GPT-4o vượt trội và những gì cần cải thiện thêm.
Link to this sectionĐiểm mấu chốt#
GPT-4o của OpenAI mở ra những cánh cửa mới cho AI với khả năng xử lý văn bản, hình ảnh và âm thanh tiên tiến, mang lại những tương tác tự nhiên giống như con người. Nó vượt trội về tốc độ, hiệu quả chi phí và hỗ trợ đa ngôn ngữ. GPT-4o là một công cụ linh hoạt cho giáo dục, khả năng tiếp cận và hỗ trợ thời gian thực. Khi người dùng khám phá các khả năng của GPT-4o, phản hồi sẽ thúc đẩy sự tiến hóa của nó. GPT-4o chứng minh rằng AI thực sự đang thay đổi thế giới của chúng ta và trở thành một phần trong cuộc sống hàng ngày.
Khám phá GitHub repository của chúng tôi và tham gia cộng đồng của chúng tôi để tìm hiểu sâu hơn về AI. Hãy truy cập các trang giải pháp của chúng tôi để xem AI đang thay đổi các ngành công nghiệp như sản xuất và nông nghiệp như thế nào.






