GPT-4o của OpenAI thể hiện tiềm năng của AI

Abirami Vina

5 phút đọc

Ngày 14 tháng 5 năm 2024

Khám phá GPT-4o mới của OpenAI, có AI tiên tiến với các tương tác giống như thật giúp thay đổi cách chúng ta giao tiếp với công nghệ. Khám phá các tính năng đột phá của nó!

Vào thứ Hai, ngày 13 tháng 5 năm 2024, OpenAI đã công bố ra mắt mẫu flagship mới của mình, GPT-4o , trong đó chữ 'o' là viết tắt của 'omni'. GPT-4o là một mô hình AI đa phương thức tiên tiến dành cho tương tác văn bản, âm thanh và hình ảnh theo thời gian thực, cung cấp khả năng xử lý nhanh hơn, hỗ trợ đa ngôn ngữ và tăng cường tính an toàn.

Nó mang đến những khả năng AI tạo sinh chưa từng thấy trước đây. Xây dựng trên thế mạnh đàm thoại của ChatGPT, các tính năng của GPT-4o đánh dấu một bước tiến đáng kể về cách mọi người nhận thức về AI. Bây giờ chúng ta có thể nói chuyện với GPT-4o như thể đó là một người thật. Hãy cùng khám phá và xem chính xác những gì GPT-4o có thể làm được!

Làm quen với GPT-4o

Tại bản cập nhật mùa xuân của OpenAI, người ta đã tiết lộ rằng mặc dù GPT-4o thông minh như GPT-4, nhưng nó có thể xử lý dữ liệu nhanh hơn và được trang bị tốt hơn để xử lý văn bản, hình ảnh và âm thanh. Không giống như các bản phát hành trước đây tập trung vào việc làm cho các mô hình thông minh hơn, bản phát hành này được thực hiện với mục đích hướng đến nhu cầu làm cho AI dễ sử dụng hơn đối với công chúng nói chung. 

__wf_reserved_thừa kế
Hình 1. Bản cập nhật mùa xuân của OpenAI

Chế độ giọng nói của ChatGPT, được phát hành vào cuối năm ngoái, bao gồm ba mô hình khác nhau kết hợp với nhau để phiên âm các đầu vào giọng nói, hiểu và tạo ra các phản hồi bằng văn bản và chuyển đổi văn bản thành giọng nói để người dùng có thể nghe được phản hồi. Chế độ này giải quyết các vấn đề về độ trễ và không tạo cảm giác tự nhiên. GPT-4o có thể xử lý văn bản, hình ảnh và âm thanh gốc cùng một lúc để mang lại cho người dùng ấn tượng rằng họ đang tham gia vào một cuộc trò chuyện tự nhiên. 

Ngoài ra, không giống như chế độ giọng nói, giờ đây bạn có thể ngắt GPT-4o khi nó đang nói và nó sẽ phản ứng giống như một người. Nó sẽ tạm dừng và lắng nghe, sau đó đưa ra phản hồi theo thời gian thực dựa trên những gì bạn nói. Nó cũng có thể thể hiện cảm xúc thông qua giọng nói và hiểu được giọng điệu của bạn. 

Các tính năng thú vị của GPT-4o

Đánh giá mô hình của GPT-4o cho thấy nó tiên tiến như thế nào. Một trong những kết quả thú vị nhất được tìm thấy là GPT-4o cải thiện đáng kể khả năng nhận dạng giọng nói so với Whisper-v3 ở tất cả các ngôn ngữ, đặc biệt là những ngôn ngữ ít được sử dụng. 

Hiệu suất ASR (Nhận dạng giọng nói tự động) của Audio đo lường mức độ chính xác của một mô hình khi phiên âm ngôn ngữ nói thành văn bản. Hiệu suất của GPT-4o được theo dõi bởi Tỷ lệ lỗi từ (WER), cho biết tỷ lệ phần trăm các từ được phiên âm không chính xác (WER thấp hơn có nghĩa là chất lượng tốt hơn). Biểu đồ bên dưới cho thấy WER thấp hơn của GPT-4o trên nhiều vùng khác nhau, chứng minh hiệu quả của nó trong việc cải thiện khả năng nhận dạng giọng nói cho các ngôn ngữ có ít nguồn lực hơn.

__wf_reserved_thừa kế
Hình 2. GPT-4o có khả năng nhận dạng giọng nói vượt trội ở nhiều ngôn ngữ.

Sau đây là cái nhìn sâu hơn về một số tính năng độc đáo của GPT-4o:

  • Nhanh hơn - Nhanh gấp đôi GPT-4 Turbo. Nó có thể phản hồi đầu vào âm thanh chỉ trong 232 mili giây, tương tự như thời gian phản hồi cuộc trò chuyện của con người.
  • Tiết kiệm chi phí - Phiên bản API của GPT-4o rẻ hơn 50% so với GPT-4 Turbo.
  • Bộ nhớ - GPT-4o có khả năng duy trì nhận thức trong các cuộc trò chuyện khác nhau. Nó có thể nhớ những gì bạn đang nói trong các cuộc trò chuyện khác nhau.
  • Đa ngôn ngữ - GPT-4o đã được đào tạo để cải thiện tốc độ và chất lượng ở 50 ngôn ngữ khác nhau.

Ví dụ về những gì GPT-4o có thể làm

Bây giờ bạn có thể rút GPT-4o ra khỏi điện thoại, bật camera và yêu cầu GPT-4o, giống như bạn yêu cầu một người bạn, đoán tâm trạng của bạn dựa trên biểu cảm khuôn mặt. GPT-4o có thể nhìn bạn qua camera và trả lời.

__wf_reserved_thừa kế
Hình 3. GPT-4o hiểu tâm trạng của con người thông qua video.

Bạn thậm chí có thể sử dụng nó để giúp bạn giải các bài toán bằng cách cho GPT-4o xem những gì bạn đang viết thông qua video. Ngoài ra, bạn có thể chia sẻ màn hình của mình và nó có thể trở thành một gia sư hữu ích trên Khan Academy, yêu cầu bạn chỉ ra các phần khác nhau của một hình tam giác trong hình học, như được hiển thị bên dưới.

__wf_reserved_thừa kế
Hình 4. GPT-4o hoạt động như một gia sư trên Khan Academy.

Ngoài việc giúp trẻ em học toán, các nhà phát triển có thể trò chuyện với GPT-4o để gỡ lỗi mã của họ. Điều này có thể thực hiện được nhờ vào việc giới thiệu ChatGPT dưới dạng ứng dụng dành cho máy tính để bàn. Nếu bạn đánh dấu và sao chép mã của mình bằng CTRL “C” trong khi nói chuyện với ứng dụng giọng nói GPT-4o trên máy tính để bàn, ứng dụng này sẽ có thể đọc mã của bạn. Hoặc, bạn có thể sử dụng ứng dụng này để dịch các cuộc trò chuyện giữa các nhà phát triển nói các ngôn ngữ khác nhau. 

Khả năng của GPt-4o dường như vô tận. Một trong những bản demo thú vị nhất từ OpenAI đã sử dụng hai điện thoại để cho thấy GPt-4o nói chuyện với các phiên bản khác nhau của chính nó và hát cùng nhau.

__wf_reserved_thừa kế
Hình 5. AI nói chuyện và hát với AI.

Ứng dụng GPT-4o

Như đã trình bày trong bản demo, GPT-4o có thể giúp những người khiếm thị dễ tiếp cận thế giới hơn. Nó có thể giúp họ tương tác và di chuyển an toàn và độc lập hơn. Ví dụ, người dùng có thể bật video và cho GPT-4o xem quang cảnh đường phố. Sau đó, GPT-4o có thể cung cấp mô tả thời gian thực về môi trường, chẳng hạn như xác định chướng ngại vật, đọc biển báo đường phố hoặc hướng dẫn họ đến một địa điểm cụ thể. Nó thậm chí có thể giúp họ gọi taxi bằng cách cảnh báo họ khi có taxi đang đến gần.

__wf_reserved_thừa kế
Hình 6. GPT-4o cảnh báo có xe taxi đang tới gần.

Tương tự như vậy, GPT-4o có thể biến đổi nhiều ngành công nghiệp khác nhau bằng các khả năng tiên tiến của nó. Trong bán lẻ , nó có thể cải thiện dịch vụ khách hàng bằng cách cung cấp hỗ trợ theo thời gian thực, trả lời các câu hỏi và giúp khách hàng tìm sản phẩm cả trực tuyến và tại cửa hàng. Giả sử bạn đang xem một kệ sản phẩm và không thể chọn sản phẩm bạn đang tìm kiếm, GPT-4o có thể giúp bạn. 

Trong chăm sóc sức khỏe , GPT-4o có thể hỗ trợ chẩn đoán bằng cách phân tích dữ liệu bệnh nhân, gợi ý các tình trạng có thể dựa trên các triệu chứng và cung cấp hướng dẫn về các lựa chọn điều trị. Nó cũng có thể hỗ trợ các chuyên gia y tế bằng cách tóm tắt hồ sơ bệnh nhân, cung cấp quyền truy cập nhanh vào tài liệu y khoa và thậm chí cung cấp dịch thuật ngôn ngữ theo thời gian thực để giao tiếp với những bệnh nhân nói các ngôn ngữ khác nhau. Đây chỉ là một vài ví dụ. Các ứng dụng của GPT-4o giúp cuộc sống hàng ngày dễ dàng hơn bằng cách cung cấp hỗ trợ phù hợp, nhận biết ngữ cảnh và phá vỡ các rào cản đối với thông tin và giao tiếp.

GPT-4o và an toàn mô hình

Giống như các phiên bản trước của GPT, đã tác động đến hàng trăm triệu sinh mạng, GPT-4o có khả năng sẽ tương tác với âm thanh và video thời gian thực trên toàn cầu, khiến tính an toàn trở thành yếu tố quan trọng trong các ứng dụng này. OpenAI đã rất cẩn thận khi xây dựng GPT-4o với trọng tâm là giảm thiểu các rủi ro tiềm ẩn.

Để đảm bảo tính an toàn và độ tin cậy, OpenAI đã triển khai các biện pháp an toàn nghiêm ngặt. Bao gồm lọc dữ liệu đào tạo, tinh chỉnh hành vi của mô hình sau khi đào tạo và kết hợp các hệ thống an toàn mới để quản lý đầu ra giọng nói. Hơn nữa, GPT-4o đã được hơn 70 chuyên gia bên ngoài trong các lĩnh vực như tâm lý xã hội, thiên vị và công bằng, và thông tin sai lệch thử nghiệm rộng rãi. Thử nghiệm bên ngoài đảm bảo rằng bất kỳ rủi ro nào do các tính năng mới đưa vào hoặc khuếch đại đều được xác định và giải quyết.

Để duy trì các tiêu chuẩn an toàn cao, OpenAI sẽ phát hành các tính năng của GPT-4o dần dần trong vài tuần tới. Việc triển khai theo từng giai đoạn cho phép OpenAI theo dõi hiệu suất, giải quyết mọi vấn đề và thu thập phản hồi của người dùng. Áp dụng cách tiếp cận cẩn thận đảm bảo rằng GPT-4o cung cấp các khả năng tiên tiến trong khi vẫn duy trì các tiêu chuẩn cao nhất về an toàn và sử dụng có đạo đức.

Hãy tự mình thử GPT-4o

GPT-4o có thể truy cập miễn phí. Để dùng thử khả năng trò chuyện thời gian thực được đề cập ở trên, bạn có thể tải ứng dụng ChatGPT từ Google Play Store hoặc Apple App Store trực tiếp vào điện thoại của mình. 

Sau khi đăng nhập, bạn sẽ có thể chọn GPT-4o từ danh sách hiển thị bằng cách chạm vào ba dấu chấm ở góc trên bên phải màn hình. Sau khi điều hướng đến cuộc trò chuyện được bật bằng GPT-4o, nếu bạn chạm vào dấu cộng ở góc dưới bên trái màn hình, bạn sẽ thấy nhiều tùy chọn đầu vào. Ở góc dưới bên phải màn hình, bạn sẽ thấy biểu tượng tai nghe. Khi chọn biểu tượng tai nghe, bạn sẽ được hỏi xem bạn có muốn trải nghiệm phiên bản rảnh tay của GPT-4o không. Sau khi đồng ý, bạn sẽ có thể dùng thử GPT-4o, như minh họa bên dưới.

__wf_reserved_thừa kế
Hình 7. Thử nghiệm GPT-4o trên ứng dụng di động ChatGPT.

Nếu bạn muốn tích hợp các khả năng tiên tiến của GPT-4o vào các dự án của riêng bạn, nó có sẵn dưới dạng API dành cho nhà phát triển. Nó cho phép bạn kết hợp khả năng nhận dạng giọng nói mạnh mẽ của GPT-4o, hỗ trợ đa ngôn ngữ và khả năng đàm thoại thời gian thực vào các ứng dụng của bạn. Bằng cách sử dụng API, bạn có thể nâng cao trải nghiệm của người dùng, xây dựng các ứng dụng thông minh hơn và đưa công nghệ AI tiên tiến vào các lĩnh vực khác nhau.

GPT-4o: Chưa hẳn là con người

Mặc dù GPT-4o tiên tiến hơn nhiều so với các mô hình AI trước đây, nhưng điều quan trọng cần nhớ là GPT-4o cũng có những hạn chế riêng. OpenAI đã đề cập rằng đôi khi nó có thể chuyển đổi ngôn ngữ ngẫu nhiên trong khi nói, từ tiếng Anh sang tiếng Pháp. Họ cũng thấy GPT-4o dịch sai giữa các ngôn ngữ. Khi nhiều người dùng thử mô hình hơn, chúng ta sẽ hiểu GPT-4o vượt trội ở điểm nào và cần cải thiện thêm ở điểm nào.

Dòng cuối cùng

GPT-4o của OpenAI mở ra cánh cửa mới cho AI với khả năng xử lý văn bản, thị giác và âm thanh tiên tiến, mang đến những tương tác tự nhiên, giống con người. Nó vượt trội về tốc độ, hiệu quả về chi phí và hỗ trợ đa ngôn ngữ. GPT-4o là một công cụ đa năng cho giáo dục, khả năng truy cập và hỗ trợ theo thời gian thực. Khi người dùng khám phá các khả năng của GPT-4o, phản hồi sẽ thúc đẩy sự phát triển của nó. GPT-4o chứng minh rằng AI thực sự đang thay đổi thế giới của chúng ta và trở thành một phần trong cuộc sống hàng ngày của chúng ta. 

Khám phá kho lưu trữ GitHub của chúng tôi và tham gia cộng đồng của chúng tôi để tìm hiểu sâu hơn về AI. Truy cập các trang giải pháp của chúng tôi để xem AI đang chuyển đổi các ngành công nghiệp như sản xuấtnông nghiệp như thế nào.

Hãy cùng xây dựng tương lai
của AI cùng nhau!

Bắt đầu hành trình của bạn với tương lai của máy học

Bắt đầu miễn phí
Liên kết đã được sao chép vào clipboard