Đón xem YOLO Vision 2025!
25 tháng 9, 2025
10:00 — 18:00 BST
Sự kiện kết hợp
Yolo Vision 2024

Tìm hiểu sâu về các khả năng của GPT-4o Mini của OpenAI

Abirami Vina

6 phút đọc

25 tháng 7, 2024

Khám phá các tính năng và ứng dụng của GPT-4o Mini. Mô hình mới nhất, tiết kiệm chi phí nhất của OpenAI cung cấp các khả năng AI tiên tiến với chi phí rẻ hơn 60% so với GPT-3.5 Turbo.

Vào tháng 5 năm 2024, OpenAI đã phát hành GPT-4o, và giờ đây, chỉ ba tháng sau, họ đã trở lại với một mô hình ấn tượng khác: GPT-4o Mini. Vào ngày 18 tháng 7 năm 2024, OpenAI đã giới thiệu GPT-4o Mini. Họ gọi nó là “mô hình tiết kiệm chi phí nhất” của họ! GPT-4o Mini là một mô hình nhỏ gọn được xây dựng dựa trên các khả năng của các mô hình trước đó và nhằm mục đích làm cho AI tiên tiến trở nên dễ tiếp cận và giá cả phải chăng hơn.

GPT-4o Mini hiện hỗ trợ tương tác văn bản và hình ảnh, với các bản cập nhật trong tương lai dự kiến sẽ bổ sung các khả năng xử lý hình ảnh, video và âm thanh. Trong bài viết này, chúng ta sẽ khám phá GPT-4o Mini là gì, các tính năng nổi bật của nó, cách nó có thể được sử dụng, sự khác biệt giữa GPT-4 và GPT-4o Mini và cách nó có thể được sử dụng trong các trường hợp sử dụng thị giác máy tính khác nhau. Hãy cùng đi sâu vào và xem GPT-4o Mini có gì!

GPT-4o Mini là gì?

GPT-4o Mini là sự bổ sung mới nhất cho dòng mô hình AI của OpenAI, được thiết kế để tiết kiệm chi phí và dễ tiếp cận hơn. Đây là một mô hình ngôn ngữ lớn (LLM) đa phương thức, có nghĩa là nó có thể xử lý và tạo ra các loại dữ liệu khác nhau, chẳng hạn như văn bản, hình ảnh, video và âm thanh. Mô hình này được xây dựng dựa trên thế mạnh của các mô hình trước đó như GPT-4 và GPT-4o để cung cấp các khả năng mạnh mẽ trong một gói nhỏ gọn. 

GPT-4o Mini rẻ hơn 60% so với GPT-3.5 Turbo, với chi phí 15 xu cho mỗi triệu token đầu vào (đơn vị văn bản hoặc dữ liệu mà mô hình xử lý) và 60 xu cho mỗi triệu token đầu ra (đơn vị mà mô hình tạo ra để phản hồi). Để dễ hình dung, một triệu token tương đương với việc xử lý khoảng 2.500 trang văn bản. Với cửa sổ ngữ cảnh 128K token và khả năng xử lý tối đa 16K token đầu ra cho mỗi yêu cầu, GPT-4o Mini được thiết kế để vừa hiệu quả vừa giá cả phải chăng.

__wf_reserved_inherit
Hình 1. GPT-4o Mini rẻ hơn 60% so với GPT-3.5 Turbo.

Các tính năng chính của GPT-4o Mini 

GPT-4o Mini hỗ trợ một loạt các tác vụ, khiến nó trở thành một lựa chọn tuyệt vời cho các ứng dụng khác nhau. Nó có thể được sử dụng khi chạy đồng thời một số hoạt động, chẳng hạn như gọi nhiều API, xử lý lượng lớn dữ liệu như toàn bộ cơ sở mã hoặc lịch sử hội thoại và cung cấp phản hồi nhanh chóng, theo thời gian thực trong chatbot hỗ trợ khách hàng.

Dưới đây là một số tính năng chính khác:

  • Cơ sở Kiến thức Được Cập nhật: Mô hình chứa thông tin đến tháng 10 năm 2023.
  • Cải tiến Tokenizer: GPT-4o Mini giúp xử lý văn bản không phải tiếng Anh hiệu quả về chi phí hơn.
  • Các biện pháp an toàn mạnh mẽ: Các biện pháp này bao gồm lọc nội dung có hại và bảo vệ chống lại các vấn đề bảo mật như tấn công prompt (prompt injections) và thao túng hệ thống.

Bắt đầu với GPT-4o Mini 

Bạn có thể dùng thử GPT-4o Mini thông qua giao diện ChatGPT. Nó có sẵn cho người dùng Free, Plus và Team, thay thế GPT-3.5 như hình bên dưới. Người dùng Enterprise cũng sẽ sớm được truy cập, phù hợp với mục tiêu của OpenAI là cung cấp các lợi ích AI cho tất cả mọi người. GPT-4o Mini cũng có sẵn thông qua API cho các nhà phát triển muốn tích hợp các khả năng của nó vào ứng dụng của họ. Hiện tại, các khả năng về thị giác chỉ có thể truy cập được thông qua API.

__wf_reserved_inherit
Hình 2. Các tùy chọn mô hình trong ChatGPT.

Sự khác biệt giữa GPT-4o và GPT-4o Mini 

GPT-4o Mini và GPT-4o đều thể hiện hiệu suất ấn tượng trên nhiều tiêu chí đánh giá khác nhau. Mặc dù GPT-4o thường vượt trội hơn GPT-4o Mini, nhưng GPT-4o Mini vẫn là một giải pháp hiệu quả về chi phí cho các tác vụ hàng ngày. Các tiêu chí đánh giá bao gồm các tác vụ suy luận, khả năng toán học và lập trình, và suy luận đa phương thức. Như trong hình bên dưới, GPT-4o Mini đạt điểm khá cao khi so sánh với các mô hình phổ biến khác.

__wf_reserved_inherit
Hình 3. So sánh GPT-4o Mini với các mô hình phổ biến khác.

Trải nghiệm thực tế với GPT-4o và GPT-4o Mini

Một prompt thú vị đã được tranh luận trực tuyến liên quan đến việc các LLM phổ biến so sánh sai số thập phân. Khi chúng tôi đưa GPT-4o và GPT-4o Mini vào thử nghiệm, khả năng suy luận của chúng cho thấy sự khác biệt rõ rệt. Trong hình bên dưới, chúng tôi đã hỏi cả hai mô hình số nào lớn hơn: 9.11 hay 9.9, và sau đó yêu cầu chúng giải thích lý do.

__wf_reserved_inherit
Hình 4. Kiểm tra GPT-4o và GPT-4o Mini.

Cả hai mô hình ban đầu đều trả lời không chính xác và cho rằng 9.11 lớn hơn. Tuy nhiên, GPT-4o có thể suy luận để đưa ra câu trả lời đúng và nói rằng 9.9 lớn hơn. Nó cung cấp một lời giải thích chi tiết và so sánh các số thập phân một cách chính xác. Ngược lại, GPT-4o Mini vẫn ngoan cố giữ câu trả lời sai ban đầu mặc dù đã tìm ra lý do tại sao 9.9 lớn hơn một cách chính xác.

Cả hai mô hình đều thể hiện kỹ năng suy luận mạnh mẽ. Khả năng tự sửa lỗi của GPT-4o làm cho nó vượt trội và hữu ích hơn cho các tác vụ phức tạp hơn. GPT-4o Mini, mặc dù kém thích ứng hơn, nhưng vẫn cung cấp khả năng suy luận rõ ràng và chính xác cho các tác vụ đơn giản hơn. 

Sử dụng GPT-4o Mini cho các trường hợp sử dụng thị giác máy tính khác nhau

Nếu bạn muốn khám phá các khả năng thị giác của GPT-4o Mini mà không cần đi sâu vào code, bạn có thể dễ dàng kiểm tra API trên OpenAI Playground. Chúng tôi đã tự mình thử nghiệm để xem GPT-4o Mini có thể xử lý tốt như thế nào các trường hợp sử dụng liên quan đến thị giác máy tính khác nhau.

Phân loại hình ảnh bằng GPT-4o Mini

Chúng tôi đã yêu cầu GPT-4o Mini phân loại hai hình ảnh: một hình ảnh con bướm và một hình ảnh bản đồ. Mô hình AI đã xác định thành công con bướm và bản đồ. Đây là một nhiệm vụ khá đơn giản vì các hình ảnh rất khác nhau.

__wf_reserved_inherit
Hình 5. Phân loại hình ảnh với sự trợ giúp của GPT-4o Mini.

Chúng tôi tiếp tục và chạy thêm hai hình ảnh thông qua mô hình: một hình ảnh cho thấy một con bướm đậu trên một cái cây và một hình ảnh khác cho thấy một con bướm đậu trên mặt đất. AI đã làm rất tốt một lần nữa, xác định chính xác con bướm trên cây và con bướm trên mặt đất. Vì vậy, chúng tôi đã tiến thêm một bước nữa.

__wf_reserved_inherit
Hình 6. Phân loại các hình ảnh tương tự với sự trợ giúp của GPT-4o Mini.

Sau đó, chúng tôi yêu cầu GPT-4o Mini phân loại hai hình ảnh: một hình ảnh cho thấy một con bướm đang ăn mật hoa trên hoa của cây Swamp Milkweed và hình ảnh còn lại cho thấy một con bướm đang ăn mật hoa trên hoa Zinnia. Thật đáng kinh ngạc khi mô hình có thể phân loại một nhãn cụ thể như vậy mà không cần tinh chỉnh thêm. Những ví dụ nhanh này cho thấy rằng GPT-4o Mini có thể được sử dụng cho các tác vụ phân loại hình ảnh mà không cần đào tạo tùy chỉnh.

__wf_reserved_inherit
Hình 7. Phân loại hình ảnh chi tiết với sự trợ giúp của GPT-4o Mini.

Hiểu tư thế bằng GPT-4o Mini

Hiện tại, các tác vụ thị giác máy tính như nhận diện đối tượngphân vùng thể hiện (instance segmentation) không thể được xử lý bằng GPT-4o Mini. GPT-4o gặp khó khăn về độ chính xác, nhưng có thể được sử dụng cho các tác vụ như vậy. Tương tự, liên quan đến việc hiểu tư thế, chúng ta không thể phát hiện hoặc ước tính tư thế trong hình ảnh, nhưng chúng ta có thể phân loại và hiểu tư thế.

__wf_reserved_inherit
Hình 8. Sử dụng GPT-4o Mini để hiểu các tư thế trong một hình ảnh. 

Hình ảnh trên cho thấy GPT-4o Mini có thể phân loại và hiểu các tư thế, mặc dù không thể phát hiện hoặc ước tính tọa độ chính xác của tư thế đó. Điều này có thể hữu ích trong nhiều ứng dụng khác nhau. Ví dụ: trong phân tích thể thao, nó có thể đánh giá khái quát các chuyển động của vận động viên và giúp ngăn ngừa chấn thương. Tương tự, trong vật lý trị liệu, nó có thể hỗ trợ theo dõi các bài tập để đảm bảo bệnh nhân thực hiện đúng các động tác trong quá trình phục hồi chức năng. Ngoài ra, đối với giám sát, nó có thể giúp xác định các hoạt động đáng ngờ bằng cách phân tích ngôn ngữ cơ thể chung. Mặc dù GPT-4o Mini không thể phát hiện các điểm chính cụ thể, nhưng khả năng phân loại các tư thế chung của nó khiến nó trở nên hữu ích trong các lĩnh vực này và các lĩnh vực khác.

Các ứng dụng mà GPT-4o Mini phù hợp

Chúng ta đã xem xét những gì GPT-4o Mini có thể làm. Bây giờ, hãy thảo luận về các ứng dụng mà việc sử dụng GPT-4o Mini là tối ưu nhất.

GPT-4o Mini rất phù hợp cho các ứng dụng đòi hỏi khả năng hiểu ngôn ngữ tự nhiên nâng cao và cần một footprint tính toán nhỏ. Nó giúp tích hợp AI vào các ứng dụng mà thông thường sẽ quá tốn kém. Trên thực tế, một phân tích chi tiết của Artificial Analysis cho thấy rằng GPT-4o Mini cung cấp các phản hồi chất lượng cao với tốc độ cực nhanh so với hầu hết các mô hình khác.

__wf_reserved_inherit
Hình 9. Chất lượng so với Tốc độ đầu ra của GPT-4o Mini.

Dưới đây là một số lĩnh vực chính mà nó có thể tỏa sáng trong tương lai:

  • Trợ lý ảo và Chatbot: GPT-4o Mini có thể cung cấp các phản hồi nhanh chóng và thông minh để cải thiện tương tác người dùng.
  • Công cụ giáo dục: Mô hình này có thể được sử dụng để xây dựng các công cụ cung cấp dạy kèm và tạo nội dung cá nhân hóa.
  • Công cụ năng suất: Nó có thể cải thiện các tác vụ như tóm tắt tài liệu, soạn thảo email và dịch ngôn ngữ để tăng hiệu quả.
  • Dịch thuật ngôn ngữ: Phiên bản GPT mới nhất có thể được sử dụng để phát triển các trình dịch cung cấp bản dịch ngôn ngữ chính xác và theo thời gian thực để giao tiếp tốt hơn giữa các ngôn ngữ khác nhau.

GPT-4o Mini mở ra những cánh cửa mới

GPT-4o Mini đang tạo ra những cơ hội mới cho tương lai của AI đa phương thức. Chi phí xử lý mỗi đoạn văn bản hoặc dữ liệu, được gọi là chi phí trên mỗi token, đã giảm đáng kể - gần 99% - kể từ năm 2022, khi text-davinci-003, mô hình GPT-3, được phát hành. Sự giảm chi phí cho thấy một xu hướng rõ ràng hướng tới việc làm cho AI tiên tiến trở nên hợp lý hơn về mặt kinh tế. Khi các mô hình AI tiếp tục được cải thiện, ngày càng có khả năng việc tích hợp AI vào mọi ứng dụng và trang web sẽ khả thi về mặt kinh tế!

Bạn muốn thực hành với AI? Hãy truy cập kho lưu trữ GitHub của chúng tôi để xem các cải tiến của chúng tôi và trở thành một phần của cộng đồng năng động của chúng tôi. Tìm hiểu thêm về các ứng dụng AI trong sản xuấtnông nghiệp trên các trang giải pháp của chúng tôi.

Hãy cùng nhau xây dựng tương lai
của AI!

Bắt đầu hành trình của bạn với tương lai của học máy

Bắt đầu miễn phí
Đã sao chép liên kết vào clipboard