Thị giác AI

Phân tích chuyên sâu về các khả năng của GPT-4o Mini từ OpenAI

Khám phá các tính năng và ứng dụng của GPT-4o Mini. Model mới nhất và tiết kiệm chi phí nhất của OpenAI cung cấp các khả năng AI nâng cao với chi phí rẻ hơn 60% so với GPT-3.5 Turbo.

ABAbirami Vina

6 min readJuly 25, 2024

Model AI đa phương thức tiết kiệm chi phí OpenAI GPT-4o Mini

Vào tháng 5 năm 2024, OpenAI đã phát hành GPT-4o, và hiện tại, chỉ ba tháng sau, họ đã quay trở lại với một model ấn tượng khác: GPT-4o Mini. Vào ngày 18 tháng 7 năm 2024, OpenAI đã giới thiệu GPT-4o Mini. Họ gọi đây là “model tiết kiệm chi phí nhất” của mình! GPT-4o Mini là một model nhỏ gọn được xây dựng dựa trên khả năng của các model trước đó, nhằm mục đích giúp AI tiên tiến trở nên dễ tiếp cận và giá cả phải chăng hơn.

GPT-4o Mini hiện hỗ trợ tương tác bằng văn bản và hình ảnh, với các bản cập nhật trong tương lai dự kiến sẽ bổ sung khả năng xử lý hình ảnh, video và âm thanh. Trong bài viết này, chúng ta sẽ khám phá GPT-4o Mini là gì, các tính năng nổi bật, cách sử dụng, sự khác biệt giữa GPT-4 và GPT-4o Mini, cũng như cách nó có thể được áp dụng trong các trường hợp sử dụng thị giác máy tính khác nhau. Hãy cùng tìm hiểu xem GPT-4o Mini mang lại những gì!

Link to this sectionGPT-4o Mini là gì?#

GPT-4o Mini là sự bổ sung mới nhất vào dòng model AI của OpenAI, được thiết kế để tiết kiệm chi phí hơn và dễ tiếp cận hơn. Đây là một large language model (LLM) đa phương thức, nghĩa là nó có thể xử lý và tạo ra các loại dữ liệu khác nhau như văn bản, hình ảnh, video và âm thanh. Model này kế thừa thế mạnh của các model tiền nhiệm như GPT-4 và GPT-4o để cung cấp các khả năng mạnh mẽ trong một gói nhỏ gọn.

GPT-4o Mini rẻ hơn 60% so với GPT-3.5 Turbo, với chi phí 15 cent cho mỗi triệu input token (các đơn vị văn bản hoặc dữ liệu mà model xử lý) và 60 cent cho mỗi triệu output token (các đơn vị mà model tạo ra để phản hồi). Để dễ hình dung, một triệu token tương đương với việc xử lý khoảng 2.500 trang văn bản. Với cửa sổ ngữ cảnh 128K token và khả năng xử lý lên đến 16K output token mỗi yêu cầu, GPT-4o Mini được thiết kế để vừa hiệu quả vừa có chi phí hợp lý.

GPT-4o Mini rẻ hơn 60% so với GPT-3.5 Turbo

Hình 1. GPT-4o Mini rẻ hơn 60% so với GPT-3.5 Turbo.

Link to this sectionCác tính năng chính của GPT-4o Mini#

GPT-4o Mini hỗ trợ một loạt các tác vụ khiến nó trở thành lựa chọn tuyệt vời cho nhiều ứng dụng. Nó có thể được sử dụng khi thực hiện nhiều thao tác cùng lúc, chẳng hạn như gọi nhiều API, xử lý lượng lớn dữ liệu như toàn bộ codebase hoặc lịch sử trò chuyện, và cung cấp phản hồi nhanh theo thời gian thực trong các chatbot hỗ trợ khách hàng.

Dưới đây là một số tính năng chính khác:

Cơ sở tri thức được cập nhật: Model chứa thông tin cập nhật đến tháng 10 năm 2023.
Tokenizer được cải tiến: GPT-4o Mini giúp việc xử lý văn bản không phải tiếng Anh trở nên tiết kiệm chi phí hơn.
Các biện pháp an toàn mạnh mẽ: Các biện pháp này bao gồm lọc nội dung độc hại và bảo vệ chống lại các vấn đề bảo mật như tấn công prompt và thao túng hệ thống.

Link to this sectionBắt đầu với GPT-4o Mini#

Bạn có thể dùng thử GPT-4o Mini thông qua giao diện ChatGPT. Nó khả dụng cho người dùng Free, Plus và Team, thay thế cho GPT-3.5 như hiển thị bên dưới. Người dùng Enterprise cũng sẽ sớm có quyền truy cập, phù hợp với mục tiêu của OpenAI là mang lại lợi ích của AI cho tất cả mọi người. GPT-4o Mini cũng có sẵn thông qua API cho các nhà phát triển muốn tích hợp khả năng của nó vào ứng dụng của họ. Hiện tại, khả năng về thị giác chỉ khả dụng thông qua API.

Các tùy chọn model trong ChatGPT

Hình 2. Các tùy chọn model trong ChatGPT.

Link to this sectionSự khác biệt giữa GPT-4o và GPT-4o Mini#

Cả GPT-4o và GPT-4o Mini đều hoạt động ấn tượng trên nhiều tiêu chuẩn đánh giá khác nhau. Mặc dù GPT-4o nhìn chung vượt trội hơn GPT-4o Mini, GPT-4o Mini vẫn là một giải pháp tiết kiệm chi phí cho các tác vụ hàng ngày. Các bài kiểm tra bao gồm tác vụ suy luận, kỹ năng toán học và lập trình, cùng khả năng suy luận đa phương thức. Như hiển thị trong hình bên dưới, GPT-4o Mini đạt điểm khá cao khi so sánh với các model phổ biến khác.

So sánh GPT-4o Mini với các model phổ biến khác

Hình 3. So sánh GPT-4o Mini với các model phổ biến khác.

Link to this sectionTrải nghiệm thực tế với GPT-4o và GPT-4o Mini#

Một prompt thú vị đang được tranh luận trực tuyến liên quan đến việc các LLM phổ biến so sánh các số thập phân không chính xác. Khi đưa GPT-4o và GPT-4o Mini vào thử nghiệm, khả năng suy luận của chúng cho thấy sự khác biệt rõ rệt. Trong hình bên dưới, chúng tôi đã hỏi cả hai model xem số nào lớn hơn: 9.11 hay 9.9, sau đó yêu cầu chúng giải thích lý do.

Kiểm tra khả năng suy luận của GPT-4o và GPT-4o Mini

Hình 4. Kiểm tra GPT-4o và GPT-4o Mini.

Cả hai model ban đầu đều phản hồi không chính xác và khẳng định rằng 9.11 lớn hơn. Tuy nhiên, GPT-4o có thể suy luận để đi đến câu trả lời đúng và tuyên bố rằng 9.9 lớn hơn. Nó cung cấp giải thích chi tiết và so sánh các số thập phân một cách chính xác. Ngược lại, GPT-4o Mini khăng khăng giữ nguyên câu trả lời sai ban đầu mặc dù đã tìm ra lý do tại sao 9.9 lớn hơn một cách chính xác.

Cả hai model đều thể hiện kỹ năng suy luận mạnh mẽ. Khả năng tự sửa lỗi của GPT-4o làm cho nó vượt trội và hữu ích hơn cho các tác vụ phức tạp. GPT-4o Mini, mặc dù ít linh hoạt hơn, vẫn cung cấp suy luận rõ ràng và chính xác cho các tác vụ đơn giản hơn.

Link to this sectionSử dụng GPT-4o Mini cho các trường hợp sử dụng thị giác máy tính khác nhau#

Nếu bạn muốn khám phá khả năng thị giác của GPT-4o Mini mà không cần đào sâu vào mã nguồn, bạn có thể dễ dàng kiểm tra API trên OpenAI Playground. Chúng tôi đã tự mình thử nghiệm để xem GPT-4o Mini có thể xử lý các trường hợp sử dụng liên quan đến thị giác máy tính tốt như thế nào.

Link to this sectionPhân loại hình ảnh sử dụng GPT-4o Mini#

Chúng tôi đã yêu cầu GPT-4o Mini phân loại hai hình ảnh: một con bướm và một bản đồ. Model AI đã xác định thành công con bướm và bản đồ. Đây là một tác vụ khá đơn giản vì hai hình ảnh rất khác biệt nhau.

Phân loại hình ảnh con bướm và bản đồ bằng GPT-4o Mini

Hình 5. Phân loại hình ảnh với sự trợ giúp của GPT-4o Mini.

Chúng tôi tiếp tục chạy thêm hai hình ảnh qua model: một hình ảnh con bướm đang đậu trên cây và một hình ảnh con bướm đang đậu trên mặt đất. AI lại một lần nữa thực hiện rất tốt, nhận diện chính xác con bướm trên cây và con trên mặt đất. Vì vậy, chúng tôi đã tiến xa hơn một bước.

Phân loại các hình ảnh con bướm tương tự bằng GPT-4o Mini

Hình 6. Phân loại các hình ảnh tương tự với sự trợ giúp của GPT-4o Mini.

Sau đó, chúng tôi yêu cầu GPT-4o Mini phân loại hai hình ảnh: một hình ảnh con bướm đang ăn trên hoa Swamp Milkweed và một hình ảnh con bướm đang ăn trên hoa Zinnia. Thật ngạc nhiên khi model có thể phân loại một nhãn cụ thể như vậy mà không cần tinh chỉnh thêm. Những ví dụ nhanh này cho thấy GPT-4o Mini có thể được sử dụng cho các tác vụ image classification mà không cần đào tạo tùy chỉnh.

Phân loại các hình ảnh chi tiết về con bướm bằng GPT-4o Mini

Hình 7. Phân loại hình ảnh chi tiết với sự trợ giúp của GPT-4o Mini.

Link to this sectionHiểu các tư thế sử dụng GPT-4o Mini#

Hiện tại, các tác vụ thị giác máy tính như object detection và instance segmentation không thể được xử lý bằng GPT-4o Mini. GPT-4o gặp khó khăn về độ chính xác nhưng có thể được sử dụng cho các tác vụ như vậy. Theo hướng này, đối với understanding poses, chúng ta không thể phát hiện hoặc ước tính tư thế trong hình ảnh, nhưng chúng ta có thể phân loại và hiểu được tư thế đó.

Sử dụng GPT-4o Mini để hiểu các tư thế trong hình ảnh

Hình 8. Sử dụng GPT-4o Mini để hiểu các tư thế trong hình ảnh.

Hình ảnh trên cho thấy cách GPT-4o Mini có thể phân loại và hiểu tư thế, mặc dù không thể phát hiện hoặc ước tính các tọa độ chính xác của tư thế. Điều này có thể hữu ích trong các ứng dụng khác nhau. Ví dụ, trong phân tích thể thao, nó có thể đánh giá rộng rãi các chuyển động của vận động viên và giúp ngăn ngừa chấn thương. Tương tự, trong vật lý trị liệu, nó có thể hỗ trợ giám sát các bài tập để đảm bảo bệnh nhân thực hiện đúng các chuyển động trong quá trình phục hồi chức năng. Ngoài ra, đối với giám sát, nó có thể giúp xác định các hoạt động đáng ngờ bằng cách phân tích ngôn ngữ cơ thể chung. Mặc dù GPT-4o Mini không thể phát hiện các điểm chính xác, khả năng phân loại tư thế chung làm cho nó trở nên hữu ích trong các lĩnh vực này và các lĩnh vực khác.

Link to this sectionCác ứng dụng phù hợp với GPT-4o Mini#

Chúng ta đã xem xét những gì GPT-4o Mini có thể làm. Bây giờ, hãy thảo luận về các ứng dụng mà GPT-4o Mini là tối ưu nhất.

GPT-4o Mini rất tuyệt vời cho các ứng dụng yêu cầu hiểu ngôn ngữ tự nhiên nâng cao và cần chiếm ít tài nguyên tính toán. Nó giúp tích hợp AI vào các ứng dụng mà bình thường sẽ quá đắt đỏ. Trên thực tế, một phân tích chi tiết từ Artificial Analysis cho thấy GPT-4o Mini cung cấp phản hồi chất lượng cao ở tốc độ nhanh đáng kinh ngạc so với hầu hết các model khác.

Chất lượng so với tốc độ đầu ra của GPT-4o Mini

Hình 9. Chất lượng so với Tốc độ đầu ra của GPT-4o Mini.

Dưới đây là một số lĩnh vực chính mà nó có thể tỏa sáng trong tương lai:

Trợ lý ảo và Chatbot: GPT-4o Mini có thể cung cấp phản hồi nhanh và thông minh để cải thiện tương tác người dùng.
Công cụ giáo dục: Model này có thể được sử dụng để xây dựng các công cụ cung cấp gia sư cá nhân hóa và tạo nội dung.
Công cụ năng suất: Nó có thể cải thiện các tác vụ như tóm tắt tài liệu, soạn thảo email và dịch ngôn ngữ để tăng hiệu quả.
Dịch ngôn ngữ: Phiên bản mới nhất của GPT có thể được sử dụng để phát triển các trình dịch cung cấp bản dịch ngôn ngữ chính xác và theo thời gian thực để cải thiện giao tiếp giữa các ngôn ngữ khác nhau.

Link to this sectionGPT-4o Mini mở ra những cánh cửa mới#

GPT-4o Mini đang tạo ra những cơ hội mới cho tương lai của AI đa phương thức. Chi phí xử lý từng phần văn bản hoặc dữ liệu, được gọi là chi phí trên mỗi token, đã giảm đáng kể - gần 99% - kể từ năm 2022, khi text-davinci-003, model GPT-3, được phát hành. Việc giảm chi phí cho thấy xu hướng rõ ràng hướng tới việc làm cho AI tiên tiến trở nên giá cả phải chăng hơn. Khi các model AI tiếp tục cải thiện, ngày càng có nhiều khả năng việc tích hợp AI vào mọi ứng dụng và trang web sẽ trở nên khả thi về mặt kinh tế!

Bạn muốn trải nghiệm thực tế với AI? Hãy truy cập GitHub repository của chúng tôi để xem các đổi mới và trở thành một phần của cộng đồng năng động của chúng tôi. Tìm hiểu thêm về các ứng dụng AI trong sản xuất và nông nghiệp trên các trang giải pháp của chúng tôi.

Explore solutions

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.

Phân tích chuyên sâu về các khả năng của GPT-4o Mini từ OpenAI

Link to this sectionGPT-4o Mini là gì?#

Link to this sectionCác tính năng chính của GPT-4o Mini#

Link to this sectionBắt đầu với GPT-4o Mini#

Link to this sectionSự khác biệt giữa GPT-4o và GPT-4o Mini#

Link to this sectionTrải nghiệm thực tế với GPT-4o và GPT-4o Mini#

Link to this sectionSử dụng GPT-4o Mini cho các trường hợp sử dụng thị giác máy tính khác nhau#

Link to this sectionPhân loại hình ảnh sử dụng GPT-4o Mini#

Link to this sectionHiểu các tư thế sử dụng GPT-4o Mini#

Link to this sectionCác ứng dụng phù hợp với GPT-4o Mini#

Link to this sectionGPT-4o Mini mở ra những cánh cửa mới#

Explore solutions

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

Hãy cùng nhau xây dựng tương lai của AI!