Khám phá các tính năng và ứng dụng của GPT-4o Mini. Mô hình mới nhất, tiết kiệm chi phí nhất của OpenAI cung cấp các khả năng AI tiên tiến với chi phí rẻ hơn 60% so với GPT-3.5 Turbo.

Khám phá các tính năng và ứng dụng của GPT-4o Mini. Mô hình mới nhất, tiết kiệm chi phí nhất của OpenAI cung cấp các khả năng AI tiên tiến với chi phí rẻ hơn 60% so với GPT-3.5 Turbo.
Vào tháng 5 năm 2024, OpenAI đã phát hành GPT-4o, và giờ đây, chỉ ba tháng sau, họ đã trở lại với một mô hình ấn tượng khác: GPT-4o Mini. Vào ngày 18 tháng 7 năm 2024, OpenAI đã giới thiệu GPT-4o Mini. Họ gọi nó là “mô hình tiết kiệm chi phí nhất” của họ! GPT-4o Mini là một mô hình nhỏ gọn được xây dựng dựa trên các khả năng của các mô hình trước đó và nhằm mục đích làm cho AI tiên tiến trở nên dễ tiếp cận và giá cả phải chăng hơn.
GPT-4o Mini hiện hỗ trợ tương tác văn bản và hình ảnh, với các bản cập nhật trong tương lai dự kiến sẽ bổ sung các khả năng xử lý hình ảnh, video và âm thanh. Trong bài viết này, chúng ta sẽ khám phá GPT-4o Mini là gì, các tính năng nổi bật của nó, cách nó có thể được sử dụng, sự khác biệt giữa GPT-4 và GPT-4o Mini và cách nó có thể được sử dụng trong các trường hợp sử dụng thị giác máy tính khác nhau. Hãy cùng đi sâu vào và xem GPT-4o Mini có gì!
GPT-4o Mini là sự bổ sung mới nhất cho dòng mô hình AI của OpenAI, được thiết kế để tiết kiệm chi phí và dễ tiếp cận hơn. Đây là một mô hình ngôn ngữ lớn (LLM) đa phương thức, có nghĩa là nó có thể xử lý và tạo ra các loại dữ liệu khác nhau, chẳng hạn như văn bản, hình ảnh, video và âm thanh. Mô hình này được xây dựng dựa trên thế mạnh của các mô hình trước đó như GPT-4 và GPT-4o để cung cấp các khả năng mạnh mẽ trong một gói nhỏ gọn.
GPT-4o Mini rẻ hơn 60% so với GPT-3.5 Turbo, với chi phí 15 xu cho mỗi triệu token đầu vào (đơn vị văn bản hoặc dữ liệu mà mô hình xử lý) và 60 xu cho mỗi triệu token đầu ra (đơn vị mà mô hình tạo ra để phản hồi). Để dễ hình dung, một triệu token tương đương với việc xử lý khoảng 2.500 trang văn bản. Với cửa sổ ngữ cảnh 128K token và khả năng xử lý tối đa 16K token đầu ra cho mỗi yêu cầu, GPT-4o Mini được thiết kế để vừa hiệu quả vừa giá cả phải chăng.
GPT-4o Mini hỗ trợ một loạt các tác vụ, khiến nó trở thành một lựa chọn tuyệt vời cho các ứng dụng khác nhau. Nó có thể được sử dụng khi chạy đồng thời một số hoạt động, chẳng hạn như gọi nhiều API, xử lý lượng lớn dữ liệu như toàn bộ cơ sở mã hoặc lịch sử hội thoại và cung cấp phản hồi nhanh chóng, theo thời gian thực trong chatbot hỗ trợ khách hàng.
Dưới đây là một số tính năng chính khác:
Bạn có thể dùng thử GPT-4o Mini thông qua giao diện ChatGPT. Nó có sẵn cho người dùng Free, Plus và Team, thay thế GPT-3.5 như hình bên dưới. Người dùng Enterprise cũng sẽ sớm được truy cập, phù hợp với mục tiêu của OpenAI là cung cấp các lợi ích AI cho tất cả mọi người. GPT-4o Mini cũng có sẵn thông qua API cho các nhà phát triển muốn tích hợp các khả năng của nó vào ứng dụng của họ. Hiện tại, các khả năng về thị giác chỉ có thể truy cập được thông qua API.
GPT-4o Mini và GPT-4o đều thể hiện hiệu suất ấn tượng trên nhiều tiêu chí đánh giá khác nhau. Mặc dù GPT-4o thường vượt trội hơn GPT-4o Mini, nhưng GPT-4o Mini vẫn là một giải pháp hiệu quả về chi phí cho các tác vụ hàng ngày. Các tiêu chí đánh giá bao gồm các tác vụ suy luận, khả năng toán học và lập trình, và suy luận đa phương thức. Như trong hình bên dưới, GPT-4o Mini đạt điểm khá cao khi so sánh với các mô hình phổ biến khác.
Một prompt thú vị đã được tranh luận trực tuyến liên quan đến việc các LLM phổ biến so sánh sai số thập phân. Khi chúng tôi đưa GPT-4o và GPT-4o Mini vào thử nghiệm, khả năng suy luận của chúng cho thấy sự khác biệt rõ rệt. Trong hình bên dưới, chúng tôi đã hỏi cả hai mô hình số nào lớn hơn: 9.11 hay 9.9, và sau đó yêu cầu chúng giải thích lý do.
Cả hai mô hình ban đầu đều trả lời không chính xác và cho rằng 9.11 lớn hơn. Tuy nhiên, GPT-4o có thể suy luận để đưa ra câu trả lời đúng và nói rằng 9.9 lớn hơn. Nó cung cấp một lời giải thích chi tiết và so sánh các số thập phân một cách chính xác. Ngược lại, GPT-4o Mini vẫn ngoan cố giữ câu trả lời sai ban đầu mặc dù đã tìm ra lý do tại sao 9.9 lớn hơn một cách chính xác.
Cả hai mô hình đều thể hiện kỹ năng suy luận mạnh mẽ. Khả năng tự sửa lỗi của GPT-4o làm cho nó vượt trội và hữu ích hơn cho các tác vụ phức tạp hơn. GPT-4o Mini, mặc dù kém thích ứng hơn, nhưng vẫn cung cấp khả năng suy luận rõ ràng và chính xác cho các tác vụ đơn giản hơn.
Nếu bạn muốn khám phá các khả năng thị giác của GPT-4o Mini mà không cần đi sâu vào code, bạn có thể dễ dàng kiểm tra API trên OpenAI Playground. Chúng tôi đã tự mình thử nghiệm để xem GPT-4o Mini có thể xử lý tốt như thế nào các trường hợp sử dụng liên quan đến thị giác máy tính khác nhau.
Chúng tôi đã yêu cầu GPT-4o Mini phân loại hai hình ảnh: một hình ảnh con bướm và một hình ảnh bản đồ. Mô hình AI đã xác định thành công con bướm và bản đồ. Đây là một nhiệm vụ khá đơn giản vì các hình ảnh rất khác nhau.
Chúng tôi tiếp tục và chạy thêm hai hình ảnh thông qua mô hình: một hình ảnh cho thấy một con bướm đậu trên một cái cây và một hình ảnh khác cho thấy một con bướm đậu trên mặt đất. AI đã làm rất tốt một lần nữa, xác định chính xác con bướm trên cây và con bướm trên mặt đất. Vì vậy, chúng tôi đã tiến thêm một bước nữa.
Sau đó, chúng tôi yêu cầu GPT-4o Mini phân loại hai hình ảnh: một hình ảnh cho thấy một con bướm đang ăn mật hoa trên hoa của cây Swamp Milkweed và hình ảnh còn lại cho thấy một con bướm đang ăn mật hoa trên hoa Zinnia. Thật đáng kinh ngạc khi mô hình có thể phân loại một nhãn cụ thể như vậy mà không cần tinh chỉnh thêm. Những ví dụ nhanh này cho thấy rằng GPT-4o Mini có thể được sử dụng cho các tác vụ phân loại hình ảnh mà không cần đào tạo tùy chỉnh.
Hiện tại, các tác vụ thị giác máy tính như nhận diện đối tượng và phân vùng thể hiện (instance segmentation) không thể được xử lý bằng GPT-4o Mini. GPT-4o gặp khó khăn về độ chính xác, nhưng có thể được sử dụng cho các tác vụ như vậy. Tương tự, liên quan đến việc hiểu tư thế, chúng ta không thể phát hiện hoặc ước tính tư thế trong hình ảnh, nhưng chúng ta có thể phân loại và hiểu tư thế.
Hình ảnh trên cho thấy GPT-4o Mini có thể phân loại và hiểu các tư thế, mặc dù không thể phát hiện hoặc ước tính tọa độ chính xác của tư thế đó. Điều này có thể hữu ích trong nhiều ứng dụng khác nhau. Ví dụ: trong phân tích thể thao, nó có thể đánh giá khái quát các chuyển động của vận động viên và giúp ngăn ngừa chấn thương. Tương tự, trong vật lý trị liệu, nó có thể hỗ trợ theo dõi các bài tập để đảm bảo bệnh nhân thực hiện đúng các động tác trong quá trình phục hồi chức năng. Ngoài ra, đối với giám sát, nó có thể giúp xác định các hoạt động đáng ngờ bằng cách phân tích ngôn ngữ cơ thể chung. Mặc dù GPT-4o Mini không thể phát hiện các điểm chính cụ thể, nhưng khả năng phân loại các tư thế chung của nó khiến nó trở nên hữu ích trong các lĩnh vực này và các lĩnh vực khác.
Chúng ta đã xem xét những gì GPT-4o Mini có thể làm. Bây giờ, hãy thảo luận về các ứng dụng mà việc sử dụng GPT-4o Mini là tối ưu nhất.
GPT-4o Mini rất phù hợp cho các ứng dụng đòi hỏi khả năng hiểu ngôn ngữ tự nhiên nâng cao và cần một footprint tính toán nhỏ. Nó giúp tích hợp AI vào các ứng dụng mà thông thường sẽ quá tốn kém. Trên thực tế, một phân tích chi tiết của Artificial Analysis cho thấy rằng GPT-4o Mini cung cấp các phản hồi chất lượng cao với tốc độ cực nhanh so với hầu hết các mô hình khác.
Dưới đây là một số lĩnh vực chính mà nó có thể tỏa sáng trong tương lai:
GPT-4o Mini đang tạo ra những cơ hội mới cho tương lai của AI đa phương thức. Chi phí xử lý mỗi đoạn văn bản hoặc dữ liệu, được gọi là chi phí trên mỗi token, đã giảm đáng kể - gần 99% - kể từ năm 2022, khi text-davinci-003, mô hình GPT-3, được phát hành. Sự giảm chi phí cho thấy một xu hướng rõ ràng hướng tới việc làm cho AI tiên tiến trở nên hợp lý hơn về mặt kinh tế. Khi các mô hình AI tiếp tục được cải thiện, ngày càng có khả năng việc tích hợp AI vào mọi ứng dụng và trang web sẽ khả thi về mặt kinh tế!
Bạn muốn thực hành với AI? Hãy truy cập kho lưu trữ GitHub của chúng tôi để xem các cải tiến của chúng tôi và trở thành một phần của cộng đồng năng động của chúng tôi. Tìm hiểu thêm về các ứng dụng AI trong sản xuất và nông nghiệp trên các trang giải pháp của chúng tôi.