Đón xem YOLO Vision 2025!
25 tháng 9, 2025
10:00 — 18:00 BST
Sự kiện kết hợp
Yolo Vision 2024

Các bản cập nhật mới nhất của OpenAI: Canvas, Tinh Chỉnh Vision và hơn thế nữa

Abirami Vina

4 phút đọc

7 tháng 11, 2024

Hãy cùng chúng tôi xem xét kỹ hơn các bản cập nhật ChatGPT gần đây do OpenAI phát hành. Chúng ta sẽ khám phá Canvas, tinh chỉnh cho khả năng vision và tính năng Search mới nhất.

Sau khi chúng ta xem xét các mô hình o1 của OpenAI vào tháng 9 (được thiết kế để cải thiện khả năng suy luận), nhiều tính năng mới và thú vị đã được thêm vào ChatGPT. Một số bản phát hành này hướng đến các nhà phát triển và những bản khác được thiết kế để tinh chỉnh trải nghiệm người dùng. Nhìn chung, mỗi bản nâng cấp giúp các tương tác với ChatGPT trở nên trực quan và hiệu quả hơn.

Các bản cập nhật như Canvas, được thiết kế để viết và viết mã cộng tác, và tinh chỉnh cho khả năng vision giúp cải thiện cách ChatGPT hoạt động với hình ảnh, đã khơi dậy rất nhiều sự quan tâm, khuyến khích người dùng khám phá nhiều khả năng sáng tạo hơn. Trong khi đó, các nâng cấp kỹ thuật, như API mới và báo cáo kiểm tra tính công bằng, giải quyết các khía cạnh như tích hợp mô hình và thực hành AI có đạo đức. Hãy cùng đi sâu vào và hiểu rõ hơn về các tính năng ChatGPT mới nhất từ OpenAI!

Tổng quan về tính năng canvas của OpenAI

Canvas là bản cập nhật lớn đầu tiên cho giao diện người dùng (UI) của ChatGPT kể từ khi phát hành. Đây là một giao diện mới với bố cục hai màn hình, lời nhắc ở thanh bên trái và phản hồi ở cửa sổ bên phải. Giao diện người dùng mới loại bỏ quy trình làm việc thông thường của cấu trúc một màn hình giống như trò chuyện và chuyển sang bố cục hai màn hình phù hợp với mục đích đa nhiệm để tăng năng suất.

Hình 1. Canvas Mang Đến Các Bản Cập Nhật UI Cho ChatGPT.

Trước khi Canvas được giới thiệu, làm việc với tài liệu dài trên ChatGPT có nghĩa là phải cuộn lên và xuống khá nhiều. Trong bố cục mới, lời nhắc được hiển thị trên thanh bên trái và tài liệu văn bản hoặc đoạn chiếm phần lớn màn hình. Nếu cần, bạn thậm chí có thể tùy chỉnh kích thước của thanh bên trái và màn hình đầu ra. Ngoài ra, bạn có thể chọn một phần văn bản hoặc một phần mã và chỉnh sửa phần cụ thể đó mà không làm thay đổi toàn bộ tài liệu.

Hình 2. Chỉnh Sửa Các Phần Văn Bản Cụ Thể Bằng Canvas.

Nếu bạn sử dụng Canvas, bạn sẽ nhận thấy không có nút hoặc công tắc cụ thể nào để mở nó trên giao diện ChatGPT. Thay vào đó, khi bạn đang làm việc với mô hình GPT-4o, Canvas sẽ tự động mở nếu nó phát hiện bạn đang chỉnh sửa, viết hoặc viết mã. Đối với các lời nhắc đơn giản hơn, nó vẫn không hoạt động. Nếu bạn muốn mở nó theo cách thủ công, bạn có thể sử dụng các lời nhắc như "Mở Canvas" hoặc "Lấy cho tôi bố cục Canvas."

Hiện tại, Canvas đang ở giai đoạn beta và chỉ khả dụng với GPT-4o. Tuy nhiên, OpenAI đã đề cập rằng Canvas sẽ khả dụng cho tất cả người dùng miễn phí khi nó hết giai đoạn beta.

Các bản cập nhật API của ChatGPT

OpenAI đã phát hành ba bản cập nhật API ChatGPT mới nhằm cải thiện hiệu quả, khả năng mở rộng và tính linh hoạt. Hãy cùng xem xét kỹ hơn từng bản cập nhật này.

Chưng cất mô hình

Sử dụng tính năng Model Distillation (Chưng cất Mô hình) thông qua OpenAI API, các nhà phát triển có thể sử dụng kết quả đầu ra của các mô hình tiên tiến như GPT-4o hoặc o1-preview để nâng cao hiệu suất của các mô hình nhỏ hơn, tiết kiệm chi phí hơn như GPT-4o mini. Model Distillation là một quy trình bao gồm huấn luyện các mô hình nhỏ hơn để mô phỏng hành vi của các mô hình tiên tiến hơn, làm cho chúng hiệu quả hơn cho các tác vụ cụ thể.

Trước khi tính năng này được giới thiệu, các nhà phát triển phải tự điều phối nhiều tác vụ khác nhau bằng các công cụ khác nhau. Các tác vụ này bao gồm tạo bộ dữ liệu, đo lường hiệu suất mô hìnhtinh chỉnh mô hình, điều này thường làm cho quy trình trở nên phức tạp và dễ xảy ra lỗi. Bản cập nhật Model Distillation cho phép các nhà phát triển sử dụng Stored Completions, một công cụ cho phép họ tự động tạo bộ dữ liệu bằng cách thu thập và lưu trữ các cặp đầu vào-đầu ra được tạo bởi các mô hình tiên tiến thông qua API.

Một tính năng khác của Model Distillation, Evals (hiện đang ở giai đoạn beta), giúp đo lường mức độ hiệu quả của mô hình đối với các tác vụ cụ thể mà không cần tạo các script đánh giá tùy chỉnh hoặc sử dụng các công cụ riêng biệt. Sử dụng bộ dữ liệu được tạo bằng Stored Completions và đánh giá hiệu suất bằng Evals, các nhà phát triển có thể tinh chỉnh các mô hình GPT tùy chỉnh của riêng họ.

Hình 3. Bạn có thể sử dụng Evals để đo lường hiệu suất mô hình.

Prompt caching (Bộ nhớ đệm Prompt)

Thông thường, khi xây dựng các ứng dụng AI, đặc biệt là chatbot, cùng một ngữ cảnh (thông tin cơ bản hoặc lịch sử hội thoại trước đó cần thiết để hiểu yêu cầu hiện tại) sẽ được sử dụng lặp đi lặp lại cho nhiều lệnh gọi API. Prompt Caching giúp các nhà phát triển có thể sử dụng lại các token đầu vào (các đoạn văn bản mà mô hình xử lý để hiểu prompt và tạo phản hồi) đã sử dụng gần đây, giúp giảm chi phí và độ trễ.

Từ ngày 1 tháng 10, OpenAI đã tự động áp dụng Prompt Caching cho các mô hình của mình như GPT-4o, GPT-4o mini, o1-preview và o1-mini. Điều này có nghĩa là khi các nhà phát triển sử dụng API để tương tác với một mô hình có prompt dài (hơn 1.024 token), hệ thống sẽ lưu các phần mà nó đã xử lý. 

Bằng cách này, nếu các prompt tương tự được sử dụng lại, nó có thể bỏ qua việc tính toán lại các phần đó. Hệ thống tự động lưu vào bộ nhớ đệm phần dài nhất của prompt mà nó đã gặp trước đó, bắt đầu với 1.024 token và thêm vào các đoạn 128 token khi prompt dài hơn.

Realtime API (API Thời gian thực)

Việc tạo một trợ lý giọng nói thường liên quan đến việc cần phiên âm âm thanh thành văn bản, xử lý văn bản và sau đó chuyển đổi lại thành âm thanh để phát phản hồi. Realtime API của OpenAI nhằm mục đích xử lý toàn bộ quy trình này chỉ với một yêu cầu API duy nhất. Bằng cách làm cho quy trình đơn giản hơn, API cho phép các cuộc trò chuyện theo thời gian thực với AI. 

Ví dụ: một trợ lý giọng nói được tích hợp với Realtime API có thể thực hiện các hành động cụ thể, như đặt hàng hoặc tìm kiếm thông tin, dựa trên yêu cầu của người dùng. API làm cho trợ lý giọng nói phản hồi nhanh hơn và có thể thích ứng nhanh chóng với nhu cầu của người dùng. Realtime API đã có sẵn thông qua bản beta công khai vào ngày 1 tháng 10, với sáu giọng nói. Vào ngày 30 tháng 10, năm giọng nói khác đã được thêm vào, nâng tổng số giọng nói có sẵn lên mười một.

Hình 4. Một ví dụ về việc sử dụng Realtime API để thực hành các cuộc hội thoại bằng một ngôn ngữ mới.

Tinh chỉnh ChatGPT cho các tác vụ thị giác

Ban đầu, mô hình ngôn ngữ thị giác GPT-4o chỉ có thể được tinh chỉnh và tùy chỉnh bằng cách sử dụng bộ dữ liệu chỉ có văn bản. Giờ đây, với việc phát hành API tinh chỉnh thị giác, các nhà phát triển có thể huấn luyện và tùy chỉnh GPT-4o bằng cách sử dụng bộ dữ liệu hình ảnh. Kể từ khi phát hành, tinh chỉnh thị giác đã trở thành một chủ đề được quan tâm lớn trong giới các nhà phát triển và kỹ sư thị giác máy tính.

Để tinh chỉnh khả năng thị giác của GPT-4o, các nhà phát triển có thể sử dụng bộ dữ liệu hình ảnh có số lượng từ 100 đến 50.000 hình ảnh. Sau khi đảm bảo bộ dữ liệu phù hợp với định dạng mà OpenAI yêu cầu, nó có thể được tải lên nền tảng OpenAI và mô hình có thể được tinh chỉnh cho các ứng dụng cụ thể. 

Ví dụ: Automat, một công ty tự động hóa, đã sử dụng một bộ dữ liệu ảnh chụp màn hình để huấn luyện GPT-4o để có thể xác định các thành phần giao diện người dùng trên màn hình dựa trên mô tả. Điều này giúp hợp lý hóa Tự động hóa quy trình bằng robot (RPA) bằng cách giúp bot dễ dàng tương tác với giao diện người dùng hơn. Thay vì dựa vào tọa độ cố định hoặc các quy tắc chọn phức tạp, mô hình có thể xác định các thành phần giao diện người dùng dựa trên các mô tả đơn giản, giúp cho việc thiết lập tự động hóa dễ thích ứng hơn và dễ bảo trì hơn khi giao diện thay đổi.

Hình 5. Sử dụng phiên bản đã được tinh chỉnh của mô hình GPT-4o để phát hiện các thành phần giao diện người dùng.

Phát hiện tính công bằng và thiên kiến của ChatGPT

Các mối lo ngại về đạo đức xung quanh các ứng dụng AI là một chủ đề nổi bật trong các cuộc trò chuyện khi AI ngày càng trở nên tiên tiến hơn. Vì các phản hồi của ChatGPT dựa trên các prompt do người dùng cung cấp và dữ liệu có sẵn trên Internet, nên có thể khó tinh chỉnh ngôn ngữ của nó để luôn có trách nhiệm. Các báo cáo nói rằng các câu trả lời của ChatGPT bị thiên vị về tên, giới tính và chủng tộc. Để giải quyết vấn đề này, nhóm nội bộ của OpenAI đã tiến hành một thử nghiệm về tính công bằng ở ngôi thứ nhất.

Tên thường mang những gợi ý tinh tế về văn hóa của chúng ta và các yếu tố địa lý. Trong hầu hết các trường hợp, ChatGPT sẽ bỏ qua những gợi ý tinh tế trong tên. Tuy nhiên, trong một số trường hợp, tên phản ánh chủng tộc hoặc văn hóa dẫn đến các phản hồi khác nhau từ ChatGPT, với khoảng 1% trong số này phản ánh ngôn ngữ gây hại. Loại bỏ sự thiên vị và ngôn ngữ gây hại là một nhiệm vụ đầy thách thức đối với một mô hình ngôn ngữ. Tuy nhiên, bằng cách chia sẻ những phát hiện này một cách công khai và thừa nhận những hạn chế của mô hình, OpenAI giúp người dùng tinh chỉnh các prompt của họ để đạt được các câu trả lời trung lập, khách quan hơn. 

Hình 6. Một ví dụ về các phản hồi khác nhau do tên của người dùng.

Tìm hiểu về tìm kiếm của ChatGPT

Khi ChatGPT mới ra mắt, đã có những cuộc thảo luận trong cộng đồng AI về việc liệu nó có thể thay thế việc duyệt web truyền thống hay không. Giờ đây, nhiều người dùng đang sử dụng ChatGPT thay vì Google Search

Bản cập nhật mới của OpenAI, tính năng Search, tiến thêm một bước nữa. Với Search, ChatGPT tạo ra các phản hồi cập nhật và bao gồm các liên kết đến các nguồn liên quan. Tính đến ngày 31 tháng 10, tính năng Search đã có sẵn cho tất cả người dùng ChatGPT Plus và Team, làm cho ChatGPT hoạt động giống như một công cụ tìm kiếm được hỗ trợ bởi AI hơn.

Hình 7. Một ví dụ về việc sử dụng tính năng Search mới của ChatGPT.

Hành trình phía trước

Các bản cập nhật gần đây của ChatGPT tập trung vào việc làm cho AI trở nên hữu ích, linh hoạt và công bằng hơn. Tính năng Canvas mới giúp người dùng làm việc hiệu quả hơn, trong khi tinh chỉnh thị giác cho phép các nhà phát triển tùy chỉnh các mô hình để xử lý tốt hơn các tác vụ liên quan đến hình ảnh. Giải quyết sự công bằng và giảm thiểu sự thiên vị cũng là những ưu tiên hàng đầu, đảm bảo AI hoạt động tốt cho tất cả mọi người, bất kể họ là ai. Cho dù bạn là nhà phát triển đang tinh chỉnh mô hình hay chỉ sử dụng các tính năng mới nhất, ChatGPT đang phát triển để đáp ứng nhiều nhu cầu khác nhau. Với khả năng thời gian thực, tích hợp hình ảnh và tập trung vào sử dụng có trách nhiệm, những cập nhật này đang xây dựng trải nghiệm AI đáng tin cậy và an toàn hơn cho tất cả mọi người.

Tìm hiểu thêm về AI bằng cách truy cập kho lưu trữ GitHub của chúng tôi và tham gia cộng đồng của chúng tôi. Tìm hiểu thêm về các ứng dụng AI trong lĩnh vực xe tự láichăm sóc sức khỏe.

Hãy cùng nhau xây dựng tương lai
của AI!

Bắt đầu hành trình của bạn với tương lai của học máy

Bắt đầu miễn phí
Đã sao chép liên kết vào clipboard