Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay

Các bản cập nhật mới nhất của OpenAI: Canvas, Tinh Chỉnh Vision và hơn thế nữa

Abirami Vina

4 phút đọc

7 tháng 11, 2024

Hãy tham gia cùng chúng tôi khi chúng tôi xem xét kỹ hơn những điều gần đây ChatGPT Các bản cập nhật được OpenAI phát hành. Chúng ta sẽ khám phá Canvas, tinh chỉnh khả năng thị giác và tính năng Tìm kiếm mới nhất.

Sau khi chúng tôi xem xét lần cuối các mô hình o1 của OpenAI vào tháng 9 (được thiết kế để cải thiện khả năng suy luận), nhiều tính năng mới và thú vị đã được thêm vào ChatGPT Một số bản phát hành này hướng đến các nhà phát triển, trong khi một số khác được thiết kế để cải thiện trải nghiệm người dùng. Nhìn chung, mỗi bản nâng cấp đều giúp tương tác với ChatGPT trực quan và hiệu quả hơn.

Các bản cập nhật như Canvas, được thiết kế để viết và mã hóa cộng tác, và tinh chỉnh khả năng thị giác giúp cải thiện cách ChatGPT Các tác phẩm sử dụng hình ảnh đã thu hút rất nhiều sự quan tâm, khuyến khích người dùng khám phá nhiều khả năng sáng tạo hơn. Trong khi đó, các nâng cấp kỹ thuật, chẳng hạn như API mới và báo cáo kiểm tra tính công bằng, giải quyết các khía cạnh như tích hợp mô hình và thực hành AI đạo đức . Hãy cùng tìm hiểu sâu hơn về những cải tiến mới nhất. ChatGPT các tính năng từ OpenAI!

Tổng quan về tính năng canvas của OpenAI

Canvas là bản cập nhật lớn đầu tiên ChatGPT Giao diện người dùng (UI) của .com kể từ khi ra mắt. Đây là giao diện mới với bố cục hai màn hình, lời nhắc ở thanh bên trái và phản hồi ở cửa sổ bên phải. Giao diện người dùng mới loại bỏ quy trình làm việc thông thường của cấu trúc một màn hình giống như trò chuyện và chuyển sang bố cục hai màn hình, phù hợp với mục đích đa nhiệm để tăng năng suất.

Hình 1. Canvas mang đến các bản cập nhật giao diện người dùng ChatGPT .

Trước khi Canvas được giới thiệu, làm việc với các tài liệu dài trên ChatGPT Điều này đồng nghĩa với việc phải cuộn lên xuống khá nhiều. Trong bố cục mới, các lời nhắc được hiển thị ở thanh bên trái, và tài liệu văn bản hoặc đoạn chiếm phần lớn màn hình. Nếu cần, bạn thậm chí có thể tùy chỉnh kích thước của thanh bên trái và màn hình xuất. Ngoài ra, bạn có thể chọn một phần văn bản hoặc một đoạn mã và chỉnh sửa phần cụ thể đó mà không cần thay đổi toàn bộ tài liệu.

Hình 2. Chỉnh Sửa Các Phần Văn Bản Cụ Thể Bằng Canvas.

Nếu bạn sử dụng Canvas, bạn sẽ nhận thấy không có nút hoặc nút chuyển đổi cụ thể nào để mở nó trên ChatGPT Giao diện. Thay vào đó, khi bạn làm việc với mô hình GPT-4o, Canvas sẽ tự động mở nếu phát hiện bạn đang chỉnh sửa , viết hoặc mã hóa . Đối với các yêu cầu đơn giản hơn, nó sẽ ở trạng thái không hoạt động. Nếu bạn muốn mở thủ công, bạn có thể sử dụng các yêu cầu như "Mở Canvas" hoặc "Cho tôi xem bố cục Canvas".

Hiện tại, Canvas đang ở giai đoạn beta và chỉ khả dụng với GPT-4o. Tuy nhiên, OpenAI đã đề cập rằng Canvas sẽ khả dụng cho tất cả người dùng miễn phí khi nó hết giai đoạn beta.

ChatGPT Cập nhật API của

OpenAI đã phát hành ba sản phẩm mới ChatGPT Các bản cập nhật API nhằm cải thiện hiệu quả, khả năng mở rộng và tính linh hoạt. Hãy cùng xem xét kỹ hơn từng bản cập nhật này.

Chưng cất mô hình

Sử dụng tính năng Model Distillation (Chưng cất Mô hình) thông qua OpenAI API, các nhà phát triển có thể sử dụng kết quả đầu ra của các mô hình tiên tiến như GPT-4o hoặc o1-preview để nâng cao hiệu suất của các mô hình nhỏ hơn, tiết kiệm chi phí hơn như GPT-4o mini. Model Distillation là một quy trình bao gồm huấn luyện các mô hình nhỏ hơn để mô phỏng hành vi của các mô hình tiên tiến hơn, làm cho chúng hiệu quả hơn cho các tác vụ cụ thể.

Trước khi tính năng này được giới thiệu, các nhà phát triển phải tự điều phối nhiều tác vụ khác nhau bằng các công cụ khác nhau. Các tác vụ này bao gồm tạo bộ dữ liệu, đo lường hiệu suất mô hìnhtinh chỉnh mô hình, điều này thường làm cho quy trình trở nên phức tạp và dễ xảy ra lỗi. Bản cập nhật Model Distillation cho phép các nhà phát triển sử dụng Stored Completions, một công cụ cho phép họ tự động tạo bộ dữ liệu bằng cách thu thập và lưu trữ các cặp đầu vào-đầu ra được tạo bởi các mô hình tiên tiến thông qua API.

Một tính năng khác của Model Distillation, Evals (hiện đang ở giai đoạn beta), giúp đo lường mức độ hiệu quả của mô hình đối với các tác vụ cụ thể mà không cần tạo các script đánh giá tùy chỉnh hoặc sử dụng các công cụ riêng biệt. Sử dụng bộ dữ liệu được tạo bằng Stored Completions và đánh giá hiệu suất bằng Evals, các nhà phát triển có thể tinh chỉnh các mô hình GPT tùy chỉnh của riêng họ.

Hình 3. Bạn có thể sử dụng Evals để đo lường hiệu suất mô hình.

Prompt caching (Bộ nhớ đệm Prompt)

Thông thường, khi xây dựng các ứng dụng AI, đặc biệt là chatbot, cùng một ngữ cảnh (thông tin cơ bản hoặc lịch sử hội thoại trước đó cần thiết để hiểu yêu cầu hiện tại) sẽ được sử dụng lặp đi lặp lại cho nhiều lệnh gọi API. Prompt Caching giúp các nhà phát triển có thể sử dụng lại các token đầu vào (các đoạn văn bản mà mô hình xử lý để hiểu prompt và tạo phản hồi) đã sử dụng gần đây, giúp giảm chi phí và độ trễ.

Từ ngày 1 tháng 10, OpenAI đã tự động áp dụng Prompt Caching cho các mô hình của mình như GPT-4o, GPT-4o mini, o1-preview và o1-mini. Điều này có nghĩa là khi các nhà phát triển sử dụng API để tương tác với một mô hình có prompt dài (hơn 1.024 token), hệ thống sẽ lưu các phần mà nó đã xử lý. 

Bằng cách này, nếu các prompt tương tự được sử dụng lại, nó có thể bỏ qua việc tính toán lại các phần đó. Hệ thống tự động lưu vào bộ nhớ đệm phần dài nhất của prompt mà nó đã gặp trước đó, bắt đầu với 1.024 token và thêm vào các đoạn 128 token khi prompt dài hơn.

Realtime API (API Thời gian thực)

Việc tạo một trợ lý giọng nói thường liên quan đến việc cần phiên âm âm thanh thành văn bản, xử lý văn bản và sau đó chuyển đổi lại thành âm thanh để phát phản hồi. Realtime API của OpenAI nhằm mục đích xử lý toàn bộ quy trình này chỉ với một yêu cầu API duy nhất. Bằng cách làm cho quy trình đơn giản hơn, API cho phép các cuộc trò chuyện theo thời gian thực với AI. 

Ví dụ: một trợ lý giọng nói được tích hợp với Realtime API có thể thực hiện các hành động cụ thể, như đặt hàng hoặc tìm kiếm thông tin, dựa trên yêu cầu của người dùng. API làm cho trợ lý giọng nói phản hồi nhanh hơn và có thể thích ứng nhanh chóng với nhu cầu của người dùng. Realtime API đã có sẵn thông qua bản beta công khai vào ngày 1 tháng 10, với sáu giọng nói. Vào ngày 30 tháng 10, năm giọng nói khác đã được thêm vào, nâng tổng số giọng nói có sẵn lên mười một.

Hình 4. Một ví dụ về việc sử dụng Realtime API để thực hành các cuộc hội thoại bằng một ngôn ngữ mới.

Tinh chỉnh ChatGPT cho các nhiệm vụ thị giác

Ban đầu, mô hình ngôn ngữ thị giác GPT-4o chỉ có thể được tinh chỉnh và tùy chỉnh bằng cách sử dụng bộ dữ liệu chỉ có văn bản. Giờ đây, với việc phát hành API tinh chỉnh thị giác, các nhà phát triển có thể huấn luyện và tùy chỉnh GPT-4o bằng cách sử dụng bộ dữ liệu hình ảnh. Kể từ khi phát hành, tinh chỉnh thị giác đã trở thành một chủ đề được quan tâm lớn trong giới các nhà phát triển và kỹ sư thị giác máy tính.

Để tinh chỉnh khả năng thị giác của GPT-4o, các nhà phát triển có thể sử dụng bộ dữ liệu hình ảnh có số lượng từ 100 đến 50.000 hình ảnh. Sau khi đảm bảo bộ dữ liệu phù hợp với định dạng mà OpenAI yêu cầu, nó có thể được tải lên nền tảng OpenAI và mô hình có thể được tinh chỉnh cho các ứng dụng cụ thể. 

Ví dụ: Automat, một công ty tự động hóa, đã sử dụng một bộ dữ liệu ảnh chụp màn hình để huấn luyện GPT-4o để có thể xác định các thành phần giao diện người dùng trên màn hình dựa trên mô tả. Điều này giúp hợp lý hóa Tự động hóa quy trình bằng robot (RPA) bằng cách giúp bot dễ dàng tương tác với giao diện người dùng hơn. Thay vì dựa vào tọa độ cố định hoặc các quy tắc chọn phức tạp, mô hình có thể xác định các thành phần giao diện người dùng dựa trên các mô tả đơn giản, giúp cho việc thiết lập tự động hóa dễ thích ứng hơn và dễ bảo trì hơn khi giao diện thay đổi.

Hình 5. Sử dụng phiên bản tinh chỉnh của mô hình GPT-4o để detect Các thành phần UI.

ChatGPT phát hiện sự công bằng và thiên vị

Những lo ngại về đạo đức xung quanh các ứng dụng AI là chủ đề thảo luận nổi bật khi AI ngày càng tiên tiến hơn. Bởi vì ChatGPT Phản hồi của ChatGPT dựa trên các gợi ý do người dùng cung cấp và dữ liệu có sẵn trên Internet, nên việc tinh chỉnh ngôn ngữ để luôn có trách nhiệm có thể là một thách thức. Các báo cáo cho thấy câu trả lời của ChatGPT thiên vị tên, giới tính và chủng tộc. Để giải quyết vấn đề này, nhóm nội bộ của OpenAI đã tiến hành một bài kiểm tra công bằng ở góc nhìn thứ nhất.

Tên thường mang những gợi ý tinh tế về văn hóa và các yếu tố địa lý của chúng ta . Trong hầu hết các trường hợp, ChatGPT sẽ bỏ qua những dấu hiệu tinh tế trong tên. Tuy nhiên, trong một số trường hợp, tên phản ánh chủng tộc hoặc văn hóa dẫn đến những phản ứng khác nhau. ChatGPT , với khoảng 1% trong số này phản ánh ngôn ngữ gây hại . Việc loại bỏ định kiến và ngôn ngữ gây hại là một nhiệm vụ đầy thách thức đối với một mô hình ngôn ngữ . Tuy nhiên, bằng cách chia sẻ những phát hiện này một cách công khai và thừa nhận những hạn chế của mô hình, OpenAI giúp người dùng tinh chỉnh lời nhắc của họ để đạt được những câu trả lời trung lập và khách quan hơn. 

Hình 6. Một ví dụ về các phản hồi khác nhau do tên của người dùng.

Hiểu biết ChatGPT tìm kiếm

Khi ChatGPT Khi ra mắt lần đầu, cộng đồng AI đã thảo luận sôi nổi về việc liệu nó có thể thay thế trình duyệt web truyền thống hay không. Hiện nay, nhiều người dùng đang sử dụng ChatGPT thay vì Google Tìm kiếm

Bản cập nhật mới của OpenAI, tính năng Tìm kiếm, đưa điều này tiến thêm một bước nữa. Với Tìm kiếm, ChatGPT tạo ra các phản hồi cập nhật và bao gồm các liên kết đến các nguồn liên quan. Tính năng Tìm kiếm sẽ khả dụng cho tất cả mọi người kể từ ngày 31 tháng 10. ChatGPT Người dùng Plus và Team, tạo ChatGPT hoạt động giống như một công cụ tìm kiếm được hỗ trợ bởi AI.

Hình 7. Một ví dụ về việc sử dụng ChatGPT Tính năng Tìm kiếm mới của.

Hành trình phía trước

ChatGPT Các bản cập nhật gần đây của AI tập trung vào việc làm cho AI hữu ích, linh hoạt và công bằng hơn. Tính năng Canvas mới giúp người dùng làm việc hiệu quả hơn, trong khi tính năng tinh chỉnh thị giác cho phép các nhà phát triển tùy chỉnh mô hình để xử lý tốt hơn các tác vụ trực quan. Việc giải quyết vấn đề công bằng và giảm thiểu thiên vị cũng là những ưu tiên hàng đầu, đảm bảo AI hoạt động tốt cho tất cả mọi người, bất kể họ là ai. Cho dù bạn là nhà phát triển đang tinh chỉnh mô hình hay chỉ đang sử dụng các tính năng mới nhất, ChatGPT đang phát triển để đáp ứng nhiều nhu cầu khác nhau. Với khả năng xử lý thời gian thực, tích hợp trực quan và tập trung vào việc sử dụng có trách nhiệm, những bản cập nhật này đang xây dựng trải nghiệm AI đáng tin cậy và đáng tin cậy hơn cho mọi người.

Tìm hiểu thêm về AI bằng cách truy cập kho lưu trữ GitHub của chúng tôi và tham gia cộng đồng của chúng tôi. Tìm hiểu thêm về các ứng dụng AI trong lĩnh vực xe tự láichăm sóc sức khỏe.

Hãy cùng nhau xây dựng tương lai
của AI!

Bắt đầu hành trình của bạn với tương lai của học máy

Bắt đầu miễn phí