Thị giác AI

Các cập nhật mới nhất từ OpenAI: Canvas, Tinh chỉnh thị giác và hơn thế nữa

Hãy cùng chúng tôi xem xét kỹ hơn các bản cập nhật ChatGPT gần đây do OpenAI phát hành. Chúng ta sẽ khám phá Canvas, tinh chỉnh (fine-tuning) cho khả năng thị giác và tính năng Tìm kiếm mới nhất.

ABAbirami Vina

4 min readNovember 7, 2024

Tổng quan về các bản cập nhật ChatGPT mới nhất của OpenAI

Sau khi chúng ta xem xét các model o1 của OpenAI vào tháng 9 vừa qua (vốn được thiết kế để cải thiện khả năng suy luận), nhiều tính năng thú vị mới đã được bổ sung vào ChatGPT. Một số bản phát hành này hướng đến các nhà phát triển, trong khi số khác được thiết kế để tinh chỉnh trải nghiệm người dùng. Nhìn chung, mỗi bản nâng cấp đều giúp việc tương tác với ChatGPT trở nên trực quan và hiệu quả hơn.

Các cập nhật như Canvas, được thiết kế cho việc viết và lập trình cộng tác, cùng với khả năng tinh chỉnh cho các tính năng vision giúp cải thiện cách ChatGPT xử lý hình ảnh, đã thu hút rất nhiều sự quan tâm, khuyến khích người dùng khám phá thêm nhiều khả năng sáng tạo. Trong khi đó, các nâng cấp kỹ thuật như API mới và báo cáo kiểm tra tính công bằng giải quyết các khía cạnh như tích hợp model và các thực tiễn AI đạo đức. Hãy cùng tìm hiểu sâu hơn để nắm bắt tốt hơn các tính năng ChatGPT mới nhất từ OpenAI!

Link to this sectionTổng quan về tính năng Canvas của OpenAI#

Canvas là bản cập nhật lớn đầu tiên cho giao diện người dùng (UI) của ChatGPT kể từ khi ra mắt. Đây là một giao diện mới với bố cục hai màn hình, thanh bên trái chứa các câu lệnh (prompt) và cửa sổ bên phải hiển thị phản hồi. UI mới này loại bỏ cấu trúc màn hình đơn kiểu trò chuyện thông thường và chuyển sang bố cục hai màn hình, phù hợp cho nhu cầu đa nhiệm nhằm tăng năng suất.

Canvas mang đến các cập nhật UI cho ChatGPT

Hình 1. Canvas mang đến các cập nhật UI cho ChatGPT.

Trước khi Canvas được giới thiệu, việc làm việc với các tài liệu dài trên ChatGPT đòi hỏi phải cuộn lên xuống khá nhiều. Trong bố cục mới, các câu lệnh được hiển thị ở thanh bên trái, còn tài liệu văn bản hoặc đoạn code chiếm phần lớn diện tích màn hình. Nếu cần, bạn thậm chí có thể tùy chỉnh kích thước thanh bên trái và màn hình đầu ra. Ngoài ra, bạn có thể chọn một phần văn bản hoặc một đoạn code và chỉnh sửa riêng phần đó mà không làm thay đổi toàn bộ tài liệu.

Chỉnh sửa các phần văn bản cụ thể bằng Canvas

Hình 2. Chỉnh sửa các phần văn bản cụ thể bằng Canvas.

Nếu bạn sử dụng Canvas, bạn sẽ nhận thấy không có nút bấm hay nút gạt cụ thể nào để mở nó trên giao diện ChatGPT. Thay vào đó, khi bạn làm việc với model GPT-4o, Canvas sẽ tự động mở nếu nó phát hiện bạn đang chỉnh sửa, viết hoặc lập trình. Với các câu lệnh đơn giản hơn, nó sẽ vẫn không hoạt động. Nếu muốn mở thủ công, bạn có thể sử dụng các câu lệnh như "Open the Canvas" hoặc "Get me the Canvas layout."

Hiện tại, Canvas đang trong giai đoạn beta và chỉ khả dụng với GPT-4o. Tuy nhiên, OpenAI cho biết Canvas sẽ có sẵn cho tất cả người dùng miễn phí khi nó chính thức ra mắt khỏi giai đoạn beta.

Link to this sectionCác cập nhật API của ChatGPT#

OpenAI đã phát hành ba bản cập nhật API ChatGPT mới nhằm cải thiện hiệu suất, khả năng mở rộng và tính linh hoạt. Hãy cùng xem xét kỹ hơn từng bản cập nhật này.

Link to this sectionChưng cất model (Model distillation)#

Sử dụng tính năng Chưng cất Model thông qua OpenAI API, các nhà phát triển có thể sử dụng kết quả đầu ra của các model tiên tiến như GPT-4o hoặc o1-preview để nâng cao hiệu suất của các model nhỏ hơn, tiết kiệm chi phí như GPT-4o mini. Chưng cất model là quá trình liên quan đến việc huấn luyện các model nhỏ hơn để bắt chước hành vi của các model tiên tiến hơn, giúp chúng trở nên hiệu quả hơn cho các tác vụ cụ thể.

Trước khi tính năng này được giới thiệu, các lập trình viên phải phối hợp thủ công nhiều tác vụ khác nhau bằng các công cụ riêng biệt. Những tác vụ này bao gồm tạo datasets, đo lường model performance, và fine-tuning các model, vốn thường khiến quy trình trở nên phức tạp và dễ phát sinh lỗi. Cập nhật Model Distillation cho phép các lập trình viên sử dụng Stored Completions, một công cụ giúp họ tự động generate datasets bằng cách thu thập và lưu trữ các cặp input-output được tạo ra bởi các model nâng cao thông qua API.

Một tính năng khác của Chưng cất Model là Evals (hiện đang trong giai đoạn beta), giúp đo lường mức độ thực hiện tác vụ của một model một cách chính xác mà không cần tạo các tập lệnh đánh giá tùy chỉnh hoặc sử dụng các công cụ riêng biệt. Sử dụng các dataset được tạo với Stored Completions và đánh giá hiệu suất bằng Evals, các nhà phát triển có thể tinh chỉnh các model GPT tùy chỉnh của riêng mình.

Sử dụng Evals để đo lường hiệu suất model

Hình 3. Bạn có thể sử dụng Evals để đo lường hiệu suất model.

Link to this sectionBộ nhớ đệm câu lệnh (Prompt caching)#

Thông thường khi xây dựng AI applications, đặc biệt là chatbots, cùng một context (thông tin nền hoặc lịch sử trò chuyện trước đó cần thiết để hiểu yêu cầu hiện tại) sẽ được sử dụng lặp lại cho nhiều API call. Prompt Caching giúp các lập trình viên có thể tái sử dụng các input tokens được dùng gần đây (các đoạn văn bản mà model xử lý để hiểu prompt và tạo phản hồi), giúp giảm chi phí và độ trễ.

Từ ngày 1 tháng 10, OpenAI đã tự động áp dụng Prompt Caching cho các model như GPT-4o, GPT-4o mini, o1-preview và o1-mini của mình. Điều này có nghĩa là khi các lập trình viên sử dụng API để tương tác với một model bằng một prompt dài (hơn 1.024 token), hệ thống sẽ lưu lại các phần mà nó đã xử lý.

Bằng cách này, nếu các câu lệnh tương tự hoặc giống hệt nhau được sử dụng lại, hệ thống có thể bỏ qua việc tính toán lại các phần đó. Hệ thống tự động lưu vào bộ nhớ đệm phần dài nhất của câu lệnh mà nó đã gặp trước đó, bắt đầu với 1.024 token và cộng thêm theo từng khối 128 token khi câu lệnh trở nên dài hơn.

Link to this sectionRealtime API#

Việc tạo một voice assistant thường đòi hỏi phải chuyển đổi audio to text, xử lý văn bản, sau đó chuyển đổi ngược lại thành audio to play phản hồi. Realtime API của OpenAI nhằm mục đích xử lý toàn bộ quy trình này chỉ với một yêu cầu API duy nhất. Bằng cách đơn giản hóa quy trình, API này cho phép các cuộc hội thoại thời gian thực với AI.

Ví dụ, một voice assistant được tích hợp với Realtime API có thể thực hiện các hành động cụ thể, như placing an order hoặc finding information, dựa trên yêu cầu của người dùng. API giúp voice assistant phản hồi nhanh hơn và có khả năng thích nghi nhanh chóng với nhu cầu của người dùng. Realtime API đã có sẵn thông qua bản public beta vào ngày 1 tháng 10 với sáu giọng nói. Vào ngày 30 tháng 10, thêm năm giọng nói nữa đã được bổ sung, nâng tổng số giọng nói khả dụng lên mười một.

Sử dụng Realtime API để luyện tập hội thoại bằng một ngôn ngữ mới

Hình 4. Một ví dụ về việc sử dụng Realtime API để luyện tập hội thoại bằng ngôn ngữ mới.

Link to this sectionTinh chỉnh ChatGPT cho các tác vụ vision#

Ban đầu, model ngôn ngữ vision GPT-4o chỉ có thể được tinh chỉnh và tùy chỉnh bằng cách sử dụng các dataset chỉ toàn văn bản. Giờ đây, với việc phát hành API tinh chỉnh vision, các nhà phát triển có thể huấn luyện và tùy chỉnh GPT-4o bằng các dataset hình ảnh. Kể từ khi ra mắt, tinh chỉnh vision đã trở thành một chủ đề quan trọng được các nhà phát triển và kỹ sư thị giác máy tính (computer vision) quan tâm.

Để tinh chỉnh khả năng vision của GPT-4o, nhà phát triển có thể sử dụng các dataset hình ảnh từ ít nhất 100 ảnh đến tối đa 50.000 ảnh. Sau khi đảm bảo dataset khớp với định dạng yêu cầu của OpenAI, nó có thể được tải lên nền tảng OpenAI và model có thể được tinh chỉnh cho các ứng dụng cụ thể.

Ví dụ, Automat, một công ty tự động hóa, đã sử dụng một tập hợp ảnh chụp màn hình để huấn luyện GPT-4o có thể xác định các thành phần UI trên màn hình dựa trên mô tả. Điều này giúp hợp lý hóa Robotic Process Automation (RPA) bằng cách giúp các bot tương tác với giao diện người dùng dễ dàng hơn. Thay vì dựa vào các tọa độ cố định hoặc các quy tắc chọn lọc phức tạp, model có thể xác định các thành phần UI dựa trên các mô tả đơn giản, giúp các thiết lập tự động hóa dễ thích nghi và dễ bảo trì hơn khi giao diện thay đổi.

Sử dụng một model GPT-4o đã được fine-tune để phát hiện các phần tử UI

Hình 5. Sử dụng phiên bản GPT-4o đã được tinh chỉnh để phát hiện các thành phần UI.

Link to this sectionChatGPT và việc phát hiện sự thiên kiến và công bằng#

Các lo ngại về đạo đức liên quan đến các ứng dụng AI là chủ đề nổi bật trong các cuộc trò chuyện khi AI ngày càng trở nên tiên tiến hơn. Vì các phản hồi của ChatGPT dựa trên các câu lệnh do người dùng cung cấp và dữ liệu có sẵn trên Internet, việc tinh chỉnh ngôn ngữ của nó để luôn có trách nhiệm là một thách thức. Các báo cáo cho thấy câu trả lời của ChatGPT có sự thiên kiến về tên, giới tính và chủng tộc. Để giải quyết vấn đề này, đội ngũ nội bộ của OpenAI đã thực hiện một bài kiểm tra công bằng trực tiếp.

Tên thường mang những tín hiệu tinh tế về văn hóa và các yếu tố địa lý của chúng ta. Trong hầu hết các trường hợp, ChatGPT sẽ bỏ qua các tín hiệu tinh tế trong tên. Tuy nhiên, trong một số trường hợp, các tên phản ánh chủng tộc hoặc văn hóa dẫn đến các phản hồi khác nhau từ ChatGPT, với khoảng 1% trong số đó phản ánh ngôn ngữ có hại. Việc loại bỏ các thiên kiến và ngôn ngữ có hại là một nhiệm vụ đầy thử thách đối với một model ngôn ngữ. Tuy nhiên, bằng cách chia sẻ công khai các phát hiện này và thừa nhận những hạn chế của model, OpenAI giúp người dùng tinh chỉnh câu lệnh của họ để đạt được các câu trả lời trung lập và không thiên vị hơn.

Ví dụ về các phản hồi khác nhau của ChatGPT dựa trên tên người dùng

Hình 6. Một ví dụ về các phản hồi khác nhau do tên người dùng.

Link to this sectionTìm hiểu về tìm kiếm trên ChatGPT#

Khi ChatGPT mới ra mắt, đã có những cuộc thảo luận trong cộng đồng AI về việc liệu nó có thể thay thế trình duyệt web truyền thống hay không. Hiện nay, nhiều người dùng đang sử dụng ChatGPT thay vì Google Search.

Bản cập nhật mới của OpenAI, tính năng Tìm kiếm (Search), đưa điều này đi xa hơn nữa. Với Tìm kiếm, ChatGPT tạo ra các phản hồi cập nhật và bao gồm các liên kết đến các nguồn liên quan. Kể từ ngày 31 tháng 10, tính năng Tìm kiếm đã có sẵn cho tất cả người dùng ChatGPT Plus và Team, làm cho ChatGPT hoạt động giống như một công cụ tìm kiếm được hỗ trợ bởi AI.

Ví dụ về việc sử dụng tính năng Tìm kiếm mới của ChatGPT

Hình 7. Một ví dụ về việc sử dụng tính năng Tìm kiếm mới của ChatGPT.

Link to this sectionHướng tới tương lai#

Các cập nhật gần đây của ChatGPT tập trung vào việc làm cho AI trở nên hữu ích, linh hoạt và công bằng hơn. Tính năng Canvas mới giúp người dùng làm việc hiệu quả hơn, trong khi việc tinh chỉnh vision cho phép các nhà phát triển tùy chỉnh các model để xử lý tốt hơn các tác vụ thị giác. Giải quyết sự công bằng và giảm bớt thiên kiến cũng là những ưu tiên chính, đảm bảo AI hoạt động tốt cho tất cả mọi người, bất kể họ là ai. Cho dù bạn là nhà phát triển đang tinh chỉnh model hay chỉ đang sử dụng các tính năng mới nhất, ChatGPT đang phát triển để đáp ứng nhiều nhu cầu khác nhau. Với khả năng thời gian thực, tích hợp thị giác và sự tập trung vào việc sử dụng có trách nhiệm, các bản cập nhật này đang xây dựng một trải nghiệm AI đáng tin cậy và hiệu quả hơn cho tất cả mọi người.

Khám phá thêm về AI bằng cách truy cập GitHub repository của chúng tôi và tham gia cộng đồng của chúng tôi. Tìm hiểu thêm về các ứng dụng AI trong xe tự lái và chăm sóc sức khỏe.

Explore solutions

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.

Các cập nhật mới nhất từ OpenAI: Canvas, Tinh chỉnh thị giác và hơn thế nữa

Link to this sectionTổng quan về tính năng Canvas của OpenAI#

Link to this sectionCác cập nhật API của ChatGPT#

Link to this sectionChưng cất model (Model distillation)#

Link to this sectionBộ nhớ đệm câu lệnh (Prompt caching)#

Link to this sectionRealtime API#

Link to this sectionTinh chỉnh ChatGPT cho các tác vụ vision#

Link to this sectionChatGPT và việc phát hiện sự thiên kiến và công bằng#

Link to this sectionTìm hiểu về tìm kiếm trên ChatGPT#

Link to this sectionHướng tới tương lai#

Explore solutions

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

Hãy cùng nhau xây dựng tương lai của AI!