Consistency Models

Khám phá cách các mô hình nhất quán (consistency models) cho phép AI tạo sinh nhanh, chất lượng cao trong một bước duy nhất. Tìm hiểu cách chúng khác biệt với các mô hình khuếch tán (diffusion models) đối với suy luận thời gian thực.

Trí tuệ nhân tạo tạo sinh đã đạt được những bước tiến lớn về độ trung thực của hình ảnh, nhưng tốc độ xử lý thường vẫn là một điểm nghẽn. Consistency models là một họ kiến trúc generative AI tiên tiến được thiết kế để tạo ra dữ liệu chất lượng cao chỉ trong một bước hoặc rất ít bước, bỏ qua các quy trình lấy mẫu tốn kém về mặt tính toán vốn được yêu cầu bởi các probabilistic frameworks trước đây. Được giới thiệu lần đầu trong các machine learning research by OpenAI nền tảng, phương pháp này thiết lập một tiêu chuẩn mới cho việc tổng hợp dữ liệu nhanh chóng.

Thay vì loại bỏ nhiễu dần dần qua hàng trăm bước, các mạng này học một ánh xạ toán học kết nối trực tiếp bất kỳ điểm dữ liệu nhiễu nào trở lại dạng sạch, nguyên bản của nó. Bằng cách giải các ordinary differential equations (ODEs) dọc theo một quỹ đạo nhiễu cụ thể, model đảm bảo rằng tất cả các điểm dọc theo con đường đó đều ánh xạ tới cùng một đầu ra cuối cùng. Đặc tính "nhất quán" (consistency) này cho phép các kỹ sư bỏ qua hoàn toàn các bước trung gian. Lấy cảm hứng từ những đổi mới rộng lớn hơn như Google DeepMind's advancements, các bước đột phá gần đây như Latent Consistency Models (LCMs) đã tối ưu hóa quy trình này hơn nữa. Bằng cách hoạt động trong không gian tiềm ẩn (latent space) được nén, LCMs giảm đáng kể yêu cầu bộ nhớ và tăng tốc các đường ống tạo text-to-image.

Link to this sectionConsistency Models so với Diffusion Models#

Khi so sánh kiến trúc này với Diffusion Models, sự khác biệt chính nằm ở dòng thời gian tạo dữ liệu. Trong khi các framework diffusion truyền thống dựa vào vòng lặp khử nhiễu lặp đi lặp lại dần dần để xây dựng hình ảnh, thì consistency models được thiết kế rõ ràng cho real-time inference. Diffusion mang lại chi tiết đáng kinh ngạc nhưng thường quá chậm đối với các ứng dụng trực tiếp hướng tới người dùng, khiến phương pháp dựa trên consistency mới hơn trở thành lựa chọn ưu tiên khi inference latency thấp là một ràng buộc dự án khắt khe.

Link to this sectionCác ứng dụng trong thực tế#

Khả năng tạo ra các đầu ra có độ trung thực cao ngay lập tức mở ra những khả năng mới trong nhiều ngành công nghiệp có tốc độ phát triển nhanh:

Interactive Media and Video Games: Các nhà phát triển game sử dụng các mạng siêu nhanh này để tạo ra kết cấu (textures) và tài sản hình ảnh động, tức thời, cho phép tạo ra các virtual environments phản hồi nhanh mà không làm chậm engine kết xuất.
Synthetic Data Generation: Trong các lĩnh vực chuyên biệt như medical image analysis, các kỹ sư triển khai các kiến trúc này để tổng hợp nhanh chóng dữ liệu training data đa dạng. Điều này đặc biệt có lợi cho các edge computing hardware bị hạn chế và môi trường edge AI nơi ngân sách tính toán bị giới hạn nghiêm ngặt.

Link to this sectionTốc độ trong Computer Vision hiện đại#

Việc theo đuổi khả năng thực thi có độ trễ thấp không chỉ giới hạn ở generative media; đó là mục tiêu chung trên tất cả các hình thức của computer vision. Ví dụ, Ultralytics YOLO26 được thiết kế hoàn toàn để đạt hiệu suất end-to-end gốc. Bằng cách loại bỏ các điểm nghẽn hậu xử lý, nó cho phép real-time computing cho cả các tác vụ object detection và image segmentation phức tạp. Để tối ưu hóa model optimization rộng hơn, các nhà phát triển có thể dễ dàng quản lý tập dữ liệu, huấn luyện các model nhanh và triển khai chúng bằng cách sử dụng Ultralytics Platform.

Ví dụ mã sau đây minh họa cách thực hiện inference một lần với tốc độ cao bằng cách sử dụng model yolo26n.pt được tối ưu hóa cao, tận dụng khả năng tăng tốc phần cứng thông qua PyTorch để phản ánh nhu cầu hiện đại của ngành về machine learning operations nhanh chóng:

from ultralytics import YOLO

# Load the lightning-fast YOLO26 nano model for low-latency visual tasks
model = YOLO("yolo26n.pt")

# Perform a rapid, single-step prediction on an input image using GPU acceleration
results = model.predict(source="image.jpg", conf=0.5, device="cuda")

Explore solutions

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.

Consistency Models

Link to this sectionConsistency Models so với Diffusion Models#

Link to this sectionCác ứng dụng trong thực tế#

Link to this sectionTốc độ trong Computer Vision hiện đại#

Explore solutions

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

Hãy cùng nhau xây dựng tương lai của AI!