Đón xem YOLO Vision 2025!
25 tháng 9, 2025
10:00 — 18:00 BST
Sự kiện kết hợp
Yolo Vision 2024
Bảng chú giải thuật ngữ

Khuếch Tán Ổn Định

Khám phá Khuếch Tán Ổn Định (Stable Diffusion), một mô hình AI tiên tiến để tạo ra hình ảnh chân thực từ các lời nhắc bằng văn bản, cách mạng hóa khả năng sáng tạo và hiệu quả.

Stable Diffusion là một mô hình AI tạo sinh mã nguồn mở mạnh mẽ và phổ biến được phát hành bởi Stability AI vào năm 2022. Nó chủ yếu được biết đến với khả năng tạo ra hình ảnh chi tiết, chất lượng cao từ các mô tả văn bản đơn giản, một quy trình được gọi là tổng hợp văn bản thành hình ảnh. Là một mô hình khuếch tán tiềm ẩn, nó thể hiện một bước tiến đáng kể trong việc giúp việc tạo hình ảnh hiệu suất cao trở nên dễ tiếp cận hơn với đối tượng các nhà phát triển, nghệ sĩ và nhà nghiên cứu rộng lớn hơn do tính chất mã nguồn mở và các yêu cầu tính toán tương đối khiêm tốn so với các mô hình quy mô lớn khác.

Cách Ổn Định Khuếch Tán (Stable Diffusion) Hoạt Động Như Thế Nào

Về cốt lõi, Stable Diffusion hoạt động dựa trên các nguyên tắc của quy trình khuếch tán. Mô hình trước tiên được đào tạo bằng cách lấy một số lượng lớn hình ảnh và tăng dần "nhiễu" (tĩnh ngẫu nhiên) cho đến khi hình ảnh gốc bị che khuất hoàn toàn. Sau đó, nó học cách đảo ngược quy trình này, bắt đầu từ nhiễu thuần túy và dần dần khử nhiễu từng bước để tạo thành một hình ảnh mạch lạc phù hợp với một lời nhắc văn bản nhất định.

Điều khiến Stable Diffusion đặc biệt hiệu quả là nó thực hiện quy trình khuếch tán này trong một "không gian tiềm ẩn" (latent space) có chiều thấp hơn thay vì trong không gian pixel có chiều cao. Cách tiếp cận này, được trình bày trong bài nghiên cứu mô hình khuếch tán tiềm ẩn ban đầu, giúp giảm đáng kể sức mạnh tính toán cần thiết cho cả huấn luyệnsuy luận, cho phép mô hình chạy trên GPU cấp người dùng. Mô hình sử dụng bộ mã hóa văn bản, chẳng hạn như CLIP, để diễn giải lời nhắc văn bản của người dùng và hướng dẫn quá trình khử nhiễu về phía hình ảnh mong muốn.

Stable Diffusion so với các mô hình tạo sinh khác

Stable Diffusion nổi bật so với các mô hình tạo sinh nổi bật khác thông qua các đặc điểm độc đáo của nó:

  • So với DALL-E và Midjourney: Trong khi các mô hình như DALL-E 3 của OpenAIMidjourney tạo ra kết quả tuyệt vời, chúng là độc quyền và chủ yếu được cung cấp dưới dạng các dịch vụ trả phí. Ưu điểm chính của Stable Diffusion là mã nguồn mở. Điều này cho phép bất kỳ ai tải xuống mô hình, kiểm tra kiến trúc của nó và tinh chỉnh nó trên các tập dữ liệu tùy chỉnh cho các mục đích cụ thể mà không cần xin phép.
  • So với GAN: Mạng Đối Nghịch Tạo Sinh (GAN) là một lớp mô hình tạo sinh khác. Các mô hình khuếch tán như Stable Diffusion thường cung cấp quá trình huấn luyện ổn định hơn và thường vượt trội trong việc tạo ra một loạt các hình ảnh có độ trung thực cao đa dạng hơn. Tuy nhiên, GAN đôi khi có thể nhanh hơn trong việc tạo hình ảnh vì chúng thường chỉ yêu cầu một lần chuyển tiếp.

Các Ứng dụng Thực tế

Tính linh hoạt và khả năng tiếp cận của Stable Diffusion đã dẫn đến việc nó được áp dụng trong nhiều lĩnh vực.

  • Nghệ thuật và Giải trí Sáng tạo: Các nghệ sĩ và nhà thiết kế sử dụng Stable Diffusion cho nghệ thuật ý tưởng, phân cảnh và tạo ra các tài sản trực quan độc đáo. Ví dụ: một nhà phát triển trò chơi có thể tạo ra hàng tá ý tưởng nhân vật hoặc hình nền môi trường trong vài phút, giúp tăng tốc đáng kể quy trình làm việc sáng tạo. Các công cụ như Adobe Firefly đã tích hợp các công nghệ tạo sinh tương tự để tăng cường bộ phần mềm sáng tạo.
  • Tạo dữ liệu tổng hợp (Synthetic Data Generation): Trong thị giác máy tính, dữ liệu huấn luyện chất lượng cao là rất quan trọng. Stable Diffusion có thể tạo ra một lượng lớn dữ liệu tổng hợp thực tế để tăng cường các bộ dữ liệu thế giới thực. Ví dụ: để cải thiện mô hình phát hiện đối tượng như Ultralytics YOLO, các nhà phát triển có thể tạo hình ảnh về các đối tượng trong các điều kiện ánh sáng, hướng và cài đặt khác nhau, cải thiện tính mạnh mẽ và độ chính xác của mô hình, đặc biệt đối với các lớp đối tượng hiếm.

Phát triển và Hệ sinh thái

Làm việc với Stable Diffusion được hỗ trợ bởi một hệ sinh thái phong phú gồm các công cụ và thư viện. Các framework như PyTorch là nền tảng cho hoạt động của nó. Thư viện Hugging Face Diffusers đã trở thành một tiêu chuẩn để dễ dàng tải xuống, chạy và thử nghiệm với Stable Diffusion và các mô hình khuếch tán khác. Mặc dù Stable Diffusion vượt trội trong việc tạo, nhưng các nền tảng như Ultralytics HUB cung cấp một môi trường toàn diện cho vòng đời máy học rộng hơn, bao gồm quản lý tập dữ liệu và triển khai các mô hình AI phân biệt đối xử cho các tác vụ như phân đoạn hình ảnh và phân loại. Sự trỗi dậy của các công cụ tạo sinh mạnh mẽ như vậy cũng đưa ra những cuộc thảo luận quan trọng về đạo đức AI, bao gồm khả năng tạo ra deepfake và củng cố thiên kiến thuật toán.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay
Đã sao chép liên kết vào clipboard