Khám phá Khuếch Tán Ổn Định (Stable Diffusion), một mô hình AI tiên tiến để tạo ra hình ảnh chân thực từ các lời nhắc bằng văn bản, cách mạng hóa khả năng sáng tạo và hiệu quả.
Stable Diffusion là một mô hình AI tạo sinh mã nguồn mở mạnh mẽ và phổ biến được phát hành bởi Stability AI vào năm 2022. Nó chủ yếu được biết đến với khả năng tạo ra hình ảnh chi tiết, chất lượng cao từ các mô tả văn bản đơn giản, một quy trình được gọi là tổng hợp văn bản thành hình ảnh. Là một mô hình khuếch tán tiềm ẩn, nó thể hiện một bước tiến đáng kể trong việc giúp việc tạo hình ảnh hiệu suất cao trở nên dễ tiếp cận hơn với đối tượng các nhà phát triển, nghệ sĩ và nhà nghiên cứu rộng lớn hơn do tính chất mã nguồn mở và các yêu cầu tính toán tương đối khiêm tốn so với các mô hình quy mô lớn khác.
Về cốt lõi, Stable Diffusion hoạt động dựa trên các nguyên tắc của quy trình khuếch tán. Mô hình trước tiên được đào tạo bằng cách lấy một số lượng lớn hình ảnh và tăng dần "nhiễu" (tĩnh ngẫu nhiên) cho đến khi hình ảnh gốc bị che khuất hoàn toàn. Sau đó, nó học cách đảo ngược quy trình này, bắt đầu từ nhiễu thuần túy và dần dần khử nhiễu từng bước để tạo thành một hình ảnh mạch lạc phù hợp với một lời nhắc văn bản nhất định.
Điều khiến Stable Diffusion đặc biệt hiệu quả là nó thực hiện quy trình khuếch tán này trong một "không gian tiềm ẩn" (latent space) có chiều thấp hơn thay vì trong không gian pixel có chiều cao. Cách tiếp cận này, được trình bày trong bài nghiên cứu mô hình khuếch tán tiềm ẩn ban đầu, giúp giảm đáng kể sức mạnh tính toán cần thiết cho cả huấn luyện và suy luận, cho phép mô hình chạy trên GPU cấp người dùng. Mô hình sử dụng bộ mã hóa văn bản, chẳng hạn như CLIP, để diễn giải lời nhắc văn bản của người dùng và hướng dẫn quá trình khử nhiễu về phía hình ảnh mong muốn.
Stable Diffusion nổi bật so với các mô hình tạo sinh nổi bật khác thông qua các đặc điểm độc đáo của nó:
Tính linh hoạt và khả năng tiếp cận của Stable Diffusion đã dẫn đến việc nó được áp dụng trong nhiều lĩnh vực.
Làm việc với Stable Diffusion được hỗ trợ bởi một hệ sinh thái phong phú gồm các công cụ và thư viện. Các framework như PyTorch là nền tảng cho hoạt động của nó. Thư viện Hugging Face Diffusers đã trở thành một tiêu chuẩn để dễ dàng tải xuống, chạy và thử nghiệm với Stable Diffusion và các mô hình khuếch tán khác. Mặc dù Stable Diffusion vượt trội trong việc tạo, nhưng các nền tảng như Ultralytics HUB cung cấp một môi trường toàn diện cho vòng đời máy học rộng hơn, bao gồm quản lý tập dữ liệu và triển khai các mô hình AI phân biệt đối xử cho các tác vụ như phân đoạn hình ảnh và phân loại. Sự trỗi dậy của các công cụ tạo sinh mạnh mẽ như vậy cũng đưa ra những cuộc thảo luận quan trọng về đạo đức AI, bao gồm khả năng tạo ra deepfake và củng cố thiên kiến thuật toán.