Khám phá Stable Diffusion, một mô hình AI tiên tiến giúp tạo ra hình ảnh chân thực từ lời nhắc văn bản, mang đến cuộc cách mạng về khả năng sáng tạo và hiệu quả.
Stable Diffusion là một mô hình AI tạo sinh mã nguồn mở mạnh mẽ và phổ biến được Stability AI phát hành vào năm 2022. Mô hình này chủ yếu được biết đến với khả năng tạo ra hình ảnh chi tiết, chất lượng cao từ các mô tả văn bản đơn giản, một quá trình được gọi là tổng hợp văn bản thành hình ảnh . Là một mô hình khuếch tán tiềm ẩn, nó đại diện cho một bước tiến đáng kể trong việc giúp việc tạo hình ảnh hiệu suất cao dễ tiếp cận hơn với nhiều đối tượng hơn gồm các nhà phát triển, nghệ sĩ và nhà nghiên cứu nhờ tính chất mã nguồn mở và yêu cầu tính toán tương đối khiêm tốn so với các mô hình quy mô lớn khác.
Về cơ bản, Stable Diffusion hoạt động dựa trên nguyên lý khuếch tán. Mô hình được huấn luyện đầu tiên bằng cách lấy một lượng lớn hình ảnh và dần dần thêm "nhiễu" (tĩnh ngẫu nhiên) cho đến khi hình ảnh gốc bị che khuất hoàn toàn. Sau đó, nó học cách đảo ngược quá trình này, bắt đầu từ nhiễu thuần túy và dần dần khử nhiễu từng bước một để tạo ra một hình ảnh mạch lạc khớp với lời nhắc văn bản cho trước.
Điều làm cho Stable Diffusion đặc biệt hiệu quả là nó thực hiện quá trình khuếch tán này trong "không gian tiềm ẩn" có chiều thấp hơn thay vì trong không gian pixel có chiều cao. Cách tiếp cận này, được nêu trong bài nghiên cứu mô hình khuếch tán tiềm ẩn ban đầu, giúp giảm đáng kể sức mạnh tính toán cần thiết cho cả quá trình huấn luyện và suy luận , cho phép mô hình chạy trên GPU cấp độ người dùng. Mô hình sử dụng bộ mã hóa văn bản, chẳng hạn như CLIP , để diễn giải lời nhắc văn bản của người dùng và hướng dẫn quá trình khử nhiễu đến hình ảnh mong muốn.
Mô hình khuếch tán ổn định khác biệt so với các mô hình tạo sinh nổi bật khác nhờ những đặc điểm độc đáo của nó:
Tính linh hoạt và khả năng tiếp cận của Stable Diffusion đã dẫn đến việc áp dụng nó trong nhiều lĩnh vực.
Làm việc với Stable Diffusion được hỗ trợ bởi một hệ sinh thái phong phú các công cụ và thư viện. Các framework như PyTorch đóng vai trò nền tảng cho hoạt động của nó. Thư viện Hugging Face Diffusers đã trở thành một tiêu chuẩn để dễ dàng tải xuống, chạy và thử nghiệm với Stable Diffusion và các mô hình khuếch tán khác. Mặc dù Stable Diffusion nổi trội về khả năng tạo ra dữ liệu, các nền tảng như Ultralytics HUB cung cấp một môi trường toàn diện cho vòng đời học máy rộng hơn, bao gồm quản lý tập dữ liệu và triển khai các mô hình AI phân biệt cho các tác vụ như phân đoạn và phân loại hình ảnh . Sự trỗi dậy của các công cụ tạo dữ liệu mạnh mẽ như vậy cũng đưa ra những thảo luận quan trọng về đạo đức AI , bao gồm tiềm năng tạo ra deepfake và củng cố sự thiên vị thuật toán .