Thuật ngữ

Sự khuếch tán ổn định

Khám phá Stable Diffusion, một mô hình AI tiên tiến giúp tạo ra hình ảnh chân thực từ lời nhắc văn bản, mang đến cuộc cách mạng về khả năng sáng tạo và hiệu quả.

Stable Diffusion là một mô hình AI tạo sinh mã nguồn mở mạnh mẽ và phổ biến được Stability AI phát hành vào năm 2022. Mô hình này chủ yếu được biết đến với khả năng tạo ra hình ảnh chi tiết, chất lượng cao từ các mô tả văn bản đơn giản, một quá trình được gọi là tổng hợp văn bản thành hình ảnh . Là một mô hình khuếch tán tiềm ẩn, nó đại diện cho một bước tiến đáng kể trong việc giúp việc tạo hình ảnh hiệu suất cao dễ tiếp cận hơn với nhiều đối tượng hơn gồm các nhà phát triển, nghệ sĩ và nhà nghiên cứu nhờ tính chất mã nguồn mở và yêu cầu tính toán tương đối khiêm tốn so với các mô hình quy mô lớn khác.

Sự khuếch tán ổn định hoạt động như thế nào

Về cơ bản, Stable Diffusion hoạt động dựa trên nguyên lý khuếch tán. Mô hình được huấn luyện đầu tiên bằng cách lấy một lượng lớn hình ảnh và dần dần thêm "nhiễu" (tĩnh ngẫu nhiên) cho đến khi hình ảnh gốc bị che khuất hoàn toàn. Sau đó, nó học cách đảo ngược quá trình này, bắt đầu từ nhiễu thuần túy và dần dần khử nhiễu từng bước một để tạo ra một hình ảnh mạch lạc khớp với lời nhắc văn bản cho trước.

Điều làm cho Stable Diffusion đặc biệt hiệu quả là nó thực hiện quá trình khuếch tán này trong "không gian tiềm ẩn" có chiều thấp hơn thay vì trong không gian pixel có chiều cao. Cách tiếp cận này, được nêu trong bài nghiên cứu mô hình khuếch tán tiềm ẩn ban đầu, giúp giảm đáng kể sức mạnh tính toán cần thiết cho cả quá trình huấn luyệnsuy luận , cho phép mô hình chạy trên GPU cấp độ người dùng. Mô hình sử dụng bộ mã hóa văn bản, chẳng hạn như CLIP , để diễn giải lời nhắc văn bản của người dùng và hướng dẫn quá trình khử nhiễu đến hình ảnh mong muốn.

Mô hình khuếch tán ổn định so với các mô hình sinh sản khác

Mô hình khuếch tán ổn định khác biệt so với các mô hình tạo sinh nổi bật khác nhờ những đặc điểm độc đáo của nó:

  • So với DALL-E và Midjourney: Mặc dù các mô hình như DALL-E 3 và Midjourney của OpenAI mang lại kết quả ấn tượng, chúng vẫn là độc quyền và chủ yếu được cung cấp dưới dạng dịch vụ trả phí. Ưu điểm chính của Stable Diffusion là mã nguồn mở. Điều này cho phép bất kỳ ai cũng có thể tải xuống mô hình, kiểm tra kiến trúc của nó và tinh chỉnh nó trên các tập dữ liệu tùy chỉnh cho các mục đích cụ thể mà không cần xin phép.
  • So với GAN: Mạng đối kháng tạo sinh (GAN) là một lớp mô hình tạo sinh khác. Các mô hình khuếch tán như Stable Diffusion thường cung cấp khả năng huấn luyện ổn định hơn và thường vượt trội trong việc tạo ra nhiều hình ảnh có độ trung thực cao hơn. Tuy nhiên, GAN đôi khi có thể tạo hình ảnh nhanh hơn vì chúng thường chỉ cần một lần truyền thẳng.

Ứng dụng trong thế giới thực

Tính linh hoạt và khả năng tiếp cận của Stable Diffusion đã dẫn đến việc áp dụng nó trong nhiều lĩnh vực.

  • Nghệ thuật Sáng tạo và Giải trí: Các nghệ sĩ và nhà thiết kế sử dụng Stable Diffusion cho nghệ thuật ý tưởng, kịch bản phân cảnh và tạo ra các nội dung hình ảnh độc đáo. Ví dụ: một nhà phát triển trò chơi có thể tạo ra hàng chục ý tưởng nhân vật hoặc bối cảnh môi trường chỉ trong vài phút, giúp tăng tốc đáng kể quy trình sáng tạo. Các công cụ như Adobe Firefly đã tích hợp các công nghệ tạo hình tương tự để nâng cao hiệu suất của các bộ phần mềm sáng tạo.
  • Tạo Dữ liệu Tổng hợp: Trong thị giác máy tính , dữ liệu huấn luyện chất lượng cao là vô cùng quan trọng. Stable Diffusion có thể tạo ra một lượng lớn dữ liệu tổng hợp chân thực để bổ sung cho các tập dữ liệu thực tế. Ví dụ: để cải thiện mô hình phát hiện đối tượng như Ultralytics YOLO , các nhà phát triển có thể tạo ra hình ảnh của các đối tượng trong nhiều điều kiện ánh sáng, hướng và bối cảnh khác nhau, cải thiện độ mạnh mẽ và độ chính xác của mô hình, đặc biệt là đối với các lớp đối tượng hiếm.

Phát triển và Hệ sinh thái

Làm việc với Stable Diffusion được hỗ trợ bởi một hệ sinh thái phong phú các công cụ và thư viện. Các framework như PyTorch đóng vai trò nền tảng cho hoạt động của nó. Thư viện Hugging Face Diffusers đã trở thành một tiêu chuẩn để dễ dàng tải xuống, chạy và thử nghiệm với Stable Diffusion và các mô hình khuếch tán khác. Mặc dù Stable Diffusion nổi trội về khả năng tạo ra dữ liệu, các nền tảng như Ultralytics HUB cung cấp một môi trường toàn diện cho vòng đời học máy rộng hơn, bao gồm quản lý tập dữ liệu và triển khai các mô hình AI phân biệt cho các tác vụ như phân đoạn và phân loại hình ảnh . Sự trỗi dậy của các công cụ tạo dữ liệu mạnh mẽ như vậy cũng đưa ra những thảo luận quan trọng về đạo đức AI , bao gồm tiềm năng tạo ra deepfake và củng cố sự thiên vị thuật toán .

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, cộng tác và phát triển với những nhà đổi mới toàn cầu

Tham gia ngay
Liên kết đã được sao chép vào clipboard