Thuật ngữ

Mô hình khuếch tán

Khám phá cách các mô hình khuếch tán cách mạng hóa AI tạo ra hình ảnh, video và dữ liệu chân thực với độ chi tiết và độ ổn định vô song.

Mô hình khuếch tán là một lớp mô hình sinh sản đã trở thành nền tảng của AI sinh sản hiện đại. Chúng được thiết kế để tạo ra dữ liệu mới, chẳng hạn như hình ảnh hoặc âm thanh, tương tự với dữ liệu chúng được đào tạo. Ý tưởng cốt lõi được lấy cảm hứng từ nhiệt động lực học. Mô hình học cách đảo ngược quy trình thêm nhiễu dần dần vào hình ảnh cho đến khi nó trở thành hình ảnh tĩnh thuần túy. Bằng cách học quy trình "khử nhiễu" này, mô hình có thể bắt đầu với nhiễu ngẫu nhiên và dần dần tinh chỉnh nó thành một mẫu mạch lạc, chất lượng cao. Quy trình tinh chỉnh từng bước này là chìa khóa cho khả năng tạo ra đầu ra có độ chi tiết và chân thực cao.

Mô hình khuếch tán hoạt động như thế nào?

Quá trình đằng sau các mô hình khuếch tán bao gồm hai giai đoạn chính:

  1. Tiến trình Chuyển tiếp (Khuếch tán): Ở giai đoạn này, một hình ảnh rõ nét được làm suy giảm một cách có hệ thống bằng cách thêm một lượng nhỏ nhiễu Gauss qua nhiều bước. Quá trình này tiếp tục cho đến khi hình ảnh không thể phân biệt được với nhiễu thuần túy. Tiến trình chuyển tiếp này là cố định và không liên quan đến bất kỳ quá trình học nào; nó chỉ đơn giản cung cấp một mục tiêu để mô hình học cách đảo ngược.
  2. Quá trình đảo ngược (Khử nhiễu): Đây là nơi quá trình học diễn ra. Một mạng nơ-ron được huấn luyện để lấy một ảnh nhiễu từ quá trình tiến và dự đoán nhiễu đã được thêm vào ở bước trước đó. Bằng cách liên tục trừ nhiễu dự đoán này, mô hình có thể bắt đầu với một ảnh hoàn toàn ngẫu nhiên (nhiễu thuần túy) và dần dần biến đổi nó trở lại thành một ảnh sạch, rõ nét. Quá trình khử nhiễu đã học này cho phép mô hình tạo ra dữ liệu mới từ đầu. Bài báo nền tảng, " Khử nhiễu Mô hình Xác suất Khuếch tán ", đã đặt nền móng cho phương pháp này.

Mô hình khuếch tán so với các mô hình sinh sản khác

Các mô hình khuếch tán khác biệt đáng kể so với các phương pháp tạo sinh phổ biến khác như Mạng đối nghịch tạo sinh (GAN) .

  • Độ ổn định khi huấn luyện: Các mô hình khuếch tán thường có quy trình huấn luyện ổn định hơn so với GAN. GAN liên quan đến một trò chơi đối kháng phức tạp giữa bộ tạo và bộ phân biệt, đôi khi khó cân bằng và có thể không hội tụ.
  • Chất lượng và Độ đa dạng của Mẫu: Mặc dù cả hai đều có thể tạo ra kết quả chất lượng cao, nhưng các mô hình khuếch tán thường vượt trội trong việc tạo ra hình ảnh có độ đa dạng và chân thực cao, đôi khi vượt trội hơn GAN trên một số tiêu chuẩn nhất định. Tuy nhiên, chất lượng này có thể phải trả giá bằng độ trễ suy luận cao hơn.
  • Tốc độ suy luận: Theo truyền thống, các mô hình khuếch tán chậm hơn trong việc tạo mẫu vì chúng đòi hỏi nhiều bước khử nhiễu lặp lại. Ngược lại, GAN có thể tạo mẫu chỉ trong một lần truyền thẳng. Tuy nhiên, các nghiên cứu tích cực và các kỹ thuật như chưng cất tri thức đang nhanh chóng thu hẹp khoảng cách tốc độ này.

Ứng dụng trong thế giới thực

Các mô hình khuếch tán đang thúc đẩy làn sóng sáng tạo và đổi mới mới trên nhiều lĩnh vực:

  • Tạo hình ảnh độ trung thực cao: Đây là ứng dụng nổi tiếng nhất. Các mô hình được phát triển bởi các công ty như Stability AIOpenAI có thể tạo ra những hình ảnh chân thực và nghệ thuật đến kinh ngạc chỉ từ những lời nhắc văn bản đơn giản. Các ví dụ nổi bật bao gồm Stable Diffusion , DALL-E 3 , MidjourneyImagen của Google. Những công cụ này đã thay đổi nghệ thuật kỹ thuật số và sáng tạo nội dung.
  • Chỉnh sửa ảnh và Inpainting: Chúng không chỉ dùng để tạo ảnh từ đầu. Mô hình Diffusion có thể chỉnh sửa ảnh hiện có một cách thông minh dựa trên hướng dẫn, chẳng hạn như thêm hoặc xóa đối tượng, thay đổi phong cách nghệ thuật hoặc điền vào các phần còn thiếu của ảnh (inpainting). Các công cụ như Adobe Firefly tận dụng tối đa những khả năng này.
  • Tổng hợp Âm thanh và Video: Nguyên lý khuếch tán cũng được áp dụng cho các loại dữ liệu khác. Các mô hình như AudioLDM có thể tạo ra giọng nói, nhạc và hiệu ứng âm thanh chân thực, trong khi các mô hình như Sora của OpenAI đang mở rộng ranh giới của việc tạo văn bản thành video .
  • Tăng cường dữ liệu: Trong thị giác máy tính , các mô hình khuếch tán có thể được sử dụng để tạo dữ liệu huấn luyện tổng hợp. Điều này đặc biệt hữu ích để cải thiện độ tin cậy của các mô hình như Ultralytics YOLO cho các tác vụ như phát hiện đối tượng hoặc phân đoạn hình ảnh , đặc biệt là khi dữ liệu thực tế khan hiếm.

Công cụ và phát triển

Việc phát triển và sử dụng các mô hình khuếch tán thường liên quan đến các khuôn khổ học máy như PyTorchTensorFlow . Để việc phát triển dễ dàng hơn, các thư viện như thư viện Hugging Face Diffusers cung cấp các mô hình và công cụ được đào tạo sẵn. Mặc dù các công cụ này tập trung vào chính mô hình sinh, các nền tảng như Ultralytics HUB có thể giúp quản lý quy trình làm việc rộng hơn, bao gồm quản lý và triển khai tập dữ liệu, bổ sung cho việc phát triển các giải pháp AI toàn diện. Khi các mô hình này trở nên phổ biến hơn, việc xem xét đạo đức AI và giải quyết các thách thức như thiên kiến thuật toán là rất quan trọng.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, cộng tác và phát triển với những nhà đổi mới toàn cầu

Tham gia ngay
Liên kết đã được sao chép vào clipboard