Đón xem YOLO Vision 2025!
25 tháng 9, 2025
10:00 — 18:00 BST
Sự kiện kết hợp
Yolo Vision 2024
Bảng chú giải thuật ngữ

Mô hình khuếch tán

Khám phá cách các mô hình khuếch tán cách mạng hóa AI tạo sinh bằng cách tạo ra hình ảnh, video và dữ liệu thực tế với chi tiết và độ ổn định tuyệt vời.

Mô hình khuếch tán là một lớp mô hình tạo sinh đã trở thành nền tảng của AI tạo sinh hiện đại. Chúng được thiết kế để tạo ra dữ liệu mới, chẳng hạn như hình ảnh hoặc âm thanh, tương tự như dữ liệu mà chúng được huấn luyện. Ý tưởng cốt lõi được lấy cảm hứng từ nhiệt động lực học. Mô hình học cách đảo ngược quá trình tăng dần nhiễu vào hình ảnh cho đến khi nó trở thành tĩnh hoàn toàn. Bằng cách học quá trình "khử nhiễu" này, mô hình có thể bắt đầu với nhiễu ngẫu nhiên và dần dần tinh chỉnh nó thành một mẫu mạch lạc, chất lượng cao. Quá trình tinh chỉnh từng bước này là chìa khóa cho khả năng tạo ra các đầu ra chi tiết và chân thực của chúng.

Cách thức hoạt động của Mô hình khuếch tán?

Quy trình đằng sau mô hình khuếch tán bao gồm hai giai đoạn chính:

  1. Quá trình tiến (Khuếch tán): Trong giai đoạn này, một hình ảnh rõ nét bị suy giảm một cách có hệ thống bằng cách thêm một lượng nhỏ nhiễu Gaussian qua nhiều bước. Quá trình này tiếp tục cho đến khi hình ảnh không thể phân biệt được với nhiễu thuần túy. Quá trình tiến này được cố định và không liên quan đến bất kỳ quá trình học tập nào; nó chỉ đơn giản cung cấp một mục tiêu để mô hình học cách đảo ngược.
  2. Quy trình đảo ngược (Khử nhiễu): Đây là nơi quá trình học diễn ra. Một mạng nơ-ron được huấn luyện để lấy một hình ảnh nhiễu từ quy trình chuyển tiếp và dự đoán nhiễu đã được thêm vào ở bước trước. Bằng cách liên tục trừ đi nhiễu được dự đoán này, mô hình có thể bắt đầu với một hình ảnh hoàn toàn ngẫu nhiên (nhiễu thuần túy) và dần dần biến nó trở lại thành một hình ảnh rõ ràng, sạch sẽ. Quá trình khử nhiễu đã học này là thứ cho phép mô hình tạo dữ liệu mới từ đầu. Bài báo nền tảng, "Mô hình xác suất khuếch tán khử nhiễu," đã đặt nền móng cho phương pháp này.

So sánh Mô hình khuếch tán với các Mô hình sinh khác

Các mô hình khuếch tán khác biệt đáng kể so với các phương pháp sinh phổ biến khác như Mạng đối nghịch sinh (GANs).

  • Tính ổn định khi huấn luyện: Các mô hình khuếch tán (Diffusion models) thường có quy trình huấn luyện ổn định hơn so với GAN. GAN liên quan đến một trò chơi đối kháng phức tạp giữa một trình tạo và một trình phân biệt, đôi khi có thể khó cân bằng và có thể không hội tụ.
  • Chất lượng và Tính đa dạng của Mẫu: Mặc dù cả hai đều có thể tạo ra kết quả chất lượng cao, nhưng các mô hình khuếch tán thường vượt trội trong việc tạo ra hình ảnh đa dạng và chân thực như ảnh chụp, đôi khi vượt trội hơn GAN trên một số tiêu chuẩn nhất định. Tuy nhiên, chất lượng này có thể phải trả giá bằng độ trễ suy luận (inference latency) cao hơn.
  • Tốc độ suy luận: Theo truyền thống, các mô hình khuếch tán chậm hơn trong việc tạo mẫu vì chúng yêu cầu nhiều bước khử nhiễu lặp đi lặp lại. Ngược lại, GAN có thể tạo một mẫu trong một lần chuyển tiếp duy nhất. Tuy nhiên, các nghiên cứu và kỹ thuật tích cực như chưng cất kiến thức đang nhanh chóng thu hẹp khoảng cách tốc độ này.

Các Ứng dụng Thực tế

Các mô hình khuếch tán (Diffusion models) đang thúc đẩy một làn sóng sáng tạo và đổi mới mới trong nhiều lĩnh vực:

  • Tạo ảnh có độ trung thực cao: Đây là ứng dụng nổi tiếng nhất. Các mô hình được phát triển bởi các công ty như Stability AIOpenAI có thể tạo ra những hình ảnh nghệ thuật và chân thực đến kinh ngạc từ các lời nhắc văn bản đơn giản. Các ví dụ nổi bật bao gồm Stable Diffusion, DALL-E 3, MidjourneyImagen của Google. Những công cụ này đã thay đổi nghệ thuật kỹ thuật số và sáng tạo nội dung.
  • Chỉnh sửa và Vẽ lại Ảnh: Chúng không chỉ để tạo hình ảnh từ đầu. Các mô hình khuếch tán có thể sửa đổi một cách thông minh các hình ảnh hiện có dựa trên hướng dẫn, chẳng hạn như thêm hoặc xóa đối tượng, thay đổi phong cách nghệ thuật hoặc điền vào các phần bị thiếu của ảnh (vẽ lại). Các công cụ như Adobe Firefly tận dụng những khả năng này.
  • Tổng hợp âm thanh và video: Các nguyên tắc khuếch tán cũng được áp dụng cho các loại dữ liệu khác. Các mô hình như AudioLDM có thể tạo ra giọng nói, âm nhạc và hiệu ứng âm thanh chân thực, trong khi các mô hình như Sora của OpenAI đang đẩy lùi các ranh giới của tạo văn bản thành video.
  • Tăng cường dữ liệu: Trong thị giác máy tính, các mô hình khuếch tán có thể được sử dụng để tạo dữ liệu huấn luyện tổng hợp. Điều này đặc biệt hữu ích để cải thiện tính mạnh mẽ của các mô hình như Ultralytics YOLO cho các tác vụ như phát hiện đối tượng hoặc phân đoạn hình ảnh, đặc biệt khi dữ liệu thực tế khan hiếm.

Công Cụ và Phát Triển

Việc phát triển và sử dụng các mô hình khuếch tán thường liên quan đến các framework máy học như PyTorchTensorFlow. Để giúp việc phát triển dễ dàng hơn, các thư viện như thư viện Hugging Face Diffusers cung cấp các mô hình và công cụ được huấn luyện trước. Mặc dù các công cụ này tập trung vào chính mô hình tạo sinh, nhưng các nền tảng như Ultralytics HUB có thể giúp quản lý quy trình làm việc rộng hơn, bao gồm quản lý và triển khai bộ dữ liệu, bổ sung cho việc phát triển các giải pháp AI toàn diện. Khi các mô hình này trở nên phổ biến hơn, điều quan trọng là phải xem xét đạo đức AI và giải quyết các thách thức như thiên kiến thuật toán.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay
Đã sao chép liên kết vào clipboard