Thuật ngữ

Chuyển giao phong cách thần kinh

Khám phá sức mạnh của Neural Style Transfer! Kết hợp nội dung và phong cách nghệ thuật với AI để tạo ra hình ảnh tuyệt đẹp cho nghệ thuật, thiết kế, v.v.

Chuyển đổi Phong cách Nơ-ron (NST) là một kỹ thuật thị giác máy tính (CV) sáng tạo và mạnh mẽ, sử dụng các thuật toán học sâu để hợp nhất hai hình ảnh: một hình ảnh "nội dung" và một hình ảnh tham chiếu "phong cách". Kết quả là một hình ảnh mới giữ nguyên các đối tượng cốt lõi và cấu trúc của hình ảnh nội dung nhưng được hiển thị theo phong cách nghệ thuật của hình ảnh phong cách. Kỹ thuật này tận dụng khả năng của Mạng Nơ-ron Tích chập (CNN) để tách và kết hợp lại các yếu tố nội dung và phong cách của hình ảnh, "tô vẽ" một hình ảnh bằng tính thẩm mỹ của hình ảnh khác.

Chuyển giao phong cách thần kinh hoạt động như thế nào

Điều kỳ diệu đằng sau Neural Style Transfer nằm ở cách CNN xử lý thông tin thị giác. Một mạng lưới được đào tạo trước, chẳng hạn như VGG-19, được đào tạo trên một tập dữ liệu ImageNet khổng lồ, đã học cách nhận dạng một hệ thống phân cấp các đặc điểm phong phú. Các lớp thấp hơn của mạng phát hiện các đặc điểm đơn giản như cạnh và màu sắc, trong khi các lớp cao hơn xác định các cấu trúc phức tạp hơn như hình dạng và vật thể.

NST khai thác quy trình trích xuất đặc điểm phân cấp này. Ý tưởng cốt lõi, lần đầu tiên được giới thiệu trong bài báo "Thuật toán thần kinh về phong cách nghệ thuật" , bao gồm hai thành phần chính:

  1. Biểu diễn Nội dung: Để nắm bắt nội dung của hình ảnh, các kích hoạt từ các lớp trên của CNN được sử dụng. Các lớp này hiểu được sự sắp xếp cấp cao và các đối tượng bên trong hình ảnh, cung cấp một bản thiết kế "nội dung".
  2. Biểu diễn Phong cách: Để nắm bắt phong cách, mối tương quan giữa các phản hồi đặc trưng trong nhiều lớp được phân tích. Điều này ghi lại kết cấu, mẫu màu và nét vẽ nghệ thuật mà không bị ràng buộc bởi cách sắp xếp cụ thể của các đối tượng.

Sau đó, quy trình này sẽ tối ưu hóa lặp lại một hình ảnh mới, ban đầu ngẫu nhiên, để đồng thời khớp nội dung của hình ảnh và phong cách của hình ảnh. Điều này đạt được bằng cách giảm thiểu hàm mất mát tổng hợp, đóng vai trò định hướng cho quá trình tối ưu hóa. Việc triển khai các mô hình như vậy thường được thực hiện bằng các nền tảng phổ biến như PyTorchTensorFlow .

Ứng dụng và trường hợp sử dụng

Trong khi NST được biết đến rộng rãi với khả năng tạo ra hình ảnh nghệ thuật, ứng dụng của nó còn mở rộng sang nhiều lĩnh vực thương mại và sáng tạo khác.

  • Tạo Nội dung Sáng tạo: Ứng dụng nổi tiếng nhất là các ứng dụng di động như Prisma , cho phép người dùng biến ảnh của họ thành các tác phẩm nghệ thuật giống như tranh vẽ nổi tiếng. Tính năng này cũng được các nghệ sĩ và nhà thiết kế sử dụng để nhanh chóng tạo nguyên mẫu cho các phong cách hình ảnh.
  • Giải trí và Truyền thông: Trong làm phim và trò chơi điện tử, NST có thể được sử dụng để áp dụng một phong cách hình ảnh nhất quán cho các cảnh khác nhau hoặc tạo hiệu ứng hình ảnh độc đáo. Nó cho phép cách điệu video theo từng khung hình, một quá trình có thể được tìm hiểu chi tiết hơn trong các hướng dẫn như hướng dẫn PyTorch về Chuyển đổi Phong cách Thần kinh này.
  • Tăng cường Dữ liệu: Trong học máy (ML) , NST có thể được sử dụng như một hình thức tăng cường dữ liệu . Bằng cách áp dụng nhiều kiểu khác nhau vào tập dữ liệu huấn luyện , các nhà phát triển có thể tạo ra một mô hình mạnh mẽ hơn, ít bị ảnh hưởng bởi các biến thể kiểu, cải thiện khả năng khái quát hóa của mô hình trên dữ liệu chưa được biết đến. Điều này đặc biệt hữu ích khi huấn luyện các mô hình cho các tác vụ như phát hiện đối tượng hoặc phân đoạn ảnh .

Sự khác biệt với các kỹ thuật tạo sinh khác

Điều quan trọng là phải phân biệt Neural Style Transfer với các phương pháp AI tạo sinh phổ biến khác.

  • Mạng Đối kháng Sinh sinh (GAN): GAN tạo ra hình ảnh mới từ đầu bằng cách học phân phối dữ liệu cơ bản của tập dữ liệu huấn luyện. Ngược lại, NST không tạo ra nội dung mới mà chỉ tái tạo nội dung và phong cách hiện có từ các hình ảnh đầu vào cụ thể. GAN có khả năng tạo ra khuôn mặt chân thực như ảnh của những người không tồn tại, một nhiệm vụ vượt quá phạm vi của NST truyền thống.
  • Mô hình Văn bản sang Hình ảnh: Các mô hình như Stable Diffusion và DALL-E tạo ra hình ảnh dựa trên lời nhắc văn bản. Mặt khác, NST yêu cầu hai hình ảnh (nội dung và phong cách) làm đầu vào. Sự giao thoa hiện đại của hai lĩnh vực này có thể được thấy trong các mô hình đa phương thức có thể hiểu cả văn bản và hình ảnh.
  • Dịch chuyển hình ảnh sang hình ảnh: Đây là một phạm trù rộng hơn, thường được hỗ trợ bởi GAN (như Pix2Pix hoặc CycleGAN), giúp học cách ánh xạ từ hình ảnh đầu vào sang hình ảnh đầu ra (ví dụ: chuyển đổi ảnh vệ tinh thành bản đồ). Mặc dù NST là một dạng dịch chuyển hình ảnh sang hình ảnh, nhưng nó tập trung cụ thể vào việc tách và chuyển giao nội dung và phong cách, trong khi các phương pháp khác có thể học các phép biến đổi phức tạp hơn.

Việc hiểu các nguyên tắc trích xuất đặc điểm trong các mô hình thị giác hiện đại, chẳng hạn như Ultralytics YOLO11 , có thể cung cấp cái nhìn sâu sắc về cách các kỹ thuật này phân biệt giữa bản chất của đối tượng (nội dung) và cách nó xuất hiện (phong cách). Các nền tảng như Ultralytics HUB giúp đơn giản hóa quy trình đào tạo các mô hình tùy chỉnh có thể được sử dụng cho nhiều tác vụ thị giác khác nhau.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, cộng tác và phát triển với những nhà đổi mới toàn cầu

Tham gia ngay
Liên kết đã được sao chép vào clipboard