Bảng chú giải thuật ngữ

Deepfakes

Khám phá công nghệ đằng sau deepfake, từ GAN đến autoencoder. Tìm hiểu cách thức hoạt động. Ultralytics YOLO26 hỗ trợ phát hiện thời gian thực các nội dung đa phương tiện giả mạo và vấn đề đạo đức của trí tuệ nhân tạo.

Deepfakes là một loại hình truyền thông tổng hợp tinh vi, trong đó hình ảnh của một người, bao gồm khuôn mặt, giọng nói và biểu cảm, được thay thế một cách thuyết phục bằng hình ảnh của một cá nhân khác. Công nghệ này tận dụng các thuật toán học sâu (deep learning - DL) tiên tiến để phân tích và tái tạo dữ liệu hình ảnh và âm thanh với độ chính xác cao. Mặc dù thường được liên kết với các video lan truyền trên internet hoặc giải trí, nhưng cơ chế cơ bản của nó đại diện cho một cột mốc quan trọng trong trí tuệ nhân tạo tạo sinh (generative AI) , chứng minh khả năng của mạng lưới thần kinh trong việc hiểu và thao tác các đặc điểm sinh học phức tạp. Bản thân thuật ngữ này là sự kết hợp của "deep learning" (học sâu) và "fake" (giả mạo).

Công nghệ đằng sau Deepfakes

Việc tạo ra deepfake chủ yếu dựa trên một kiến trúc cụ thể được gọi là Mạng Đối kháng Tạo sinh (GAN) . Một GAN bao gồm hai mạng nơ-ron cạnh tranh: một bộ tạo và một bộ phân biệt. Bộ tạo tạo ra nội dung giả mạo, trong khi bộ phân biệt đánh giá nó so với dữ liệu thực, cố gắng phát hiện ra sự giả mạo. Thông qua quá trình đối kháng này, mô hình được cải thiện lặp đi lặp lại cho đến khi phương tiện được tạo ra trở nên không thể phân biệt được với thực tế đối với bộ phân biệt.

Một phương pháp phổ biến khác liên quan đến bộ mã hóa tự động (autoencoder) , được sử dụng để nén các đặc điểm khuôn mặt vào không gian tiềm ẩn có chiều thấp hơn và sau đó tái tạo chúng. Bằng cách huấn luyện hai bộ mã hóa tự động trên các khuôn mặt khác nhau nhưng hoán đổi phần giải mã của mạng, hệ thống có thể tái tạo khuôn mặt của một cá nhân nguồn lên chuyển động của mục tiêu. Trước khi bất kỳ sự hoán đổi nào xảy ra, hệ thống phải xác định chính xác khuôn mặt trong video nguồn. Bước tiền xử lý này thường sử dụng các mô hình phát hiện đối tượng thời gian thực như Ultralytics YOLO26 để định vị và track Khuôn mặt của đối tượng được tái hiện với độ chính xác cao.

Các Ứng dụng Thực tế

Mặc dù deepfake thường được thảo luận trong bối cảnh thông tin sai lệch, chúng lại có những ứng dụng mang tính đột phá trong các ngành công nghiệp hợp pháp, từ nghệ thuật sáng tạo đến nghiên cứu y học.

Phim và Hiệu ứng hình ảnh: Các hãng phim lớn sử dụng công nghệ deepfake cho hiệu ứng hình ảnh (VFX) để làm trẻ hóa diễn viên hoặc tái tạo hình ảnh của các nghệ sĩ đã qua đời. Ví dụ, Disney Research đã phát triển các thuật toán hoán đổi khuôn mặt độ phân giải cao giúp đơn giản hóa quy trình hậu kỳ, giảm nhu cầu sử dụng CGI thủ công tốn kém.
Quyền riêng tư và ẩn danh: Trong báo chí điều tra hoặc làm phim tài liệu, deepfake có thể bảo vệ danh tính của nguồn tin. Thay vì chỉ làm mờ khuôn mặt, điều này có thể làm mất đi tính người của chủ thể, các nhà làm phim có thể phủ lên một khuôn mặt nhân tạo, không tồn tại, giữ nguyên biểu cảm khuôn mặt và sắc thái cảm xúc ban đầu, đồng thời che giấu hoàn toàn danh tính thực sự của cá nhân.
Tạo dữ liệu tổng hợp: Kỹ thuật deepfake được sử dụng để tạo ra nhiều dữ liệu tổng hợp đa dạng phục vụ cho việc đào tạo các mô hình học máy. Điều này đặc biệt hữu ích trong lĩnh vực AI chăm sóc sức khỏe , nơi các quy định nghiêm ngặt về quyền riêng tư dữ liệu (như HIPAA) hạn chế việc sử dụng hình ảnh bệnh nhân thật.
Tiếp thị cá nhân hóa: Các công ty đang khám phá các nền tảng video tạo sinh để tạo ra các thông điệp video cá nhân hóa trên quy mô lớn, cho phép các thương hiệu tương tác với khách hàng bằng nội dung dường như được một người phát ngôn trực tiếp nói với họ bằng nhiều ngôn ngữ.

Ví dụ triển khai

Để tạo deepfake hoặc thực hiện hoán đổi khuôn mặt, bước kỹ thuật đầu tiên luôn là phát hiện khuôn mặt hoặc người trong khung hình video để xác định vùng quan tâm. Các bước tiếp theo Python Đoạn mã này minh họa cách khởi tạo quá trình phát hiện này bằng cách sử dụng... ultralytics thư viện.

from ultralytics import YOLO

# Load the official YOLO26 model (latest generation) for object detection
model = YOLO("yolo26n.pt")

# Run inference to locate persons (class 0) in an image
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Output the detected bounding boxes for further processing
for result in results:
    print(f"Detected {len(result.boxes)} objects in the frame.")

Những cân nhắc về đạo đức và phát hiện

Sự gia tăng của deepfake đặt ra những câu hỏi quan trọng về đạo đức AI . Khả năng bị lạm dụng để phát tán thông tin sai lệch chính trị hoặc tạo ra nội dung khiêu dâm không được sự đồng thuận đã dẫn đến nhu cầu về các hệ thống phát hiện mạnh mẽ. Các nhà nghiên cứu đang phát triển các biện pháp đối phó, phân tích các dấu hiệu bảo mật sinh trắc học , chẳng hạn như các kiểu chớp mắt bất thường hoặc phát hiện nhịp tim từ các biến thể màu da tinh tế, để xác định nội dung bị thao túng.

Các tổ chức như Deepfake Detection Challenge đã thúc đẩy sự đổi mới trong các thuật toán pháp y. Khi các mô hình tạo ra nội dung giả mạo trở nên hiệu quả hơn—dự đoán các kiến trúc tương lai như YOLO26 hướng đến xử lý thời gian thực, từ đầu đến cuối—các công cụ phát hiện cũng phải phát triển song song. Các giải pháp thường liên quan đến việc giám sát mô hình để track Hiệu suất của các thuật toán phát hiện so với các kỹ thuật thế hệ mới. Các công cụ có sẵn trên Nền tảng Ultralytics có thể hỗ trợ các nhóm quản lý tập dữ liệu để huấn luyện các mô hình phòng thủ này.

Deepfake so với các khái niệm liên quan

Điều quan trọng là phải phân biệt deepfake với các thuật ngữ tương tự trong lĩnh vực trí tuệ nhân tạo để hiểu rõ vai trò cụ thể của chúng:

Deepfake so với Dữ liệu Tổng hợp: Mặc dù deepfake là một loại phương tiện tổng hợp, nhưng dữ liệu tổng hợp lại là một phạm trù rộng hơn. Dữ liệu tổng hợp bao gồm bất kỳ dữ liệu nào được tạo ra một cách nhân tạo, chẳng hạn như các tình huống lái xe mô phỏng cho xe tự hành , và không nhất thiết phải thay thế một danh tính người cụ thể.
Deepfake so với CGI: Hình ảnh do máy tính tạo ra (CGI) thường liên quan đến việc mô hình hóa và hoạt hình hóa thủ công các vật thể hoặc nhân vật 3D. Deepfake khác biệt ở chỗ chúng được tạo tự động bởi một mạng nơ-ron học từ một tập dữ liệu, thay vì được mô hình hóa rõ ràng bởi một nghệ sĩ.
Deepfakes so với biến đổi khuôn mặt truyền thống: Biến đổi khuôn mặt truyền thống chỉ là phép nội suy hình học đơn giản giữa hai hình ảnh. Deepfakes sử dụng kỹ thuật trích xuất đặc điểm để hiểu cấu trúc cơ bản của khuôn mặt, cho phép chuyển động và xoay linh hoạt mà phương pháp biến đổi đơn giản không thể thực hiện được.

Deepfakes

Xe lửa Ultralytics YOLO các mô hình để hợp lý hóa quy trình làm việc trên khắp các ngành công nghiệp

Giải pháp cấp phép doanh nghiệp linh hoạt để thúc đẩy sự đổi mới của bạn

Đào tạo các mô hình AI trong vài giây với Ultralytics YOLO

Công nghệ đằng sau Deepfakes

Các Ứng dụng Thực tế

Ví dụ triển khai

Những cân nhắc về đạo đức và phát hiện

Deepfake so với các khái niệm liên quan

Đọc thêm trong danh mục này

12 trường hợp sử dụng ảnh chụp từ trên không được hỗ trợ bởi thị giác máy tính

Ước lượng độ sâu đơn ảnh là gì? Tổng quan

Một cái nhìn về việc sử dụng Ultralytics YOLO các mô hình để phát hiện mối đe dọa AI

Tham gia Ultralytics cộng đồng