Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Tạo video

Khám phá thế giới tạo video bằng trí tuệ nhân tạo. Tìm hiểu cách các mô hình khuếch tán tạo ra cảnh quay tổng hợp và cách phân tích các đoạn video bằng cách sử dụng chúng. Ultralytics YOLO26 dành cho thị giác máy tính.

Tạo video đề cập đến quá trình mà các mô hình trí tuệ nhân tạo tạo ra các chuỗi video tổng hợp dựa trên nhiều phương thức đầu vào khác nhau, chẳng hạn như lời nhắc bằng văn bản, hình ảnh hoặc đoạn video hiện có. Không giống như phân đoạn hình ảnh hoặc phát hiện đối tượng phân tích dữ liệu hình ảnh, tạo video tập trung vào việc tổng hợp các điểm ảnh mới trên một chiều thời gian. Công nghệ này tận dụng các kiến ​​trúc học sâu (DL) tiên tiến để dự đoán và xây dựng các khung hình duy trì tính mạch lạc về hình ảnh và tính liên tục chuyển động logic theo thời gian. Những tiến bộ gần đây vào năm 2025 đã đẩy các khả năng này lên một tầm cao mới, cho phép tạo ra các video độ phân giải cao, chân thực đến mức ngày càng khó phân biệt với các cảnh quay thực tế.

Cách thức tạo video hoạt động

Cơ chế cốt lõi đằng sau việc tạo video hiện đại thường liên quan đến các mô hình khuếch tán hoặc các kiến ​​trúc dựa trên Transformer phức tạp. Các mô hình này học phân bố thống kê của dữ liệu video từ các tập dữ liệu khổng lồ chứa hàng triệu cặp video-văn bản. Trong giai đoạn tạo video, mô hình bắt đầu với nhiễu ngẫu nhiên và tinh chỉnh lặp đi lặp lại thành một chuỗi video có cấu trúc, được hướng dẫn bởi đầu vào của người dùng.

Các thành phần chính của quy trình này bao gồm:

  • Sự chú ý theo thời gian: Để đảm bảo chuyển động mượt mà, các mô hình sử dụng cơ chế chú ý tham chiếu đến các khung hình trước và sau. Điều này ngăn chặn hiệu ứng "nhấp nháy" thường thấy trong các nỗ lực tạo sinh trí tuệ nhân tạo ban đầu.
  • Mô-đun Không gian-Thời gian: Các kiến ​​trúc thường sử dụng phép tích chập 3D hoặc các bộ biến đổi chuyên dụng để xử lý đồng thời dữ liệu không gian (những gì có trong khung hình) và dữ liệu thời gian (cách nó di chuyển).
  • Điều kiện hóa: Quá trình tạo ra hình ảnh dựa trên các đầu vào như văn bản gợi ý (ví dụ: "một con mèo đang chạy trên đồng cỏ") hoặc hình ảnh ban đầu, tương tự như cách hoạt động của các mô hình chuyển đổi văn bản thành hình ảnh nhưng có thêm trục thời gian.

Các Ứng dụng Thực tế

Công nghệ video đang nhanh chóng chuyển đổi các ngành công nghiệp bằng cách tự động hóa việc tạo nội dung và nâng cao trải nghiệm kỹ thuật số.

  • Giải trí và làm phim: Các hãng phim sử dụng trí tuệ nhân tạo tạo sinh để tạo kịch bản phân cảnh, hình dung các cảnh quay trước khi bấm máy hoặc tạo ra các tài sản bối cảnh. Điều này giúp giảm đáng kể chi phí sản xuất và cho phép nhanh chóng thử nghiệm các ý tưởng hình ảnh.
  • Mô phỏng xe tự hành: Việc huấn luyện xe tự lái đòi hỏi nhiều kịch bản lái xe đa dạng. Việc tạo video có thể tạo ra dữ liệu tổng hợp đại diện cho các trường hợp hiếm gặp hoặc nguy hiểm—chẳng hạn như người đi bộ đột ngột băng qua đường tối—những trường hợp khó có thể ghi lại một cách an toàn trong thế giới thực. Sau đó, đoạn phim tổng hợp này được sử dụng để huấn luyện các mô hình phát hiện đối tượng mạnh mẽ như... Ultralytics YOLO .

Phân biệt việc tạo video với việc chuyển văn bản thành video

Mặc dù thường được sử dụng thay thế cho nhau, nhưng việc phân biệt "Tạo video" như một phạm trù rộng hơn sẽ hữu ích hơn.

Phân tích video so với tạo video

Điều quan trọng là phải phân biệt giữa việc tạo ra các điểm ảnh và việc phân tích chúng. Trong khi việc tạo ra nội dung giúp hình thành, thì việc phân tích lại giúp trích xuất thông tin chi tiết. Ví dụ, sau khi tạo ra một video huấn luyện tổng hợp, nhà phát triển có thể sử dụng Ultralytics YOLO26 để xác minh rằng các đối tượng được nhận dạng chính xác.

Ví dụ sau đây minh họa cách sử dụng ultralytics đóng gói đến track các đối tượng bên trong tệp video được tạo ra, đảm bảo nội dung tổng hợp chứa các thực thể có thể nhận dạng được.

from ultralytics import YOLO

# Load the YOLO26n model for efficient analysis
model = YOLO("yolo26n.pt")

# Track objects in a video file (e.g., a synthetic video)
# 'stream=True' is efficient for processing long video sequences
results = model.track(source="generated_clip.mp4", stream=True)

for result in results:
    # Process results (e.g., visualize bounding boxes)
    pass

Thách thức và triển vọng tương lai

Mặc dù đã có những tiến bộ ấn tượng, việc tạo video vẫn phải đối mặt với những trở ngại liên quan đến chi phí tính toán và đạo đức trí tuệ nhân tạo . Việc tạo video độ phân giải cao đòi hỏi tài nguyên GPU đáng kể, thường cần đến các kỹ thuật tối ưu hóa như lượng tử hóa mô hình để có thể khả thi cho việc sử dụng rộng rãi hơn. Thêm vào đó, khả năng tạo ra deepfake làm dấy lên lo ngại về thông tin sai lệch, thúc đẩy các nhà nghiên cứu phát triển các công cụ đánh dấu bản quyền và phát hiện.

Khi lĩnh vực này phát triển, chúng ta kỳ vọng sẽ có sự tích hợp chặt chẽ hơn giữa các công cụ tạo nội dung và phân tích. Ví dụ, việc sử dụng Nền tảng Ultralytics để quản lý các tập dữ liệu video được tạo ra có thể giúp đơn giản hóa quá trình đào tạo các mô hình thị giác máy tính thế hệ tiếp theo, tạo ra một vòng tuần hoàn tích cực trong đó AI giúp đào tạo AI. Các nhà nghiên cứu tại các tổ chức như Google DeepMindOpenAI tiếp tục vượt qua các giới hạn về tính nhất quán theo thời gian và mô phỏng vật lý trong nội dung được tạo ra.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay