Gặp gỡ YOLO26: AI tầm nhìn thế hệ tiếp theo.
Ultralytics
Quay lại Bảng thuật ngữ Ultralytics

Text-to-Video

Khám phá AI tạo sinh Text-to-Video. Tìm hiểu cách các mô hình tổng hợp nội dung động từ văn bản và sử dụng Ultralytics YOLO26 để phân tích và theo dõi video đã tạo.

Text-to-Video là một nhánh tiên tiến của trí tuệ nhân tạo tạo sinh tập trung vào việc tổng hợp nội dung video động trực tiếp từ các mô tả văn bản. Bằng cách diễn giải các câu lệnh ngôn ngữ tự nhiên, các hệ thống này tạo ra một chuỗi hình ảnh nhất quán phát triển theo thời gian, giúp thu hẹp khoảng cách giữa việc tạo văn bản thành hình ảnh tĩnh và phim chuyển động toàn diện. Công nghệ này dựa trên các kiến trúc deep learning (DL) phức tạp để không chỉ hiểu ngữ nghĩa thị giác của đối tượng và khung cảnh—trông như thế nào—mà còn hiểu cả động lực học theo thời gian—cách mọi vật di chuyển và tương tác vật lý trong không gian ba chiều. Khi nhu cầu về phương tiện truyền thông đa dạng tăng cao, Text-to-Video đang trở thành công cụ then chốt cho những người sáng tạo, giúp tự động hóa quy trình sản xuất phim hoạt hình và video vốn tốn nhiều công sức.

Link to this sectionCơ chế tạo video#

Quá trình chuyển đổi văn bản thành video liên quan đến sự phối hợp giữa xử lý ngôn ngữ tự nhiên (NLP) và tổng hợp thị giác máy tính. Pipeline thường bắt đầu bằng một bộ mã hóa văn bản, thường dựa trên kiến trúc Transformer, giúp chuyển đổi câu lệnh của người dùng thành các embeddings đa chiều. Các embeddings này hướng dẫn một mô hình tạo sinh, chẳng hạn như mô hình khuếch tán hoặc Mạng đối nghịch tạo sinh (GAN), để tạo ra các khung hình.

Một thách thức quan trọng trong quy trình này là duy trì sự nhất quán về thời gian. Khác với việc tạo một hình ảnh duy nhất, mô hình phải đảm bảo các đối tượng không bị nhấp nháy, biến dạng ngoài ý muốn hoặc biến mất giữa các khung hình. Để đạt được điều này, các mô hình được huấn luyện trên các dataset khổng lồ gồm các cặp video-văn bản, học cách dự đoán các điểm ảnh nên dịch chuyển thế nào theo thời gian. Các kỹ thuật như frame interpolation thường được áp dụng để làm mượt chuyển động và tăng tốc độ khung hình, thường yêu cầu sức mạnh tính toán đáng kể từ các GPU cao cấp.

Link to this sectionCác ứng dụng trong thực tế#

Công nghệ Text-to-Video đang thay đổi các ngành công nghiệp bằng cách cho phép trực quan hóa và tạo nội dung nhanh chóng. Hai trường hợp sử dụng nổi bật bao gồm:

  • Tiếp thị và Quảng cáo: Các thương hiệu sử dụng Text-to-Video để tạo ra các buổi trình diễn sản phẩm chất lượng cao hoặc nội dung truyền thông xã hội từ những kịch bản đơn giản. Ví dụ, một chuyên gia tiếp thị có thể tạo một video về "chiếc xe thể thao chạy qua thành phố cyber-punk dưới mưa" để kiểm tra ý tưởng hình ảnh mà không cần tổ chức quay phim thực tế tốn kém. Khả năng này cho phép tạo ra đa dạng dữ liệu tổng hợp, vốn cũng có thể được dùng để huấn luyện các mô hình AI khác.
  • Tiền trực quan hóa phim: Các đạo diễn và nhà thiết kế trò chơi sử dụng các công cụ như Google's DeepMind Veo để phân cảnh. Thay vì phác thảo các khung hình tĩnh, người sáng tạo có thể tạo các đoạn video nháp để hình dung góc máy, ánh sáng và nhịp độ ngay lập tức. Điều này đẩy nhanh quy trình sáng tạo, cho phép lặp lại nhanh các cốt truyện phức tạp trước khi bắt tay vào sản xuất cuối cùng.

Link to this sectionPhân biệt giữa Tạo sinh và Phân tích#

Việc phân biệt giữa tạo sinh video và phân tích video là vô cùng quan trọng. Text-to-Video tạo ra các điểm ảnh mới từ đầu dựa trên một câu lệnh. Ngược lại, thấu hiểu video bao gồm việc xử lý các thước phim hiện có để trích xuất thông tin chuyên sâu, chẳng hạn như phát hiện đối tượng hoặc nhận diện hành động.

Trong khi Text-to-Video dựa trên các mô hình tạo sinh, phân tích video dựa trên các mô hình phân biệt như YOLO26 hiện đại nhất. Đoạn mã dưới đây minh họa vế sau—tải một tệp video (có thể là tệp do AI tạo) và phân tích để theo dõi các đối tượng, làm nổi bật sự khác biệt trong quy trình làm việc.

from ultralytics import YOLO

# Load the official YOLO26 model for analysis (not generation)
model = YOLO("yolo26n.pt")

# Process a video file to track objects across frames
# Ideally, this distinguishes real objects from generated artifacts
results = model.track(source="path/to/generated_video.mp4", show=True)

Link to this sectionCác khái niệm và thách thức liên quan#

Để nắm bắt đầy đủ phạm vi của Text-to-Video, việc so sánh nó với các thuật ngữ liên quan trong bối cảnh AI sẽ rất hữu ích:

  • Text-to-Image: Tạo ra một ảnh chụp nhanh tĩnh. Text-to-Video thêm chiều thời gian, yêu cầu mô hình duy trì sự mạch lạc của chủ thể khi nó di chuyển.
  • Học đa phương thức: Text-to-Video về bản chất là đa phương thức, chuyển đổi dữ liệu văn bản thành phương tiện truyền thông thị giác. Điều này tương tự như chuyển văn bản thành giọng nói, vốn chuyển đổi văn bản thành dạng sóng âm thanh.
  • Thị giác máy tính (CV): Thông thường đề cập đến khả năng của máy móc trong việc "nhìn" và thấu hiểu hình ảnh. Text-to-Video là hướng ngược lại: máy móc "tưởng tượng" và tạo ra nội dung thị giác.

Bất chấp những tiến bộ nhanh chóng, các thách thức vẫn tồn tại, bao gồm chi phí tính toán cao và khả năng xảy ra hiện tượng ảo giác nơi video đi ngược lại các quy luật vật lý. Ngoài ra, còn có những lo ngại đáng kể liên quan đến đạo đức AI và sự gia tăng của deepfake. Tuy nhiên, khi các mô hình như Meta Movie Gen phát triển, chúng ta có thể kỳ vọng vào độ trung thực cao hơn và khả năng tích hợp tốt hơn vào các quy trình làm việc chuyên nghiệp được quản lý thông qua Ultralytics Platform.

Explore solutions

Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm

Hãy cùng nhau xây dựng tương lai của AI!

Bắt đầu hành trình của bạn với tương lai của machine learning