Gặp gỡ YOLO26: AI tầm nhìn thế hệ tiếp theo.
Ultralytics
Quay lại Bảng thuật ngữ Ultralytics

Joint Embedding Predictive Architecture (JEPA)

Khám phá Kiến trúc dự đoán nhúng chung (JEPA). Tìm hiểu cách khung tự giám sát này dự đoán các biểu diễn tiềm ẩn để thúc đẩy nghiên cứu thị giác AI.

Kiến trúc Dự đoán Nhúng Liên kết (JEPA) là một khung học tự giám sát nâng cao được thiết kế nhằm giúp máy móc xây dựng các mô hình dự đoán về thế giới vật lý. Được tiên phong bởi các nhà nghiên cứu tại Meta AI và được nêu trong các nghiên cứu nền tảng hướng tới trí tuệ nhân tạo tổng quát, JEPA thay đổi mô hình cách các mô hình học từ dữ liệu chưa được chú thích. Thay vì cố gắng tái tạo hình ảnh hoặc video theo từng pixel, mô hình JEPA học bằng cách dự đoán các phần còn thiếu hoặc tương lai của đầu vào trong một không gian ẩn trừu tượng. Điều này cho phép kiến trúc tập trung vào ý nghĩa ngữ nghĩa cấp cao thay vì bị phân tâm bởi các chi tiết nhỏ nhặt, không liên quan như kết cấu chính xác của một chiếc lá hoặc nhiễu trong cảm biến máy ảnh.

Link to this sectionKiến trúc hoạt động như thế nào#

Về cốt lõi, kiến trúc này dựa trên ba thành phần mạng thần kinh chính: bộ mã hóa ngữ cảnh, bộ mã hóa mục tiêu và bộ dự đoán. Bộ mã hóa ngữ cảnh xử lý một phần dữ liệu đã biết (ngữ cảnh) để tạo ra các embeddings. Đồng thời, bộ mã hóa mục tiêu xử lý phần dữ liệu bị thiếu hoặc tương lai để tạo ra biểu diễn mục tiêu. Sau đó, mạng dự đoán lấy embedding ngữ cảnh và cố gắng dự đoán embedding mục tiêu. Hàm mất mát tính toán sự khác biệt giữa embedding dự đoán và embedding mục tiêu thực tế, cập nhật trọng số mô hình để cải thiện khả năng trích xuất đặc trưng. Thiết kế này mang lại hiệu quả cao cho các quy trình deep learning hiện đại.

Link to this sectionJEPA so với các kiến trúc liên quan#

Khi so sánh các chiến lược học biểu diễn, việc phân biệt JEPA với các phương pháp phổ biến khác trong machine learning sẽ rất hữu ích:

  • Autoencoders: Các autoencoder có mặt nạ truyền thống dự đoán dữ liệu bị thiếu bằng cách tái tạo chính xác các pixel thô. JEPA tránh giai đoạn tái tạo tốn kém về mặt tính toán này, tập trung hoàn toàn vào các biểu diễn ẩn.
  • Học tương phản: Các mô hình tương phản dựa vào việc so sánh các cặp dữ liệu dương và âm để tìm hiểu các ranh giới khác biệt. JEPA không yêu cầu các mẫu âm, giúp việc huấn luyện ổn định hơn và ít phụ thuộc vào kích thước batch lớn.

Link to this sectionCác ứng dụng trong thực tế#

Bằng cách xây dựng các biểu diễn mạnh mẽ của dữ liệu thị giác, JEPA thúc đẩy nhiều tác vụ thị giác máy tính khác nhau.

  • Nhận diện hành động trong video: Các biến thể như V-JEPA (Video JEPA) xử lý các luồng video liên tục để dự đoán các tương tác trong tương lai. Điều này rất quan trọng đối với robot và các hệ thống tự hành cần hiểu các động lực thời gian phức tạp mà không cần dựa vào việc kết xuất pixel từng khung hình.
  • Mô hình nền tảng cho các tác vụ hạ nguồn: Các kiến trúc dựa trên hình ảnh như I-JEPA đóng vai trò là các mạng backbone được huấn luyện trước mạnh mẽ. Những bộ trích xuất đặc trưng mạnh mẽ này có thể được tinh chỉnh nhanh chóng để phát hiện đối tượng hoặc phân loại hình ảnh chính xác với dữ liệu được gắn nhãn tối thiểu.

Trong khi các hệ thống như Ultralytics YOLO26 vượt trội trong việc phát hiện đối tượng có giám sát từ đầu đến cuối, thì các khái niệm bao quát về không gian ẩn có tính ngữ nghĩa cao, chống nhiễu do JEPA tiên phong đại diện cho đỉnh cao của nghiên cứu AI thị giác hiện đại. Đối với các nhóm muốn xây dựng và triển khai các mô hình nâng cao ngày nay, Ultralytics Platform cung cấp các công cụ liền mạch cho gắn nhãn dữ liệu và huấn luyện trên đám mây.

Link to this sectionTriển khai khái niệm PyTorch#

Để hiểu luồng nội bộ của kiến trúc này, đây là một mô-đun mạng thần kinh PyTorch đơn giản hóa minh họa cách các embedding ngữ cảnh và mục tiêu tương tác trong quá trình forward pass.

import torch
import torch.nn as nn


class ConceptualJEPA(nn.Module):
    """A simplified conceptual representation of a JEPA architecture."""

    def __init__(self, input_dim=512, embed_dim=256):
        super().__init__()
        # Encoders map raw inputs to a semantic latent space
        self.context_encoder = nn.Linear(input_dim, embed_dim)
        self.target_encoder = nn.Linear(input_dim, embed_dim)

        # Predictor maps context embeddings to target embeddings
        self.predictor = nn.Sequential(nn.Linear(embed_dim, embed_dim), nn.ReLU(), nn.Linear(embed_dim, embed_dim))

    def forward(self, context_data, target_data):
        # 1. Encode context data
        context_embed = self.context_encoder(context_data)

        # 2. Encode target data (weights are often updated via EMA in reality)
        with torch.no_grad():
            target_embed = self.target_encoder(target_data)

        # 3. Predict the target embedding from the context embedding
        predicted_target = self.predictor(context_embed)

        return predicted_target, target_embed


# Example usage
model = ConceptualJEPA()
dummy_context = torch.rand(1, 512)
dummy_target = torch.rand(1, 512)
prediction, actual_target = model(dummy_context, dummy_target)

Explore solutions

Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.

Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.

Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.

Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.

Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.

Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.

Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.

Tìm hiểu thêm

Hãy cùng nhau xây dựng tương lai của AI!

Bắt đầu hành trình của bạn với tương lai của machine learning