Khám phá các Mô hình Thị giác Lớn (LVM) và tác động của chúng đối với Trí tuệ Nhân tạo. Tìm hiểu cách thức hoạt động. Ultralytics YOLO26 và Ultralytics Nền tảng này cho phép phát hiện và phân tích đối tượng nâng cao.
Các mô hình thị giác quy mô lớn (LVM) đại diện cho một bước tiến lớn trong trí tuệ nhân tạo, tập trung hoàn toàn vào việc hiểu, tạo ra và xử lý dữ liệu hình ảnh ở quy mô khổng lồ. Không giống như các hệ thống thị giác máy tính truyền thống được huấn luyện trên các tập dữ liệu hẹp cho các nhiệm vụ cụ thể, được xác định trước, LVM hoạt động như các mô hình nền tảng tổng quát được huấn luyện trên các bộ sưu tập hình ảnh và video khổng lồ. Quá trình huấn luyện trước rộng rãi này cho phép chúng phát triển sự hiểu biết sâu sắc, toàn diện về hình học thị giác, kết cấu và các mối quan hệ không gian phức tạp mà không cần dựa vào các nhãn do con người chú thích.
Các mô hình thị giác quy mô lớn hiện đại thường tận dụng Vision Transformers (ViT) hoặc các kiến trúc tích chập có quy mô lớn để xử lý đầu vào hình ảnh. Bằng cách sử dụng các kỹ thuật học tự giám sát , chẳng hạn như mô hình hóa hình ảnh có mặt nạ, chúng học bằng cách dự đoán các phần bị thiếu của một hình ảnh hoặc khung hình. Các tổ chức học thuật như Trung tâm Nghiên cứu về Mô hình Nền tảng của Đại học Stanford đã chứng minh rằng việc nhanh chóng mở rộng số lượng tham số của các mô hình này dẫn đến các khả năng vượt trội, có thể sử dụng ngay lập tức. Điều này cho phép chúng thích ứng với các tác vụ tiếp theo như phát hiện đối tượng tốc độ cao và phân đoạn hình ảnh chi tiết với sự tinh chỉnh tối thiểu.
Các hệ thống LVM đang làm thay đổi các ngành công nghiệp bằng cách xử lý các phân tích hình ảnh phức tạp mà trước đây đòi hỏi các thuật toán chuyên biệt, được đào tạo riêng.
Để hiểu đầy đủ về lĩnh vực trí tuệ nhân tạo, việc phân biệt giữa LVM và các mô hình nền tảng phổ biến khác là rất hữu ích:
Trong khi các hệ thống LVM khổng lồ thường yêu cầu các cụm máy chủ chạy PyTorch hoặc TensorFlow , các mô hình thị giác nền tảng được tối ưu hóa cao như Ultralytics YOLO26 mang lại khả năng xử lý hình ảnh mạnh mẽ, hiện đại trực tiếp đến môi trường biên cục bộ. Ví dụ sau đây minh họa cách thực hiện suy luận hình ảnh mạnh mẽ bằng cách sử dụng mô hình được huấn luyện trước:
from ultralytics import YOLO
# Load an advanced pre-trained Ultralytics YOLO26 model
model = YOLO("yolo26x.pt")
# Perform inference on an image to extract visual features and bounding boxes
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the predicted visual relationships
results[0].show()
Quá trình chuyển đổi từ nghiên cứu học thuật được công bố trên arXiv và thư viện số IEEE Xplore sang ứng dụng thực tiễn trong doanh nghiệp đang diễn ra nhanh chóng. Những đổi mới từ các nhóm nghiên cứu như Google DeepMind đang tích cực mở rộng LVM sang lĩnh vực thời gian, cho phép các mô hình hiểu được các chuỗi video phức tạp tương tự như các thế hệ được thấy trong Sora của OpenAI .
Đối với các nhà phát triển và tổ chức đang tìm cách xây dựng các giải pháp AI hình ảnh tùy chỉnh, Nền tảng Ultralytics cung cấp các công cụ liền mạch để chú thích tập dữ liệu theo nhóm, đào tạo trên đám mây và triển khai mô hình được tối ưu hóa, giúp mọi người dễ dàng tiếp cận các khả năng thị giác tiên tiến. Hơn nữa, các công cụ phân đoạn không cần dữ liệu huấn luyện như Segment Anything 2 ( SAM 2) của Meta chứng minh cách tiếp cận thị giác nền tảng quy mô lớn — thường được mô tả chi tiết trong Thư viện số ACM — đang chuẩn hóa sự hiểu biết phức tạp ở cấp độ pixel trên toàn bộ ngành công nghiệp AI.
Bắt đầu hành trình của bạn với tương lai của học máy