YOLO Vision Thâm Quyến
Thâm Quyến
Tham gia ngay
Thuật ngữ

Mô hình tầm nhìn lớn (LVM)

Khám phá các Mô hình Thị giác Lớn (LVM) và tác động của chúng đối với Trí tuệ Nhân tạo. Tìm hiểu cách thức hoạt động. Ultralytics YOLO26 và Ultralytics Nền tảng này cho phép phát hiện và phân tích đối tượng nâng cao.

Các mô hình thị giác quy mô lớn (LVM) đại diện cho một bước tiến lớn trong trí tuệ nhân tạo, tập trung hoàn toàn vào việc hiểu, tạo ra và xử lý dữ liệu hình ảnh ở quy mô khổng lồ. Không giống như các hệ thống thị giác máy tính truyền thống được huấn luyện trên các tập dữ liệu hẹp cho các nhiệm vụ cụ thể, được xác định trước, LVM hoạt động như các mô hình nền tảng tổng quát được huấn luyện trên các bộ sưu tập hình ảnh và video khổng lồ. Quá trình huấn luyện trước rộng rãi này cho phép chúng phát triển sự hiểu biết sâu sắc, toàn diện về hình học thị giác, kết cấu và các mối quan hệ không gian phức tạp mà không cần dựa vào các nhãn do con người chú thích.

Cách thức hoạt động của các mô hình thị giác quy mô lớn

Các mô hình thị giác quy mô lớn hiện đại thường tận dụng Vision Transformers (ViT) hoặc các kiến ​​trúc tích chập có quy mô lớn để xử lý đầu vào hình ảnh. Bằng cách sử dụng các kỹ thuật học tự giám sát , chẳng hạn như mô hình hóa hình ảnh có mặt nạ, chúng học bằng cách dự đoán các phần bị thiếu của một hình ảnh hoặc khung hình. Các tổ chức học thuật như Trung tâm Nghiên cứu về Mô hình Nền tảng của Đại học Stanford đã chứng minh rằng việc nhanh chóng mở rộng số lượng tham số của các mô hình này dẫn đến các khả năng vượt trội, có thể sử dụng ngay lập tức. Điều này cho phép chúng thích ứng với các tác vụ tiếp theo như phát hiện đối tượng tốc độ cao và phân đoạn hình ảnh chi tiết với sự tinh chỉnh tối thiểu.

Các Ứng dụng Thực tế

Các hệ thống LVM đang làm thay đổi các ngành công nghiệp bằng cách xử lý các phân tích hình ảnh phức tạp mà trước đây đòi hỏi các thuật toán chuyên biệt, được đào tạo riêng.

  • Phân tích hình ảnh y tế tự động : Trong môi trường lâm sàng, các hệ thống xử lý hình ảnh tiên tiến giúp xử lý ảnh chụp X-quang, MRI và CT có độ phân giải cao để xác định các bất thường nhỏ, hỗ trợ các bác sĩ X-quang trong việc phát hiện bệnh sớm và giảm đáng kể sai sót chẩn đoán.
  • Phát hiện lỗi trong sản xuất : Dây chuyền sản xuất tại nhà máy sử dụng các mô hình thị giác tổng quát để kiểm tra sản phẩm trong thời gian thực, dễ dàng xác định các lỗi phức tạp, chưa từng thấy trước đây trên dây chuyền lắp ráp và cải thiện kiểm soát chất lượng mà không cần hàng nghìn ví dụ về từng lỗi cụ thể.

Phân biệt các khái niệm liên quan

Để hiểu đầy đủ về lĩnh vực trí tuệ nhân tạo, việc phân biệt giữa LVM và các mô hình nền tảng phổ biến khác là rất hữu ích:

  • So sánh LVM với Mô hình Ngôn ngữ Thị giác (VLM) : Trong khi LVM chỉ xử lý các phương thức thị giác (pixel), VLM tích hợp cả văn bản và hình ảnh, cho phép người dùng đặt câu hỏi bằng ngôn ngữ tự nhiên về một bức ảnh hoặc nhận mô tả bằng văn bản về một video.
  • So sánh LVM với Mô hình Ngôn ngữ Lớn (LLM) : LLM được huấn luyện hoàn toàn trên dữ liệu văn bản để hiểu và tạo ra ngôn ngữ của con người. LVM thực hiện việc mở rộng quy mô và hiểu biết tương đương, nhưng chỉ dành riêng cho dữ liệu hình ảnh.

Làm việc với các mô hình thị giác

Trong khi các hệ thống LVM khổng lồ thường yêu cầu các cụm máy chủ chạy PyTorch hoặc TensorFlow , các mô hình thị giác nền tảng được tối ưu hóa cao như Ultralytics YOLO26 mang lại khả năng xử lý hình ảnh mạnh mẽ, hiện đại trực tiếp đến môi trường biên cục bộ. Ví dụ sau đây minh họa cách thực hiện suy luận hình ảnh mạnh mẽ bằng cách sử dụng mô hình được huấn luyện trước:

from ultralytics import YOLO

# Load an advanced pre-trained Ultralytics YOLO26 model
model = YOLO("yolo26x.pt")

# Perform inference on an image to extract visual features and bounding boxes
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the predicted visual relationships
results[0].show()

Tương lai của trí tuệ thị giác

Quá trình chuyển đổi từ nghiên cứu học thuật được công bố trên arXivthư viện số IEEE Xplore sang ứng dụng thực tiễn trong doanh nghiệp đang diễn ra nhanh chóng. Những đổi mới từ các nhóm nghiên cứu như Google DeepMind đang tích cực mở rộng LVM sang lĩnh vực thời gian, cho phép các mô hình hiểu được các chuỗi video phức tạp tương tự như các thế hệ được thấy trong Sora của OpenAI .

Đối với các nhà phát triển và tổ chức đang tìm cách xây dựng các giải pháp AI hình ảnh tùy chỉnh, Nền tảng Ultralytics cung cấp các công cụ liền mạch để chú thích tập dữ liệu theo nhóm, đào tạo trên đám mây và triển khai mô hình được tối ưu hóa, giúp mọi người dễ dàng tiếp cận các khả năng thị giác tiên tiến. Hơn nữa, các công cụ phân đoạn không cần dữ liệu huấn luyện như Segment Anything 2 ( SAM 2) của Meta chứng minh cách tiếp cận thị giác nền tảng quy mô lớn — thường được mô tả chi tiết trong Thư viện số ACM — đang chuẩn hóa sự hiểu biết phức tạp ở cấp độ pixel trên toàn bộ ngành công nghiệp AI.

Hãy cùng nhau xây dựng tương lai của trí tuệ nhân tạo!

Bắt đầu hành trình của bạn với tương lai của học máy