Khai thác tiềm năng của AI với Thị giác máy tính! Khám phá vai trò của nó trong phát hiện đối tượng, chăm sóc sức khỏe, xe tự lái, v.v. Tìm hiểu thêm ngay bây giờ!
Thị giác Máy tính (CV) là một lĩnh vực trí tuệ nhân tạo (AI) mang tính cách mạng, cho phép máy tính nhận thức, diễn giải và hiểu thế giới trực quan. Bằng cách xử lý hình ảnh kỹ thuật số, video và các dữ liệu đầu vào trực quan khác, máy móc có thể trích xuất thông tin có ý nghĩa và thực hiện hành động hoặc đưa ra khuyến nghị dựa trên phân tích đó. Trong khi thị giác của con người dựa vào mắt và não để ngữ cảnh hóa môi trường xung quanh ngay lập tức, thị giác máy tính sử dụng phần mềm tiên tiến và các thuật toán học máy (ML) để tái tạo khả năng này, cho phép hệ thống tự động hóa các tác vụ trước đây đòi hỏi thị giác của con người.
Về cốt lõi, thị giác máy tính dựa vào các kỹ thuật nhận dạng mẫu để hiểu dữ liệu hình ảnh. Những nỗ lực ban đầu liên quan đến việc mã hóa thủ công các quy tắc để xác định đối tượng, nhưng CV hiện đại được điều khiển bởi học sâu (DL) và lượng dữ liệu huấn luyện khổng lồ. Kiến trúc phổ biến nhất được sử dụng hiện nay là Mạng Nơ-ron Tích chập (CNN) , xử lý hình ảnh theo từng pixel. Các mạng này xác định các đặc điểm cấp thấp như cạnh và kết cấu trong các lớp ban đầu và kết hợp chúng để nhận dạng các khái niệm phức tạp—chẳng hạn như khuôn mặt hoặc phương tiện—ở các lớp sâu hơn. Quá trình này đòi hỏi các tập dữ liệu được gán nhãn khổng lồ để dạy mô hình cách phân biệt hiệu quả giữa các danh mục khác nhau.
Tầm nhìn máy tính không phải là một hành động đơn lẻ mà là tập hợp các nhiệm vụ cụ thể để giải quyết các vấn đề khác nhau:
Người ta thường nhầm lẫn thị giác máy tính với xử lý hình ảnh kỹ thuật số , nhưng chúng phục vụ các mục đích khác nhau. Xử lý hình ảnh tập trung vào việc thao tác hình ảnh đầu vào để cải thiện chất lượng hoặc trích xuất thông tin mà không nhất thiết phải "hiểu" nó. Các ví dụ phổ biến bao gồm điều chỉnh độ sáng, áp dụng bộ lọc hoặc giảm nhiễu. Ngược lại, CV tập trung vào việc hiểu hình ảnh , với mục tiêu là mô phỏng nhận thức của con người để diễn giải những gì hình ảnh thể hiện.
Tiện ích của công nghệ thị giác máy tính mở rộng ra hầu hết mọi ngành công nghiệp, thúc đẩy hiệu quả và an toàn:
Các nhà phát triển có thể thực hiện các tác vụ thị giác máy tính mạnh mẽ bằng cách sử dụng ultralytics Python gói. Ví dụ dưới đây minh họa cách tải YOLO11 người mẫu—phiên bản ổn định mới nhất được khuyến nghị cho tất cả các trường hợp sử dụng tiêu chuẩn—để detect các đối tượng trong một hình ảnh.
from ultralytics import YOLO
# Load the pretrained YOLO11 model (nano version for speed)
model = YOLO("yolo11n.pt")
# Run inference on an online image
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results to see bounding boxes and labels
results[0].show()
Hệ sinh thái CV được hỗ trợ bởi các thư viện mã nguồn mở mạnh mẽ. OpenCV là một thư viện nền tảng cung cấp hàng ngàn thuật toán cho thị giác máy tính thời gian thực. Để xây dựng và đào tạo các mô hình học sâu, các nền tảng như PyTorch và TensorFlow là các tiêu chuẩn công nghiệp. Ultralytics dựa trên những nền tảng này để cung cấp các mô hình tiên tiến, dễ triển khai. Nhìn về tương lai, Nền tảng Ultralytics cung cấp một môi trường toàn diện để quản lý toàn bộ vòng đời của Vision AI, từ quản lý dữ liệu đến triển khai.