Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Thị giác máy tính (Computer Vision - CV)

Khai thác tiềm năng của AI với Thị giác máy tính! Khám phá vai trò của nó trong phát hiện đối tượng, chăm sóc sức khỏe, xe tự lái, v.v. Tìm hiểu thêm ngay bây giờ!

Thị giác Máy tính (CV) là một lĩnh vực trí tuệ nhân tạo (AI) mang tính cách mạng, cho phép máy tính nhận thức, diễn giải và hiểu thế giới trực quan. Bằng cách xử lý hình ảnh kỹ thuật số, video và các dữ liệu đầu vào trực quan khác, máy móc có thể trích xuất thông tin có ý nghĩa và thực hiện hành động hoặc đưa ra khuyến nghị dựa trên phân tích đó. Trong khi thị giác của con người dựa vào mắt và não để ngữ cảnh hóa môi trường xung quanh ngay lập tức, thị giác máy tính sử dụng phần mềm tiên tiến và các thuật toán học máy (ML) để tái tạo khả năng này, cho phép hệ thống tự động hóa các tác vụ trước đây đòi hỏi thị giác của con người.

Cách thức hoạt động của Thị giác máy tính

Về cốt lõi, thị giác máy tính dựa vào các kỹ thuật nhận dạng mẫu để hiểu dữ liệu hình ảnh. Những nỗ lực ban đầu liên quan đến việc mã hóa thủ công các quy tắc để xác định đối tượng, nhưng CV hiện đại được điều khiển bởi học sâu (DL) và lượng dữ liệu huấn luyện khổng lồ. Kiến trúc phổ biến nhất được sử dụng hiện nay là Mạng Nơ-ron Tích chập (CNN) , xử lý hình ảnh theo từng pixel. Các mạng này xác định các đặc điểm cấp thấp như cạnh và kết cấu trong các lớp ban đầu và kết hợp chúng để nhận dạng các khái niệm phức tạp—chẳng hạn như khuôn mặt hoặc phương tiện—ở các lớp sâu hơn. Quá trình này đòi hỏi các tập dữ liệu được gán nhãn khổng lồ để dạy mô hình cách phân biệt hiệu quả giữa các danh mục khác nhau.

Nhiệm vụ cốt lõi trong thị giác máy tính

Tầm nhìn máy tính không phải là một hành động đơn lẻ mà là tập hợp các nhiệm vụ cụ thể để giải quyết các vấn đề khác nhau:

  • Phát hiện Đối tượng : Nhiệm vụ này bao gồm việc xác định và định vị các đối tượng trong luồng hình ảnh hoặc video. Nó vẽ các khung giới hạn xung quanh các đối tượng được phát hiện và gán cho chúng một nhãn lớp, chẳng hạn như "người" hoặc "xe đạp".
  • Phân loại hình ảnh : Hệ thống phân tích toàn bộ hình ảnh và gán cho nó một nhãn duy nhất dựa trên nội dung chủ đạo. Ví dụ: phân loại ảnh thành "phong cảnh" hoặc "chân dung".
  • Phân đoạn trường hợp : Đi sâu hơn việc phát hiện, phương pháp này xác định đường viền chính xác đến từng pixel của từng đối tượng, tách riêng từng trường hợp của cùng một lớp khỏi nền.
  • Ước tính tư thế : Kỹ thuật này phát hiện các điểm chính cụ thể trên một hình, chẳng hạn như các khớp trên cơ thể con người, để track chuyển động và tư thế theo thời gian thực.

Thị giác máy tính so với Xử lý ảnh

Người ta thường nhầm lẫn thị giác máy tính với xử lý hình ảnh kỹ thuật số , nhưng chúng phục vụ các mục đích khác nhau. Xử lý hình ảnh tập trung vào việc thao tác hình ảnh đầu vào để cải thiện chất lượng hoặc trích xuất thông tin mà không nhất thiết phải "hiểu" nó. Các ví dụ phổ biến bao gồm điều chỉnh độ sáng, áp dụng bộ lọc hoặc giảm nhiễu. Ngược lại, CV tập trung vào việc hiểu hình ảnh , với mục tiêu là mô phỏng nhận thức của con người để diễn giải những gì hình ảnh thể hiện.

Các Ứng dụng Thực tế

Tiện ích của công nghệ thị giác máy tính mở rộng ra hầu hết mọi ngành công nghiệp, thúc đẩy hiệu quả và an toàn:

Triển khai thị giác máy tính với YOLO11

Các nhà phát triển có thể thực hiện các tác vụ thị giác máy tính mạnh mẽ bằng cách sử dụng ultralytics Python gói. Ví dụ dưới đây minh họa cách tải YOLO11 người mẫu—phiên bản ổn định mới nhất được khuyến nghị cho tất cả các trường hợp sử dụng tiêu chuẩn—để detect các đối tượng trong một hình ảnh.

from ultralytics import YOLO

# Load the pretrained YOLO11 model (nano version for speed)
model = YOLO("yolo11n.pt")

# Run inference on an online image
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results to see bounding boxes and labels
results[0].show()

Công cụ và thư viện chính

Hệ sinh thái CV được hỗ trợ bởi các thư viện mã nguồn mở mạnh mẽ. OpenCV là một thư viện nền tảng cung cấp hàng ngàn thuật toán cho thị giác máy tính thời gian thực. Để xây dựng và đào tạo các mô hình học sâu, các nền tảng như PyTorchTensorFlow là các tiêu chuẩn công nghiệp. Ultralytics dựa trên những nền tảng này để cung cấp các mô hình tiên tiến, dễ triển khai. Nhìn về tương lai, Nền tảng Ultralytics cung cấp một môi trường toàn diện để quản lý toàn bộ vòng đời của Vision AI, từ quản lý dữ liệu đến triển khai.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay