Đón xem YOLO Vision 2025!
25 tháng 9, 2025
10:00 — 18:00 BST
Sự kiện kết hợp
Yolo Vision 2024
Bảng chú giải thuật ngữ

Thị giác máy tính (Computer Vision - CV)

Khai thác tiềm năng của AI với Thị giác máy tính! Khám phá vai trò của nó trong phát hiện đối tượng, chăm sóc sức khỏe, xe tự lái, v.v. Tìm hiểu thêm ngay bây giờ!

Thị giác máy tính (CV) là một lĩnh vực của trí tuệ nhân tạo (AI), lĩnh vực này huấn luyện máy tính để diễn giải và hiểu thế giới trực quan. Sử dụng hình ảnh kỹ thuật số từ máy ảnh, video và các mô hình học sâu, máy móc có thể xác định và phân loại các đối tượng một cách chính xác, sau đó phản ứng với những gì chúng "nhìn thấy". Mục tiêu là cho phép máy tính tái tạo thị giác của con người, một nhiệm vụ liên quan đến việc xử lý và phân tích một lượng lớn dữ liệu trực quan để hiểu nó. Lĩnh vực này đã phát triển nhanh chóng nhờ những tiến bộ trong học sâu và sự sẵn có của các bộ dữ liệu lớn.

Cách thức hoạt động của Thị giác máy tính

Thị giác máy tính hoạt động bằng cách áp dụng các thuật toán học máy (ML) vào dữ liệu trực quan. Thay vì được lập trình rõ ràng để nhận dạng một đối tượng, một mô hình CV học cách xác định các mẫu từ hàng nghìn hoặc hàng triệu hình ảnh được gắn nhãn. Ví dụ: để huấn luyện một mô hình nhận dạng mèo, nó sẽ được cung cấp vô số hình ảnh mèo cho đến khi nó có thể tự học cách phân biệt các đặc điểm của mèo.

CV hiện đại phụ thuộc nhiều vào các mô hình học sâu, đặc biệt là Mạng nơ-ron tích chập (CNN). CNN là một loại mạng nơ-ron có hiệu quả cao trong việc xử lý dữ liệu hình ảnh. Nó hoạt động bằng cách áp dụng các bộ lọc (hoặc kernel) cho một hình ảnh để tạo ra bản đồ đặc trưng làm nổi bật các đặc điểm quan trọng như cạnh, kết cấu và hình dạng. Các mạng này cung cấp sức mạnh cho nhiều tác vụ thị giác máy tính phổ biến, cho phép máy móc phân tích thông tin trực quan với độ chính xác ngày càng cao.

Thị giác máy tính so với Xử lý ảnh

Mặc dù liên quan chặt chẽ, thị giác máy tính và xử lý ảnh không giống nhau. Xử lý ảnh là một tập hợp con của CV, tập trung vào việc thao tác hình ảnh kỹ thuật số để nâng cao chúng hoặc trích xuất thông tin hữu ích. Nó bao gồm các hoạt động như làm sắc nét, làm mờ hoặc lọc một hình ảnh. Ngược lại, thị giác máy tính tiến thêm một bước bằng cách nhằm mục đích giải thích và hiểu nội dung của hình ảnh. Ví dụ: xử lý ảnh có thể được sử dụng để cải thiện chất lượng của ảnh, trong khi thị giác máy tính sẽ được sử dụng để xác định người, vật thể và cảnh trong ảnh đó. Bạn có thể tìm hiểu thêm về sự khác biệt trong tổng quan chi tiết về xử lý ảnh kỹ thuật số này.

Các nhiệm vụ chính trong Thị giác máy tính

Thị giác máy tính bao gồm một số nhiệm vụ chính cho phép máy móc phân tích và diễn giải dữ liệu trực quan:

  • Phát hiện đối tượng: Điều này liên quan đến việc xác định và định vị các đối tượng trong một hình ảnh hoặc video. Một mô hình như Ultralytics YOLO vẽ một hộp giới hạn xung quanh mỗi đối tượng được phát hiện và gán cho nó một nhãn lớp.
  • Phân loại ảnh (Image Classification): Tác vụ này liên quan đến việc gán một nhãn duy nhất cho toàn bộ hình ảnh từ một tập hợp các danh mục được xác định trước. Ví dụ: phân loại một hình ảnh là chứa "mèo" hoặc "chó".
  • Phân vùng ảnh (Image Segmentation): Không giống như object detection, segmentation phân loại từng pixel trong ảnh. Nó cung cấp sự hiểu biết chi tiết hơn nhiều về nội dung của ảnh. Các nhiệm vụ con bao gồm instance segmentationsemantic segmentation.
  • Ước Tính Tư Thế (Pose Estimation): Điều này được sử dụng để xác định vị trí và hướng của một người hoặc vật thể trong không gian. Nó được sử dụng rộng rãi trong robotics, thực tế tăng cường và phân tích hoạt động của con người.
  • Theo Dõi Đối Tượng (Object Tracking): Nhiệm vụ này bao gồm việc theo dõi một hoặc nhiều đối tượng theo thời gian trong một chuỗi video. Nó rất quan trọng đối với các ứng dụng như giám sát và điều hướng tự động.

Các Ứng dụng Thực tế

Các ứng dụng của thị giác máy tính ngày càng phổ biến trong nhiều lĩnh vực:

Công Cụ và Framework

Việc phát triển và triển khai các mô hình thị giác máy tính trở nên dễ dàng hơn nhờ các công cụ và framework khác nhau. Các thư viện như PyTorch (truy cập trang web chính thức của PyTorch) và TensorFlow (truy cập trang web chính thức của TensorFlow) là nền tảng để xây dựng mô hình. Các thư viện mã nguồn mở như OpenCV cung cấp một tập hợp lớn các hàm cho thị giác máy tính thời gian thực.

Các nền tảng như Ultralytics HUB hợp lý hóa toàn bộ vòng đời của một dự án CV, từ quản lý bộ dữ liệuhuấn luyện các mô hình tùy chỉnh đến triển khai. Việc sử dụng các định dạng tiêu chuẩn như ONNX cũng giúp đảm bảo khả năng tương tác giữa các framework khác nhau. Khi các công nghệ này trưởng thành, chúng sẽ tiếp tục thúc đẩy sự đổi mới trong các ngành công nghiệp.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay
Đã sao chép liên kết vào clipboard