Thuật ngữ

Tầm nhìn máy tính (CV)

Mở khóa tiềm năng của AI với Computer Vision! Khám phá vai trò của nó trong phát hiện vật thể, chăm sóc sức khỏe, xe tự lái và hơn thế nữa. Tìm hiểu thêm ngay!

Thị giác Máy tính (Computer Vision - CV) là một lĩnh vực của trí tuệ nhân tạo (AI) , đào tạo máy tính để diễn giải và hiểu thế giới trực quan. Sử dụng hình ảnh kỹ thuật số từ camera, video và các mô hình học sâu, máy móc có thể nhận dạng và phân loại chính xác các đối tượng, sau đó phản ứng với những gì chúng "nhìn thấy". Mục tiêu là cho phép máy tính mô phỏng thị giác của con người, một nhiệm vụ liên quan đến việc xử lý và phân tích một lượng lớn dữ liệu trực quan để hiểu được chúng. Là một lĩnh vực, nó đã phát triển nhanh chóng nhờ những tiến bộ trong học sâu và sự sẵn có của các tập dữ liệu lớn.

Cách thức hoạt động của thị giác máy tính

Thị giác máy tính hoạt động bằng cách áp dụng các thuật toán học máy (ML) vào dữ liệu trực quan. Thay vì được lập trình rõ ràng để nhận dạng một vật thể, mô hình CV học cách nhận dạng các mẫu từ hàng nghìn hoặc hàng triệu hình ảnh được gắn nhãn. Ví dụ, để huấn luyện một mô hình nhận dạng mèo, nó sẽ được cung cấp vô số hình ảnh về mèo cho đến khi có thể tự học cách phân biệt các đặc điểm của một con mèo.

CV hiện đại phụ thuộc rất nhiều vào các mô hình học sâu , đặc biệt là Mạng Nơ-ron Tích chập (CNN) . CNN là một loại mạng nơ-ron có hiệu quả cao trong việc xử lý dữ liệu hình ảnh. Nó hoạt động bằng cách áp dụng các bộ lọc (hoặc hạt nhân) vào hình ảnh để tạo ra các bản đồ đặc trưng làm nổi bật các đặc điểm quan trọng như cạnh, kết cấu và hình dạng. Các mạng này hỗ trợ nhiều tác vụ thị giác máy tính phổ biến, cho phép máy tính phân tích thông tin hình ảnh với độ chính xác ngày càng cao.

Thị giác máy tính so với Xử lý hình ảnh

Mặc dù có liên quan chặt chẽ, thị giác máy tính và xử lý hình ảnh không giống nhau. Xử lý hình ảnh là một phần của CV , tập trung vào việc xử lý hình ảnh kỹ thuật số để nâng cao chất lượng hoặc trích xuất thông tin hữu ích. Nó bao gồm các thao tác như làm sắc nét, làm mờ hoặc lọc hình ảnh. Ngược lại, thị giác máy tính tiến xa hơn một bước bằng cách hướng đến việc diễn giải và hiểu nội dung của hình ảnh. Ví dụ, xử lý hình ảnh có thể được sử dụng để cải thiện chất lượng ảnh, trong khi thị giác máy tính được sử dụng để nhận dạng người, vật thể và cảnh trong ảnh đó. Bạn có thể tìm hiểu thêm về sự khác biệt này trong bài tổng quan chi tiết về xử lý hình ảnh kỹ thuật số này.

Nhiệm vụ chính trong thị giác máy tính

Tầm nhìn máy tính bao gồm một số nhiệm vụ chính cho phép máy móc phân tích và diễn giải dữ liệu hình ảnh:

  • Phát hiện đối tượng : Điều này liên quan đến việc xác định và định vị các đối tượng trong hình ảnh hoặc video. Một mô hình như Ultralytics YOLO sẽ vẽ một khung giới hạn xung quanh mỗi đối tượng được phát hiện và gán cho nó một nhãn lớp.
  • Phân loại hình ảnh : Nhiệm vụ này bao gồm việc gán một nhãn duy nhất cho toàn bộ hình ảnh từ một tập hợp các danh mục được xác định trước. Ví dụ: phân loại một hình ảnh có chứa "mèo" hoặc "chó".
  • Phân đoạn ảnh : Không giống như phát hiện đối tượng, phân đoạn ảnh phân loại từng pixel trong ảnh. Nó cung cấp hiểu biết chi tiết hơn nhiều về nội dung của ảnh. Các nhiệm vụ phụ bao gồm phân đoạn thực thểphân đoạn ngữ nghĩa .
  • Ước lượng tư thế : Phương pháp này được sử dụng để xác định vị trí và hướng của một người hoặc vật thể trong không gian. Nó được sử dụng rộng rãi trong robot , thực tế tăng cường và phân tích hoạt động của con người.
  • Theo dõi đối tượng : Nhiệm vụ này bao gồm việc theo dõi một hoặc nhiều đối tượng theo thời gian trong một chuỗi video. Điều này rất quan trọng đối với các ứng dụng như giám sát và điều hướng tự động.

Ứng dụng trong thế giới thực

Các ứng dụng về thị giác máy tính ngày càng phổ biến trong nhiều lĩnh vực khác nhau:

Công cụ và Khung

Việc phát triển và triển khai các mô hình thị giác máy tính trở nên dễ dàng hơn nhờ nhiều công cụ và khuôn khổ khác nhau. Các thư viện như PyTorch (truy cập trang web chính thức của PyTorch ) và TensorFlow (truy cập trang web chính thức của TensorFlow ) là nền tảng để xây dựng mô hình. Các thư viện mã nguồn mở như OpenCV cung cấp một bộ sưu tập lớn các hàm cho thị giác máy tính thời gian thực.

Các nền tảng như Ultralytics HUB hợp lý hóa toàn bộ vòng đời của một dự án CV, từ quản lý tập dữ liệuđào tạo các mô hình tùy chỉnh đến triển khai . Việc sử dụng các định dạng chuẩn hóa như ONNX cũng giúp đảm bảo khả năng tương tác giữa các nền tảng khác nhau. Khi các công nghệ này phát triển, chúng sẽ tiếp tục thúc đẩy sự đổi mới trong nhiều ngành.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, cộng tác và phát triển với những nhà đổi mới toàn cầu

Tham gia ngay
Liên kết đã được sao chép vào clipboard