Lịch sử của các mô hình thị giác

Mostafa Ibrahim

5 phút đọc

Ngày 16 tháng 7 năm 2024

Khám phá lịch sử, thành tựu, thách thức và định hướng tương lai của các mô hình tầm nhìn.

Tầm nhìn máy tính là gì

Hãy tưởng tượng bạn bước vào một cửa hàng nơi camera nhận dạng khuôn mặt bạn, phân tích tâm trạng của bạn và gợi ý các sản phẩm phù hợp với sở thích của bạn—tất cả đều theo thời gian thực. Đây không phải là khoa học viễn tưởng mà là hiện thực được hỗ trợ bởi các mô hình thị giác hiện đại. Theo báo cáo của Fortune Business Insight , quy mô thị trường thị giác máy tính toàn cầu được định giá là 20,31 tỷ đô la Mỹ vào năm 2023 và dự kiến sẽ tăng từ 25,41 tỷ đô la Mỹ vào năm 2024 lên 175,72 tỷ đô la Mỹ vào năm 2032, phản ánh sự tiến bộ nhanh chóng và việc áp dụng ngày càng tăng của công nghệ này trong nhiều ngành công nghiệp khác nhau.

Lĩnh vực thị giác máy tính cho phép máy tính phát hiện, xác định và phân tích các đối tượng trong hình ảnh. Tương tự như các lĩnh vực liên quan đến AI khác, thị giác máy tính đã trải qua quá trình phát triển nhanh chóng trong vài thập kỷ qua, đạt được những tiến bộ đáng kể. 

Lịch sử của thị giác máy tính rất rộng lớn. Trong những năm đầu, các mô hình thị giác máy tính có khả năng phát hiện các hình dạng và cạnh đơn giản, thường chỉ giới hạn ở các tác vụ cơ bản như nhận dạng các mẫu hình học hoặc phân biệt giữa các vùng sáng và tối. Tuy nhiên, các mô hình ngày nay có thể thực hiện các tác vụ phức tạp như phát hiện vật thể theo thời gian thực , nhận dạng khuôn mặt và thậm chí diễn giải cảm xúc từ biểu cảm khuôn mặt với độ chính xác và hiệu quả đặc biệt. Sự tiến triển đáng kể này làm nổi bật những bước tiến đáng kinh ngạc về sức mạnh tính toán, sự tinh vi của thuật toán và khả năng cung cấp lượng lớn dữ liệu để đào tạo.

Trong bài viết này, chúng ta sẽ khám phá những cột mốc quan trọng trong quá trình phát triển của thị giác máy tính. Chúng ta sẽ đi qua những khởi đầu ban đầu của nó, đi sâu vào tác động chuyển đổi của Mạng nơ-ron tích chập (CNN) và xem xét những tiến bộ đáng kể sau đó.

Sự khởi đầu ban đầu của tầm nhìn máy tính

Giống như các lĩnh vực AI khác, sự phát triển ban đầu của thị giác máy tính bắt đầu bằng nghiên cứu cơ bản và công trình lý thuyết. Một cột mốc quan trọng là công trình tiên phong của Lawrence G. Roberts về nhận dạng vật thể 3D, được ghi chép trong luận án " Nhận thức máy về vật rắn ba chiều " của ông vào đầu những năm 1960. Những đóng góp của ông đã đặt nền tảng cho những tiến bộ trong tương lai trong lĩnh vực này.

Các thuật toán đầu tiên - phát hiện cạnh

Nghiên cứu thị giác máy tính ban đầu tập trung vào các kỹ thuật xử lý hình ảnh, chẳng hạn như phát hiện cạnh và trích xuất đặc điểm. Các thuật toán như toán tử Sobel, được phát triển vào cuối những năm 1960, là một trong những thuật toán đầu tiên phát hiện cạnh bằng cách tính toán độ dốc của cường độ hình ảnh.

__wf_reserved_thừa kế
Hình 1. Một hình ảnh minh họa khả năng phát hiện cạnh, trong đó phía bên trái hiển thị vật thể ban đầu và phía bên phải hiển thị phiên bản đã phát hiện cạnh.

Các kỹ thuật như máy dò cạnh Sobel và Canny đóng vai trò quan trọng trong việc xác định ranh giới trong hình ảnh, điều này rất cần thiết để nhận dạng vật thể và hiểu được bối cảnh.

Học máy và thị giác máy tính

Nhận dạng mẫu

Vào những năm 1970, nhận dạng mẫu nổi lên như một lĩnh vực quan trọng của thị giác máy tính. Các nhà nghiên cứu đã phát triển các phương pháp để nhận dạng hình dạng, kết cấu và vật thể trong hình ảnh, mở đường cho các nhiệm vụ thị giác phức tạp hơn.

__wf_reserved_thừa kế
Hình 2. Nhận dạng mẫu.

Một trong những phương pháp ban đầu để nhận dạng mẫu liên quan đến việc khớp mẫu, trong đó một hình ảnh được so sánh với một tập hợp các mẫu để tìm ra sự khớp tốt nhất. Cách tiếp cận này bị hạn chế bởi độ nhạy của nó đối với các biến thể về tỷ lệ, độ xoay và nhiễu.

__wf_reserved_thừa kế
Hình 3. Một mẫu ở phía bên trái nằm trong hình ảnh bên phải.

Các hệ thống thị giác máy tính ban đầu bị hạn chế bởi sức mạnh tính toán hạn chế của thời đó. Máy tính trong những năm 1960 và 1970 cồng kềnh, đắt tiền và có khả năng xử lý hạn chế.

Thay đổi trò chơi với Học sâu

Học sâu và mạng nơ-ron tích chập

Học sâu và Mạng nơ-ron tích chập (CNN) đã đánh dấu một thời điểm quan trọng trong lĩnh vực thị giác máy tính. Những tiến bộ này đã biến đổi đáng kể cách máy tính diễn giải và phân tích dữ liệu trực quan, cho phép thực hiện nhiều ứng dụng mà trước đây được cho là không thể.

CNN hoạt động như thế nào?

__wf_reserved_thừa kế
Hình 4. Kiến trúc của Mạng nơ-ron tích chập (CNN).

  1. Convolutional Layers : CNN sử dụng các lớp convolutional , một loại mô hình học sâu được thiết kế để xử lý dữ liệu dạng lưới có cấu trúc, chẳng hạn như hình ảnh hoặc chuỗi, bằng cách tự động học các mẫu phân cấp. để quét hình ảnh bằng bộ lọc hoặc hạt nhân. Các bộ lọc này phát hiện các tính năng khác nhau như cạnh, kết cấu và màu sắc bằng cách trượt qua hình ảnh và tính toán tích vô hướng. Mỗi bộ lọc kích hoạt các mẫu cụ thể trong hình ảnh, cho phép mô hình học các tính năng phân cấp.
  2. Hàm kích hoạt : Sau khi tích chập, các hàm kích hoạt như ReLU (Đơn vị tuyến tính chỉnh lưu) là một hàm kích hoạt phổ biến trong học sâu, xuất trực tiếp đầu vào nếu dương và bằng không nếu không, giúp mạng nơ-ron học các mối quan hệ phi tuyến tính trong dữ liệu một cách hiệu quả. Điều này giúp mạng học các mẫu và biểu diễn phức tạp.
  3. Lớp gộp : Lớp gộp cung cấp hoạt động giảm mẫu giúp giảm số chiều của bản đồ đặc điểm, giúp trích xuất các đặc điểm có liên quan nhất đồng thời giảm chi phí tính toán và hiện tượng quá khớp.
  4. Các lớp được kết nối đầy đủ : Các lớp cuối cùng của CNN là các lớp được kết nối đầy đủ, diễn giải các đặc điểm được trích xuất bởi các lớp tích chập và lớp gộp để đưa ra dự đoán. Các lớp này tương tự như các lớp trong mạng nơ-ron truyền thống.

Sự phát triển của các mô hình tầm nhìn CNN

Hành trình của các mô hình tầm nhìn rất rộng lớn, có một số mô hình đáng chú ý nhất:

  • LeNet (1989): LeNet là một trong những kiến trúc CNN đầu tiên, chủ yếu được sử dụng để nhận dạng chữ số trong các séc viết tay. Thành công của nó đã đặt nền tảng cho các CNN phức tạp hơn, chứng minh tiềm năng của học sâu trong xử lý hình ảnh.
  • AlexNet (2012): AlexNet vượt trội hơn hẳn các mô hình hiện có trong cuộc thi ImageNet, cho thấy sức mạnh của học sâu. Mô hình này sử dụng các kích hoạt ReLU, dropout và tăng cường dữ liệu, thiết lập các chuẩn mực mới trong phân loại hình ảnh và khơi dậy sự quan tâm rộng rãi đến CNN.
  • VGGNet (2014): Bằng cách sử dụng các bộ lọc tích chập nhỏ hơn (3x3), VGGNet đã đạt được kết quả ấn tượng về nhiệm vụ phân loại hình ảnh, củng cố tầm quan trọng của độ sâu mạng trong việc đạt được độ chính xác cao hơn.
  • ResNet (2015): ResNet giải quyết vấn đề suy thoái trong mạng sâu bằng cách giới thiệu học tập còn lại. Đổi mới này cho phép đào tạo các mạng sâu hơn nhiều, dẫn đến hiệu suất tiên tiến trong nhiều tác vụ thị giác máy tính.
  • YOLO (You Only Look Once) : YOLO đã cách mạng hóa việc phát hiện đối tượng bằng cách đóng khung nó như một vấn đề hồi quy đơn lẻ, trực tiếp dự đoán các hộp giới hạn và xác suất lớp từ hình ảnh đầy đủ trong một lần đánh giá. Phương pháp này cho phép phát hiện đối tượng theo thời gian thực với tốc độ và độ chính xác chưa từng có, khiến nó phù hợp với các ứng dụng yêu cầu xử lý tức thời, chẳng hạn như lái xe tự độnggiám sát .

Ứng dụng thị giác máy tính

Chăm sóc sức khỏe

Ứng dụng của thị giác máy tính rất đa dạng. Ví dụ, các mô hình thị giác như Ultralytics YOLOv8 được sử dụng trong hình ảnh y tế để phát hiện các bệnh như ung thư và bệnh võng mạc tiểu đường. Chúng phân tích X-quang, MRI và CT với độ chính xác cao, xác định sớm các bất thường. Khả năng phát hiện sớm này cho phép can thiệp kịp thời và cải thiện kết quả cho bệnh nhân.

__wf_reserved_thừa kế
Hình 5. Phát hiện khối u não bằng Ultralytics YOLOv8 .

Bảo vệ môi trường

Các mô hình thị giác máy tính giúp giám sát và bảo vệ các loài có nguy cơ tuyệt chủng bằng cách phân tích hình ảnh và video từ môi trường sống của động vật hoang dã. Chúng xác định và theo dõi hành vi của động vật, cung cấp dữ liệu về quần thể và chuyển động của chúng. Công nghệ này cung cấp thông tin cho các chiến lược bảo tồn và các quyết định chính sách để bảo vệ các loài như hổ và voi.

Với sự trợ giúp của AI thị giác, các mối đe dọa môi trường khác như cháy rừng và nạn phá rừng có thể được theo dõi, đảm bảo thời gian phản ứng nhanh chóng từ chính quyền địa phương.

__wf_reserved_thừa kế
Hình 6. Ảnh vệ tinh của một đám cháy rừng.

Thách thức và định hướng tương lai

Mặc dù đã đạt được những thành tựu đáng kể, nhưng do tính phức tạp cao và bản chất đòi hỏi khắt khe trong quá trình phát triển, các mô hình thị giác vẫn phải đối mặt với nhiều thách thức đòi hỏi phải nghiên cứu liên tục và có những tiến bộ trong tương lai.

Khả năng diễn giải và giải thích

Các mô hình thị giác, đặc biệt là các mô hình học sâu, thường được coi là "hộp đen" với tính minh bạch hạn chế. Điều này là do các mô hình như vậy cực kỳ phức tạp. Việc thiếu khả năng diễn giải cản trở sự tin tưởng và trách nhiệm giải trình, đặc biệt là trong các ứng dụng quan trọng như chăm sóc sức khỏe chẳng hạn.

Yêu cầu tính toán

Đào tạo và triển khai các mô hình AI tiên tiến đòi hỏi nhiều tài nguyên tính toán. Điều này đặc biệt đúng đối với các mô hình thị giác, thường yêu cầu xử lý lượng lớn dữ liệu hình ảnh và video. Hình ảnh và video độ nét cao, là một trong những dữ liệu đầu vào đào tạo đòi hỏi nhiều dữ liệu nhất, làm tăng thêm gánh nặng tính toán. Ví dụ, một hình ảnh HD duy nhất có thể chiếm nhiều megabyte dung lượng lưu trữ, khiến quá trình đào tạo tốn nhiều tài nguyên và thời gian.

Điều này đòi hỏi phần cứng mạnh mẽ và thuật toán thị giác máy tính được tối ưu hóa để xử lý dữ liệu mở rộng và các phép tính phức tạp liên quan đến việc phát triển các mô hình thị giác hiệu quả. Nghiên cứu về kiến trúc hiệu quả hơn, nén mô hình và bộ tăng tốc phần cứng như GPU và TPU là những lĩnh vực chính sẽ thúc đẩy tương lai của các mô hình thị giác.

Những cải tiến này nhằm mục đích giảm nhu cầu tính toán và tăng hiệu quả xử lý. Hơn nữa, việc tận dụng các mô hình được đào tạo trước tiên tiến như YOLOv8 có thể giảm đáng kể nhu cầu đào tạo mở rộng, hợp lý hóa quy trình phát triển và nâng cao hiệu quả.

Một cảnh quan luôn thay đổi

Ngày nay, các ứng dụng của mô hình thị giác rất rộng rãi, từ chăm sóc sức khỏe , chẳng hạn như phát hiện khối u, đến các ứng dụng hàng ngày như giám sát giao thông . Các mô hình tiên tiến này đã mang lại sự đổi mới cho vô số ngành công nghiệp bằng cách cung cấp độ chính xác, hiệu quả và khả năng nâng cao mà trước đây không thể tưởng tượng được.

Khi công nghệ tiếp tục phát triển, tiềm năng của các mô hình thị giác để đổi mới và cải thiện nhiều khía cạnh của cuộc sống và công nghiệp vẫn là vô hạn. Sự phát triển liên tục này nhấn mạnh tầm quan trọng của việc tiếp tục nghiên cứu và phát triển trong lĩnh vực thị giác máy tính.

Bạn có tò mò về tương lai của AI thị giác không? Để biết thêm thông tin về những tiến bộ mới nhất, hãy khám phá Tài liệu Ultralytics và xem các dự án của họ trên GitHub UltralyticsGitHub YOLOv8 . Ngoài ra, để có cái nhìn sâu sắc về các ứng dụng AI trong nhiều ngành công nghiệp khác nhau, các trang giải pháp về Xe tự láiSản xuất cung cấp thông tin đặc biệt hữu ích.

Hãy cùng xây dựng tương lai
của AI cùng nhau!

Bắt đầu hành trình của bạn với tương lai của máy học

Bắt đầu miễn phí
Liên kết đã được sao chép vào clipboard