Gặp gỡ YOLO26: AI tầm nhìn thế hệ tiếp theo.
Ultralytics
Thị giác AI

Lịch sử của các model thị giác

Khám phá lịch sử, thành tựu, thách thức và hướng đi tương lai của các model thị giác.

MOMostafa Ibrahim
5 min read
Lịch sử của các model thị giác

Link to this sectionThị giác máy tính là gì#

Hãy tưởng tượng bạn bước vào một cửa hàng nơi camera nhận diện khuôn mặt, phân tích tâm trạng và gợi ý các sản phẩm phù hợp với sở thích của bạn—tất cả đều diễn ra theo thời gian thực. Đây không phải là khoa học viễn tưởng mà là hiện thực được hiện thực hóa bởi các mô hình thị giác hiện đại. Theo một báo cáo từ Fortune Business Insight, quy mô thị trường thị giác máy tính toàn cầu được định giá ở mức 20,31 tỷ USD vào năm 2023 và dự kiến sẽ tăng từ 25,41 tỷ USD vào năm 2024 lên 175,72 tỷ USD vào năm 2032, phản ánh sự tiến bộ nhanh chóng và việc áp dụng ngày càng tăng của công nghệ này trên nhiều lĩnh vực khác nhau.

Lĩnh vực thị giác máy tính cho phép máy tính phát hiện, nhận diện và phân tích các đối tượng trong hình ảnh. Tương tự như các lĩnh vực liên quan đến AI khác, thị giác máy tính đã trải qua quá trình tiến hóa nhanh chóng trong vài thập kỷ qua, đạt được những bước tiến vượt bậc.

Lịch sử của thị giác máy tính rất sâu rộng. Trong những năm đầu, các mô hình thị giác máy tính chỉ có khả năng phát hiện các hình dạng và cạnh đơn giản, thường giới hạn ở các tác vụ cơ bản như nhận diện mô hình hình học hoặc phân biệt giữa các vùng sáng và tối. Tuy nhiên, các mô hình ngày nay có thể thực hiện các tác vụ phức tạp như phát hiện đối tượng thời gian thực, nhận diện khuôn mặt và thậm chí diễn giải cảm xúc từ biểu cảm khuôn mặt với độ chính xác và hiệu suất vượt trội. Sự tiến triển mạnh mẽ này làm nổi bật những bước tiến đáng kinh ngạc về sức mạnh tính toán, sự tinh vi của thuật toán và sự sẵn có của lượng dữ liệu khổng lồ để huấn luyện.

Trong bài viết này, chúng ta sẽ khám phá các cột mốc quan trọng trong quá trình tiến hóa của thị giác máy tính. Chúng ta sẽ đi qua những khởi đầu sớm nhất, tìm hiểu về tác động mang tính chuyển đổi của mạng thần kinh tích chập (CNN) và xem xét những tiến bộ đáng kể theo sau đó.

Link to this sectionNhững khởi đầu sớm của thị giác máy tính#

Như với các lĩnh vực AI khác, sự phát triển ban đầu của thị giác máy tính bắt đầu từ nghiên cứu nền tảng và công trình lý thuyết. Một cột mốc quan trọng là công trình tiên phong của Lawrence G. Roberts về nhận diện đối tượng 3D, được ghi lại trong luận án "Nhận thức máy tính về vật thể rắn ba chiều" vào đầu những năm 1960. Những đóng góp của ông đã đặt nền móng cho những tiến bộ trong tương lai của lĩnh vực này.

Link to this sectionCác thuật toán đầu tiên - phát hiện cạnh#

Nghiên cứu thị giác máy tính ban đầu tập trung vào các kỹ thuật xử lý ảnh, chẳng hạn như phát hiện cạnh và trích xuất đặc trưng. Các thuật toán như toán tử Sobel, được phát triển vào cuối những năm 1960, nằm trong số những thuật toán đầu tiên phát hiện các cạnh bằng cách tính gradient của cường độ ảnh.

Một hình ảnh minh họa phát hiện cạnh

Hình 1. Một hình ảnh minh họa phát hiện cạnh, trong đó bên trái hiển thị đối tượng gốc và bên phải hiển thị phiên bản đã phát hiện cạnh.

Các kỹ thuật như bộ phát hiện cạnh Sobel và Canny đóng vai trò quan trọng trong việc xác định ranh giới trong hình ảnh, điều cần thiết để nhận diện đối tượng và hiểu các cảnh.

Link to this sectionHọc máy và thị giác máy tính#

Link to this sectionNhận dạng mẫu#

Trong những năm 1970, nhận dạng mẫu đã nổi lên như một lĩnh vực chính của thị giác máy tính. Các nhà nghiên cứu đã phát triển các phương pháp để nhận diện hình dạng, kết cấu và đối tượng trong hình ảnh, mở đường cho các tác vụ thị giác phức tạp hơn.

Nhận dạng mẫu

Hình 2. Nhận dạng mẫu.

Một trong những phương pháp ban đầu để nhận dạng mẫu liên quan đến so khớp mẫu (template matching), trong đó một hình ảnh được so sánh với một tập hợp các mẫu để tìm kết quả khớp tốt nhất. Cách tiếp cận này bị hạn chế do độ nhạy với các biến thể về tỷ lệ, xoay và nhiễu.

So khớp mẫu trong một hình ảnh

Hình 3. Một mẫu ở phía bên trái được tìm thấy trong hình ảnh bên phải.

Các hệ thống thị giác máy tính ban đầu bị hạn chế bởi sức mạnh tính toán hạn hẹp vào thời điểm đó. Máy tính vào những năm 1960 và 1970 rất cồng kềnh, đắt đỏ và có khả năng xử lý hạn chế.

Link to this sectionThay đổi cuộc chơi với Deep Learning#

Link to this sectionDeep Learning và mạng thần kinh tích chập#

Deep learning và mạng thần kinh tích chập (CNN) đã đánh dấu một thời điểm quan trọng trong lĩnh vực thị giác máy tính. Những tiến bộ này đã thay đổi đáng kể cách máy tính diễn giải và phân tích dữ liệu hình ảnh, cho phép thực hiện nhiều ứng dụng mà trước đây được cho là không thể.

Link to this sectionCNN hoạt động như thế nào?#

Kiến trúc của một mạng thần kinh tích chập (CNN)

Hình 4. Kiến trúc của một mạng thần kinh tích chập (CNN).

  1. Các lớp tích chập (Convolutional Layers): CNN sử dụng các lớp tích chập, là một loại mô hình deep learning được thiết kế để xử lý dữ liệu dạng lưới có cấu trúc như hình ảnh hoặc chuỗi bằng cách tự động học các mẫu phân cấp, để quét một hình ảnh bằng các bộ lọc hoặc kernel. Các bộ lọc này phát hiện nhiều đặc trưng khác nhau như cạnh, kết cấu và màu sắc bằng cách trượt qua hình ảnh và tính tích vô hướng. Mỗi bộ lọc kích hoạt các mẫu cụ thể trong hình ảnh, cho phép mô hình học các đặc trưng phân cấp.
  2. Các hàm kích hoạt (Activation Functions): Sau tích chập, các hàm kích hoạt như ReLU (Rectified Linear Unit), một hàm kích hoạt phổ biến trong deep learning, sẽ xuất trực tiếp đầu vào nếu dương và bằng 0 nếu ngược lại, giúp các mạng thần kinh học các mối quan hệ phi tuyến tính trong dữ liệu một cách hiệu quả. Điều này giúp mạng học các mẫu và biểu diễn phức tạp.
  3. Các lớp gộp (Pooling Layers): Các lớp gộp cung cấp một thao tác giảm lấy mẫu giúp giảm chiều dữ liệu của bản đồ đặc trưng, giúp trích xuất các đặc trưng phù hợp nhất trong khi giảm chi phí tính toán và tình trạng quá khớp (overfitting).
  4. Các lớp kết nối đầy đủ (Fully Connected Layers): Các lớp cuối cùng của một CNN là các lớp kết nối đầy đủ giúp diễn giải các đặc trưng được trích xuất bởi các lớp tích chập và lớp gộp để đưa ra dự đoán. Các lớp này tương tự như các lớp trong mạng thần kinh truyền thống.

Link to this sectionSự tiến hóa của các mô hình thị giác CNN#

Hành trình của các mô hình thị giác đã rất sâu rộng, với một số mô hình đáng chú ý nhất là:

  • LeNet (1989): LeNet là một trong những kiến trúc CNN sớm nhất, chủ yếu được sử dụng để nhận diện chữ số trong các séc viết tay. Sự thành công của nó đã đặt nền móng cho các CNN phức tạp hơn, chứng minh tiềm năng của deep learning trong xử lý ảnh.

  • AlexNet (2012): AlexNet đã vượt xa các mô hình hiện có trong cuộc thi ImageNet, cho thấy sức mạnh của deep learning. Mô hình này sử dụng các hàm kích hoạt ReLU, dropout và tăng cường dữ liệu, thiết lập các tiêu chuẩn mới trong phân loại ảnh và khơi dậy sự quan tâm rộng rãi đến CNN.

  • VGGNet (2014): Bằng cách sử dụng các bộ lọc tích chập nhỏ hơn (3x3), VGGNet đã đạt được kết quả ấn tượng trong các tác vụ phân loại ảnh, củng cố tầm quan trọng của độ sâu mạng trong việc đạt được độ chính xác cao hơn.

  • ResNet (2015): ResNet đã giải quyết vấn đề suy giảm trong các mạng sâu bằng cách giới thiệu học tập dư thừa (residual learning). Sự đổi mới này cho phép huấn luyện các mạng sâu hơn nhiều, dẫn đến hiệu suất vượt trội trong nhiều tác vụ thị giác máy tính.

  • YOLO (You Only Look Once): YOLO đã tạo ra một cuộc cách mạng trong phát hiện đối tượng bằng cách đóng khung nó như một bài toán hồi quy đơn lẻ, dự đoán trực tiếp bounding box và xác suất lớp từ các hình ảnh đầy đủ trong một lần đánh giá. Cách tiếp cận này cho phép phát hiện đối tượng thời gian thực với tốc độ và độ chính xác chưa từng có, làm cho nó phù hợp cho các ứng dụng đòi hỏi xử lý tức thì, chẳng hạn như xe tự láigiám sát.

Link to this sectionCác ứng dụng thị giác máy tính#

Link to this sectionChăm sóc sức khỏe#

Các ứng dụng của thị giác máy tính rất nhiều. Ví dụ, các mô hình thị giác như Ultralytics YOLOv8 được sử dụng trong chẩn đoán hình ảnh y tế để phát hiện các bệnh như ung thư và bệnh võng mạc tiểu đường. Chúng phân tích X-quang, MRI và CT scan với độ chính xác cao, xác định sớm các bất thường. Khả năng phát hiện sớm này cho phép can thiệp kịp thời và cải thiện kết quả điều trị cho bệnh nhân.

Phát hiện khối u não sử dụng Ultralytics YOLOv8

Hình 5. Phát hiện khối u não sử dụng Ultralytics YOLOv8.

Link to this sectionBảo tồn môi trường#

Các mô hình thị giác máy tính giúp theo dõi và bảo vệ các loài có nguy cơ tuyệt chủng bằng cách phân tích hình ảnh và video từ môi trường sống hoang dã. Chúng nhận diện và theo dõi hành vi động vật, cung cấp dữ liệu về quần thể và sự di chuyển của chúng. Công nghệ này hỗ trợ các chiến lược bảo tồn và các quyết định chính sách để bảo vệ các loài như hổ và voi.

Với sự trợ giúp của AI thị giác, các mối đe dọa môi trường khác như cháy rừng và nạn phá rừng có thể được giám sát, đảm bảo thời gian phản ứng nhanh chóng từ các cơ quan chức năng địa phương.

Hình ảnh vệ tinh về một đám cháy rừng

Hình 6. Hình ảnh vệ tinh về một đám cháy rừng.

Link to this sectionThách thức và hướng đi trong tương lai#

Mặc dù đã đạt được những thành tựu đáng kể, nhưng do sự phức tạp tột cùng và tính chất khắt khe trong việc phát triển, các mô hình thị giác phải đối mặt với nhiều thách thức đòi hỏi nghiên cứu liên tục và những tiến bộ trong tương lai.

Link to this sectionKhả năng diễn giải và giải thích#

Các mô hình thị giác, đặc biệt là các mô hình deep learning, thường được coi là "hộp đen" với độ minh bạch hạn chế. Điều này là do các mô hình như vậy cực kỳ phức tạp. Việc thiếu khả năng diễn giải gây cản trở sự tin tưởng và trách nhiệm giải trình, đặc biệt là trong các ứng dụng quan trọng như chăm sóc sức khỏe chẳng hạn.

Link to this sectionYêu cầu về tính toán#

Huấn luyện và triển khai các mô hình AI hiện đại đòi hỏi nguồn lực tính toán đáng kể. Điều này đặc biệt đúng đối với các mô hình thị giác, vốn thường đòi hỏi phải xử lý lượng lớn dữ liệu hình ảnh và video. Hình ảnh và video độ phân giải cao, thuộc nhóm đầu vào huấn luyện chiếm nhiều dữ liệu nhất, làm tăng gánh nặng tính toán. Ví dụ, một hình ảnh HD đơn lẻ có thể chiếm vài megabyte dung lượng lưu trữ, khiến quá trình huấn luyện trở nên tốn tài nguyên và thời gian.

Điều này đòi hỏi phần cứng mạnh mẽ và các thuật toán thị giác máy tính được tối ưu hóa để xử lý dữ liệu phong phú và các phép tính phức tạp liên quan đến việc phát triển các mô hình thị giác hiệu quả. Nghiên cứu về các kiến trúc hiệu quả hơn, nén mô hình và các bộ tăng tốc phần cứng như GPU và TPU là những lĩnh vực then chốt sẽ thúc đẩy tương lai của các mô hình thị giác.

Những cải tiến này nhằm giảm nhu cầu tính toán và tăng hiệu suất xử lý. Hơn nữa, việc tận dụng các mô hình tiền huấn luyện tiên tiến như YOLOv8 có thể giảm đáng kể nhu cầu huấn luyện chuyên sâu, hợp lý hóa quy trình phát triển và nâng cao hiệu suất.

Link to this sectionMột bối cảnh không ngừng phát triển#

Ngày nay, các ứng dụng của mô hình thị giác rất phổ biến, từ chăm sóc sức khỏe, chẳng hạn như phát hiện khối u, đến các mục đích sử dụng hàng ngày như giám sát giao thông. Những mô hình tiên tiến này đã mang lại sự đổi mới cho vô số ngành công nghiệp bằng cách cung cấp độ chính xác, hiệu suất và khả năng nâng cao vốn trước đây không thể tưởng tượng được.

Khi công nghệ tiếp tục tiến bộ, tiềm năng của các mô hình thị giác trong việc đổi mới và cải thiện các khía cạnh khác nhau của cuộc sống và công nghiệp vẫn là vô hạn. Sự tiến hóa không ngừng này nhấn mạnh tầm quan trọng của nghiên cứu và phát triển liên tục trong lĩnh vực thị giác máy tính.

Bạn tò mò về tương lai của AI thị giác? Để biết thêm thông tin về những tiến bộ mới nhất, hãy khám phá Tài liệu Ultralytics, và xem các dự án của họ trên GitHub UltralyticsGitHub YOLOv8. Ngoài ra, để có cái nhìn sâu sắc về các ứng dụng AI trong nhiều ngành công nghiệp, các trang giải pháp về Xe tự láiSản xuất cung cấp những thông tin đặc biệt hữu ích.

Explore solutions

Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.

Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.

Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.

Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.

Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.

Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.

Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.

Tìm hiểu thêm

Hãy cùng nhau xây dựng tương lai của AI!

Bắt đầu hành trình của bạn với tương lai của machine learning