So khớp hình ảnh trong Vision AI?

Khi bạn nhìn vào hai bức ảnh chụp cùng một vật thể, chẳng hạn như một bức tranh và một bức ảnh chụp một chiếc ô tô, bạn có thể dễ dàng nhận ra điểm chung của chúng. Tuy nhiên, đối với máy móc, điều này không hề đơn giản.

Để thực hiện những so sánh như vậy, máy móc dựa vào thị giác máy tính , một nhánh của trí tuệ nhân tạo (AI ) giúp chúng diễn giải và hiểu thông tin trực quan. Thị giác máy tính cho phép các hệ thống detect các đối tượng, hiểu các cảnh và trích xuất các mẫu từ hình ảnh hoặc video.

Đặc biệt, một số nhiệm vụ thị giác vượt ra ngoài việc phân tích một hình ảnh duy nhất. Chúng bao gồm việc so sánh các hình ảnh để tìm điểm tương đồng, phát hiện điểm khác biệt hoặc track thay đổi theo thời gian.

Vision AI bao gồm một loạt các kỹ thuật, và một khả năng thiết yếu, được gọi là khớp hình ảnh, tập trung vào việc xác định điểm tương đồng giữa các hình ảnh, ngay cả khi ánh sáng, góc nhìn hoặc nền thay đổi. Kỹ thuật này có thể được sử dụng trong nhiều ứng dụng khác nhau, bao gồm robot, thực tế tăng cường và lập bản đồ địa lý.

Trong bài viết này, chúng ta sẽ tìm hiểu về khớp hình ảnh, các kỹ thuật cốt lõi và một số ứng dụng thực tế của nó. Hãy cùng bắt đầu nhé!

Ghép hình ảnh là gì?

Việc so khớp hình ảnh giúp hệ thống máy tính hiểu được liệu hai hình ảnh có chứa nội dung tương tự nhau hay không. Con người có thể làm điều này một cách trực quan bằng cách nhận biết hình dạng, màu sắc và hoa văn.

Mặt khác, máy tính dựa vào dữ liệu số. Chúng phân tích hình ảnh bằng cách nghiên cứu từng pixel, đơn vị nhỏ nhất của hình ảnh kỹ thuật số.

Mỗi hình ảnh được lưu trữ dưới dạng lưới các điểm ảnh, và mỗi điểm ảnh thường chứa các giá trị màu đỏ, lục và lam (RGB). Các giá trị này có thể thay đổi khi hình ảnh được xoay, thay đổi kích thước, xem từ góc độ khác nhau hoặc chụp trong các điều kiện ánh sáng khác nhau. Do những thay đổi này, việc so sánh hình ảnh theo từng điểm ảnh thường không đáng tin cậy.

Để so sánh nhất quán hơn, việc so khớp hình ảnh tập trung vào các đặc điểm cục bộ hoặc góc, cạnh và vùng kết cấu có xu hướng ổn định ngay cả khi hình ảnh thay đổi đôi chút. Bằng cách phát hiện các đặc điểm này, hay còn gọi là điểm chính, trên nhiều hình ảnh, hệ thống có thể so sánh chúng với độ chính xác cao hơn nhiều.

Quá trình này được sử dụng rộng rãi trong các trường hợp sử dụng như điều hướng, định vị, thực tế tăng cường, lập bản đồ, tái tạo 3D và tìm kiếm trực quan. Khi các hệ thống xác định cùng một điểm trên các hình ảnh khác nhau hoặc nhiều khung hình, chúng có thể track chuyển động, hiểu cấu trúc bối cảnh và đưa ra quyết định đáng tin cậy trong môi trường năng động.

Hình 1. Một ví dụ về việc khớp hình ảnh ô tô khi xác định được các điểm chính tương tự. ( Nguồn )

‍

Hiểu cách hoạt động của việc khớp hình ảnh

So khớp hình ảnh bao gồm một số bước chính giúp hệ thống xác định và so sánh các vùng tương tự trong hình ảnh. Mỗi bước cải thiện độ chính xác, tính nhất quán và độ bền vững trong các điều kiện khác nhau.

Sau đây là hướng dẫn từng bước về cách thức hoạt động của việc khớp hình ảnh:

Phát hiện đặc điểm: Hệ thống trước tiên xác định các điểm chính đặc trưng trong ảnh, những điểm này vẫn giữ nguyên vị trí ngay cả khi ánh sáng, tỷ lệ hoặc góc nhìn thay đổi. Chúng làm nổi bật các khu vực như góc, cạnh hoặc vùng có kết cấu nổi bật về mặt thị giác.
Mô tả đặc điểm: Mỗi điểm chính sau đó được chuyển đổi thành một bộ mô tả, là một vectơ số nhỏ gọn, nắm bắt mô hình trực quan xung quanh điểm đó. Các bộ mô tả này cung cấp một phương pháp đáng tin cậy để so sánh các đặc điểm giữa các hình ảnh khác nhau.
So khớp đặc điểm: Các mô tả từ hai hình ảnh được so sánh bằng thuật toán so khớp để tính toán mức độ tương đồng của chúng. Bước này sẽ ghép các điểm chính có vẻ tương ứng và lọc ra các kết quả trùng khớp yếu hơn hoặc không đáng tin cậy.
Xác minh hình học: Cuối cùng, hệ thống kiểm tra xem các điểm chính trùng khớp có tạo thành mối quan hệ hình học thực tế hay không. Hệ thống loại bỏ các điểm trùng khớp không chính xác (gọi là điểm ngoại lai) bằng phương pháp RANSAC (Đồng thuận mẫu ngẫu nhiên), đảm bảo chỉ giữ lại các cặp điểm đáng tin cậy. Sau khi xác định được các điểm trùng khớp tốt, hệ thống sẽ ước tính phép biến đổi phù hợp nhất với hai ảnh. Phép biến đổi này thường là phép biến đổi afin, điều chỉnh các thay đổi như tỷ lệ, xoay và dịch chuyển, hoặc phép biến đổi homography, cũng có thể xử lý các thay đổi về phối cảnh. Việc sử dụng các phép biến đổi này cho phép hệ thống căn chỉnh ảnh chính xác, ngay cả khi chúng được chụp từ các góc nhìn hơi khác nhau.

Hình 2. (a) Trích xuất điểm đặc trưng và (b) so khớp đặc trưng. ( Nguồn )

‍

Các kỹ thuật cốt lõi liên quan đến việc khớp hình ảnh

Trước khi khám phá các ứng dụng thực tế của công nghệ khớp hình ảnh, trước tiên chúng ta hãy xem xét kỹ hơn các kỹ thuật khớp hình ảnh được sử dụng trong hệ thống thị giác máy tính.

So khớp hình ảnh dựa trên mẫu

So khớp mẫu là một trong những phương pháp so khớp hình ảnh đơn giản nhất. Nó thường được coi là một kỹ thuật xử lý hình ảnh hơn là một phương pháp thị giác máy tính hiện đại vì nó dựa trên việc so sánh pixel trực tiếp và không trích xuất các đặc điểm hình ảnh sâu hơn.

Phương pháp này được sử dụng để định vị một ảnh tham chiếu nhỏ hơn, hay còn gọi là mẫu, trong một khung cảnh lớn hơn. Phương pháp này hoạt động bằng cách sử dụng thuật toán trượt một mẫu trên ảnh chính và tính toán điểm tương đồng tại mỗi vị trí để đo mức độ trùng khớp giữa hai vùng. Vùng có điểm cao nhất được coi là khớp nhất, cho biết vị trí mà đối tượng có khả năng xuất hiện nhiều nhất trong khung cảnh.

Hình 3. Một cái nhìn về việc sử dụng khớp mẫu. ( Nguồn )

‍

Kỹ thuật này hoạt động tốt khi tỷ lệ, góc quay và ánh sáng của vật thể vẫn nhất quán, khiến nó trở thành lựa chọn tốt cho các môi trường được kiểm soát hoặc so sánh cơ sở. Tuy nhiên, hiệu suất của nó giảm khi vật thể trông khác so với mẫu, chẳng hạn như khi kích thước thay đổi, vật thể bị xoay, bị che khuất một phần hoặc xuất hiện trên nền nhiễu hoặc phức tạp.

Các kỹ thuật dựa trên đặc điểm cổ điển để khớp hình ảnh

Trước khi học sâu được áp dụng rộng rãi, việc so khớp hình ảnh chủ yếu dựa vào các thuật toán thị giác máy tính cổ điển, phát hiện các điểm chính đặc trưng trong ảnh. Thay vì so sánh từng pixel, các phương pháp này phân tích độ dốc hình ảnh, tức là các thay đổi về cường độ, để làm nổi bật các góc, cạnh và vùng có kết cấu nổi bật.

Mỗi điểm chính được phát hiện sau đó được biểu diễn bằng một bản tóm tắt số nhỏ gọn gọi là bộ mô tả. Khi so sánh hai hình ảnh, bộ so khớp sẽ đánh giá các bộ mô tả này để tìm ra những cặp giống nhau nhất.

Điểm tương đồng cao thường chỉ ra rằng cùng một điểm vật lý xuất hiện trong cả hai hình ảnh. Các công cụ so khớp cũng sử dụng các số liệu khoảng cách cụ thể hoặc quy tắc chấm điểm để đánh giá mức độ gần nhau của các đặc điểm, từ đó cải thiện độ tin cậy tổng thể.

Sau đây là một số thuật toán thị giác máy tính cổ điển chính được sử dụng để khớp hình ảnh:

SIFT (Biến đổi tính năng bất biến theo tỷ lệ) : Xác định các điểm chính bằng cách phân tích các gradient cường độ hình ảnh, cho phép chúng vẫn có thể nhận dạng được khi hình ảnh được phóng to, thu nhỏ hoặc xoay.
SURF (Tính năng mạnh mẽ được tăng tốc): Thuật toán này tương tự như SIFT nhưng được tối ưu hóa về tốc độ. Nó sử dụng các phép tính xấp xỉ nhanh dựa trên gradient, phù hợp cho các ứng dụng yêu cầu thời gian phản hồi nhanh.

ORB (Oriented FAST và Rotated BRIEF): Thuật toán này kết hợp hai thuật toán FAST và BRIEF. FAST nhanh chóng tìm các điểm giống góc trong ảnh, trong khi BRIEF tạo ra một mô tả cô đọng cho từng điểm để chúng có thể được so khớp trên nhiều ảnh. ORB cũng cải thiện cả hai bước bằng cách bổ sung xử lý xoay, giúp thuật toán nhanh chóng và đáng tin cậy hơn.

Hình 4. Các điểm đặc trưng SURF được trích xuất và khớp giữa hai hình ảnh. ( Nguồn )

‍

Các kỹ thuật dựa trên học sâu để khớp hình ảnh

Không giống như các phương pháp cổ điển dựa trên các quy tắc cụ thể, học sâu tự động học các đặc điểm từ các tập dữ liệu lớn, là tập hợp dữ liệu hình ảnh mà các mô hình AI học các mẫu từ đó. Các mô hình này thường chạy trên GPU (Bộ xử lý đồ họa), cung cấp sức mạnh tính toán cao cần thiết để xử lý các lô hình ảnh lớn và huấn luyện các mạng nơ-ron phức tạp một cách hiệu quả.

Điều này mang lại cho các mô hình AI khả năng xử lý các thay đổi trong thế giới thực như ánh sáng, góc máy và hiện tượng che khuất. Một số mô hình còn kết hợp tất cả các bước vào một quy trình làm việc duy nhất, hỗ trợ hiệu suất mạnh mẽ trong các điều kiện khó khăn.

Sau đây là một số phương pháp dựa trên học sâu để trích xuất và so khớp đặc điểm hình ảnh:

Trích xuất đặc trưng dựa trên CNN : Các mô hình này tự động học các mẫu hình ảnh chính từ các tập dữ liệu lớn. Chúng nhận diện các đặc điểm khó thay đổi, giúp chúng đáng tin cậy khi so sánh các đối tượng trên nhiều bối cảnh khác nhau.
‍
So khớp dựa trên nhúng : Thay vì so sánh trực tiếp các điểm ảnh, phương pháp này biến hình ảnh thành các biểu diễn số nhỏ gọn được gọi là nhúng. Sau đó, bộ so khớp sẽ so sánh các nhúng này để tìm ra hình ảnh tương tự. Các mô hình như FaceNet, tạo nhúng để nhận dạng và so sánh khuôn mặt, và CLIP, ánh xạ hình ảnh và văn bản vào một không gian chung cho các tác vụ như tìm kiếm hình ảnh và so khớp ngữ nghĩa, đều áp dụng phương pháp này.

Đường ống khớp lệnh đầu cuối : Các hệ thống học sâu tiên tiến thường kết hợp phát hiện điểm chính, mô tả và khớp lệnh thành một quy trình làm việc thống nhất. Các mô hình như SuperPoint và D2-Net học cả điểm chính và bộ mô tả trực tiếp từ bản đồ đặc trưng CNN, trong khi SuperGlue hoạt động như một bộ khớp lệnh đã học, giúp ghép nối các bộ mô tả này một cách đáng tin cậy hơn so với các phương pháp truyền thống. Cùng nhau, các thành phần này tạo ra một đường ống khớp lệnh đầu cuối mang lại độ chính xác cao hơn và độ bền vững cao hơn trong các điều kiện khó khăn so với các phương pháp dựa trên đặc trưng cổ điển.
‍
So khớp dựa trên bộ chuyển đổi : Phương pháp này sử dụng cơ chế chú ý để liên kết các vùng tương ứng trên hai ảnh, cho phép căn chỉnh các mảng ngay cả khi có sự thay đổi mạnh về góc nhìn, ánh sáng hoặc kết cấu. Các mô hình như LoFTR (Bộ chuyển đổi Đặc tính Cục bộ) đạt độ chính xác cao hơn nhiều vì trường tiếp nhận toàn cục của bộ chuyển đổi cho phép so khớp đáng tin cậy ở các vùng có kết cấu thấp, mờ hoặc lặp lại mà các bộ dò thông thường không làm được. LoFTR tạo ra kết quả so khớp bán đặc, độ tin cậy cao và vượt trội hơn hẳn các phương pháp tiên tiến trước đây trên cả chuẩn trong nhà và ngoài trời.
‍
Các mô hình tập trung vào hiệu quả : Các mô hình khớp hình ảnh mới hơn hướng đến độ chính xác cao trong khi vẫn chạy nhanh hơn. Các mô hình như LightGlue được thiết kế để hoạt động hiệu quả trên các thiết bị có sức mạnh tính toán hạn chế mà vẫn duy trì chất lượng khớp hình ảnh tốt.

Ứng dụng thực tế của việc khớp hình ảnh

Bây giờ chúng ta đã hiểu rõ hơn về cách thức hoạt động của việc khớp hình ảnh, hãy cùng xem xét một số ứng dụng thực tế mà nó đóng vai trò quan trọng.

Robot thông minh hơn được điều khiển bằng cách khớp hình ảnh

Robot thường hoạt động trong môi trường bận rộn và thay đổi, nơi chúng cần hiểu những vật thể nào hiện diện và cách chúng được sắp xếp. So khớp hình ảnh có thể giúp robot hiểu các vật thể chúng nhìn thấy bằng cách so sánh chúng với hình ảnh được lưu trữ hoặc hình ảnh tham chiếu. Điều này giúp robot dễ dàng nhận dạng vật thể hơn. track chuyển động của chúng và thích nghi ngay cả khi ánh sáng hoặc góc máy ảnh thay đổi.

Ví dụ, trong một nhà kho, hệ thống robot lấy và đặt có thể sử dụng công nghệ so khớp hình ảnh để nhận dạng và xử lý các mặt hàng khác nhau. Đầu tiên, robot sẽ lấy một vật thể, sau đó so sánh hình ảnh của nó với các mẫu tham chiếu để nhận dạng.

Hình 5. Một robot nhận dạng và nhặt các vật thể bằng cách so sánh chúng với hình ảnh tham chiếu. ( Nguồn )

‍

Khi tìm thấy sự trùng khớp, robot sẽ biết cách sắp xếp hoặc đặt đúng vị trí. Phương pháp này cho phép robot nhận dạng cả vật thể quen thuộc và mới mà không cần đào tạo lại toàn bộ hệ thống. Nó cũng giúp robot đưa ra quyết định chính xác hơn theo thời gian thực, chẳng hạn như sắp xếp kệ, lắp ráp các bộ phận hoặc sắp xếp lại các vật phẩm.

Cải thiện khả năng tái tạo 3D với hình ảnh khớp tốt hơn

Trong các lĩnh vực như lập bản đồ bằng máy bay không người lái, thực tế ảo và kiểm tra tòa nhà, các hệ thống thường cần tái tạo mô hình 3D từ nhiều hình ảnh 2D. Để làm được điều này, chúng dựa vào việc so khớp hình ảnh để xác định các điểm chính chung, chẳng hạn như các góc hoặc vùng có kết cấu, xuất hiện trên nhiều hình ảnh.

Những điểm chung này giúp hệ thống hiểu được mối liên hệ giữa các hình ảnh trong không gian 3D. Ý tưởng này có liên quan chặt chẽ đến Cấu trúc từ Chuyển động (SfM), một kỹ thuật xây dựng cấu trúc 3D bằng cách xác định và khớp các điểm chính trên các hình ảnh được chụp từ các góc nhìn khác nhau.

Nếu việc khớp hình không chính xác, mô hình 3D thu được có thể bị méo mó hoặc không đầy đủ. Vì lý do này, các nhà nghiên cứu đã và đang nỗ lực cải thiện độ tin cậy của việc khớp hình ảnh trong tái tạo 3D, và những tiến bộ gần đây đã cho thấy những kết quả đầy hứa hẹn.

Một ví dụ thú vị là HashMatch , một thuật toán khớp ảnh nhanh hơn và mạnh mẽ hơn. HashMatch chuyển đổi chi tiết hình ảnh thành các mẫu nhỏ gọn gọi là mã băm, giúp dễ dàng xác định kết quả khớp chính xác và loại bỏ các điểm ngoại lệ, ngay cả khi ánh sáng hoặc góc nhìn thay đổi.

Khi được thử nghiệm trên các tập dữ liệu quy mô lớn, HashMatch tạo ra các mô hình tái tạo 3D sạch hơn và chân thực hơn với ít lỗi căn chỉnh hơn. Điều này đặc biệt hữu ích cho các ứng dụng như lập bản đồ bằng máy bay không người lái, hệ thống AR và bảo tồn di sản văn hóa, những nơi đòi hỏi độ chính xác cao.

Vai trò của việc khớp hình ảnh trong thực tế tăng cường

Khi nói đến thực tế tăng cường (AR) , việc giữ cho các vật thể ảo khớp với thế giới thực thường là một thách thức. Môi trường ngoài trời có thể thay đổi liên tục tùy thuộc vào các điều kiện môi trường, chẳng hạn như ánh sáng mặt trời và thời tiết. Những khác biệt nhỏ trong thế giới thực có thể khiến các yếu tố ảo trông không ổn định hoặc hơi lệch lạc.

Để giải quyết vấn đề này, các hệ thống AR sử dụng công nghệ khớp hình ảnh để diễn giải môi trường xung quanh. Bằng cách so sánh khung hình camera trực tiếp với hình ảnh tham chiếu được lưu trữ, chúng có thể hiểu được vị trí của người dùng và cảnh vật đã thay đổi như thế nào.

Hình 6. Các điểm đặc trưng khớp nhau giữa hai hình ảnh. (Nguồn: theijes.com)

‍

Ví dụ, trong một nghiên cứu liên quan đến huấn luyện AR ngoài trời theo phong cách quân đội với kính XR (Thực tế Mở rộng), các nhà nghiên cứu đã sử dụng SIFT và các phương pháp dựa trên đặc điểm khác để khớp các chi tiết hình ảnh giữa hình ảnh thực và hình ảnh tham chiếu. Việc khớp chính xác giúp các yếu tố ảo luôn khớp với thế giới thực, ngay cả khi người dùng di chuyển nhanh hoặc ánh sáng thay đổi.

Những điều cần nhớ

So khớp hình ảnh là một thành phần cốt lõi của thị giác máy tính, cho phép các hệ thống hiểu được mối liên hệ giữa các hình ảnh khác nhau hoặc cách một cảnh thay đổi theo thời gian. Nó đóng vai trò quan trọng trong robot, thực tế tăng cường, tái tạo 3D, điều hướng tự động và nhiều ứng dụng thực tế khác đòi hỏi độ chính xác và ổn định.

Với các mô hình AI tiên tiến như SuperPoint và LoFTR, các hệ thống ngày nay đang trở nên mạnh mẽ hơn nhiều so với các phương pháp trước đây. Khi các kỹ thuật học máy, mô-đun thị giác chuyên biệt, mạng nơ-ron và bộ dữ liệu tiếp tục phát triển, việc khớp hình ảnh có thể sẽ nhanh hơn, chính xác hơn và dễ thích ứng hơn.

Tham gia cộng đồng đang phát triển của chúng tôi và khám phá kho lưu trữ GitHub của chúng tôi để tìm kiếm các tài nguyên AI thực hành. Để xây dựng với Vision AI ngay hôm nay, hãy khám phá các tùy chọn cấp phép của chúng tôi. Tìm hiểu cách AI trong nông nghiệp đang chuyển đổi nông nghiệp và cách Vision AI trong chăm sóc sức khỏe đang định hình tương lai bằng cách truy cập các trang giải pháp của chúng tôi.

Ghép hình ảnh trong Vision AI là gì? Giới thiệu nhanh

Ghép hình ảnh là gì?

Hiểu cách hoạt động của việc khớp hình ảnh

Các kỹ thuật cốt lõi liên quan đến việc khớp hình ảnh

So khớp hình ảnh dựa trên mẫu

Các kỹ thuật dựa trên đặc điểm cổ điển để khớp hình ảnh

Các kỹ thuật dựa trên học sâu để khớp hình ảnh

Ứng dụng thực tế của việc khớp hình ảnh

Robot thông minh hơn được điều khiển bằng cách khớp hình ảnh

Cải thiện khả năng tái tạo 3D với hình ảnh khớp tốt hơn

Vai trò của việc khớp hình ảnh trong thực tế tăng cường

Những điều cần nhớ

Đọc thêm trong danh mục này

Ước lượng độ sâu đơn ảnh là gì? Tổng quan

Xử lý ảnh là gì? Giới thiệu ngắn gọn

Đối sánh mẫu là gì? Hướng dẫn nhanh

Hãy cùng nhau xây dựng tương lai
của AI!

Ghép hình ảnh trong Vision AI là gì? Giới thiệu nhanh

Ghép hình ảnh là gì?

Hiểu cách hoạt động của việc khớp hình ảnh

Các kỹ thuật cốt lõi liên quan đến việc khớp hình ảnh

So khớp hình ảnh dựa trên mẫu

Các kỹ thuật dựa trên đặc điểm cổ điển để khớp hình ảnh

Các kỹ thuật dựa trên học sâu để khớp hình ảnh

Ứng dụng thực tế của việc khớp hình ảnh

Robot thông minh hơn được điều khiển bằng cách khớp hình ảnh

Cải thiện khả năng tái tạo 3D với hình ảnh khớp tốt hơn

Vai trò của việc khớp hình ảnh trong thực tế tăng cường

Những điều cần nhớ

Đọc thêm trong danh mục này

Ước lượng độ sâu đơn ảnh là gì? Tổng quan

Xử lý ảnh là gì? Giới thiệu ngắn gọn

Đối sánh mẫu là gì? Hướng dẫn nhanh

Hãy cùng nhau xây dựng tương lai của AI!

Hãy cùng nhau xây dựng tương lai
của AI!