Khớp hình ảnh trong vision AI là gì? Giới thiệu nhanh
Tìm hiểu cách khớp hình ảnh (image matching) trong vision AI hoạt động và khám phá các công nghệ cốt lõi giúp máy tính phát hiện, so sánh và hiểu dữ liệu hình ảnh.

Khi bạn nhìn vào hai bức ảnh của cùng một vật thể, ví dụ như một bức tranh và một tấm ảnh chụp một chiếc xe hơi, bạn rất dễ dàng nhận ra điểm chung giữa chúng. Tuy nhiên, đối với máy tính, điều này không đơn giản như vậy.
Để thực hiện các so sánh như vậy, máy tính dựa vào computer vision, một nhánh của artificial intelligence (AI) giúp chúng diễn giải và hiểu thông tin hình ảnh. Computer vision cho phép các hệ thống phát hiện đối tượng, hiểu cảnh quan và trích xuất các mẫu từ hình ảnh hoặc video.
Cụ thể, một số tác vụ thị giác vượt xa việc chỉ phân tích một hình ảnh đơn lẻ. Chúng liên quan đến việc so sánh các hình ảnh để tìm ra điểm tương đồng, phát hiện sự khác biệt hoặc theo dõi những thay đổi theo thời gian.
Vision AI bao gồm một tập hợp rộng lớn các kỹ thuật, và một khả năng thiết yếu được gọi là khớp ảnh (image matching), tập trung vào việc xác định sự tương đồng giữa các hình ảnh, ngay cả khi ánh sáng, góc độ hoặc nền thay đổi. Kỹ thuật này có thể được sử dụng trong nhiều ứng dụng khác nhau, bao gồm robot, thực tế tăng cường (augmented reality) và bản đồ địa lý.
Trong bài viết này, chúng ta sẽ khám phá khớp ảnh là gì, các kỹ thuật cốt lõi và một số ứng dụng thực tế của nó. Hãy cùng bắt đầu!
Link to this sectionKhớp ảnh là gì?#
Khớp ảnh giúp một hệ thống máy tính hiểu được liệu hai hình ảnh có chứa nội dung tương tự nhau hay không. Con người có thể thực hiện việc này một cách trực quan bằng cách nhận biết hình dạng, màu sắc và các hoa văn.
Ngược lại, máy tính dựa vào dữ liệu số. Chúng phân tích hình ảnh bằng cách kiểm tra từng pixel, đơn vị nhỏ nhất của một hình ảnh kỹ thuật số.
Mỗi hình ảnh được lưu trữ dưới dạng một lưới các pixel, và mỗi pixel thường chứa các giá trị cho màu đỏ, xanh lá cây và xanh dương (RGB). Những giá trị này có thể thay đổi khi hình ảnh bị xoay, thay đổi kích thước, được xem từ một góc độ khác hoặc được chụp trong các điều kiện ánh sáng khác nhau. Do những biến đổi này, việc so sánh hình ảnh theo từng pixel thường không đáng tin cậy.
Để việc so sánh nhất quán hơn, khớp ảnh tập trung vào các đặc trưng cục bộ hoặc các góc, cạnh và vùng có hoa văn có xu hướng ổn định ngay cả khi hình ảnh thay đổi đôi chút. Bằng cách phát hiện các đặc trưng này, hay còn gọi là keypoints (điểm khóa), trên nhiều hình ảnh, một hệ thống có thể so sánh chúng với độ chính xác cao hơn nhiều.
Quá trình này được sử dụng rộng rãi trong các trường hợp sử dụng như điều hướng, định vị, thực tế tăng cường, lập bản đồ, tái tạo 3D và tìm kiếm hình ảnh. Khi các hệ thống xác định cùng một điểm trên các hình ảnh khác nhau hoặc nhiều khung hình, chúng có thể theo dõi chuyển động, hiểu cấu trúc cảnh quan và đưa ra các quyết định đáng tin cậy trong môi trường năng động.

Hình 1. Ví dụ về khớp ảnh xe hơi nơi các keypoints tương tự được xác định. (Nguồn)
Link to this sectionHiểu cách thức hoạt động của khớp ảnh#
Khớp ảnh bao gồm một vài bước chính giúp các hệ thống xác định và so sánh các vùng tương tự trong hình ảnh. Mỗi bước cải thiện độ chính xác, tính nhất quán và khả năng chịu lỗi trong các điều kiện khác nhau.
Dưới đây là cái nhìn từng bước về cách thức hoạt động của khớp ảnh:
- Phát hiện đặc trưng (Feature detection): Hệ thống trước tiên xác định các keypoints đặc biệt trong hình ảnh mà vẫn đứng yên ngay cả khi ánh sáng, tỷ lệ hoặc góc nhìn thay đổi. Chúng làm nổi bật các khu vực như góc, cạnh hoặc vùng có hoa văn nổi bật về mặt thị giác.
- Mô tả đặc trưng (Feature description): Mỗi keypoint sau đó được chuyển đổi thành một bộ mô tả, là một vector số nhỏ gọn ghi lại hoa văn thị giác xung quanh điểm đó. Các bộ mô tả này cung cấp một cách đáng tin cậy để so sánh các đặc trưng giữa các hình ảnh khác nhau.
- Khớp đặc trưng (Feature matching): Các bộ mô tả từ hai hình ảnh được so sánh bằng các thuật toán khớp tính toán mức độ tương đồng giữa chúng. Bước này ghép nối các keypoints có vẻ tương ứng và lọc bỏ các cặp khớp yếu hoặc không đáng tin cậy.
- Xác minh hình học (Geometric verification): Cuối cùng, hệ thống kiểm tra xem các keypoints khớp nhau có tạo thành một mối quan hệ hình học thực tế hay không. Nó loại bỏ các khớp không chính xác (gọi là outliers) bằng cách sử dụng một phương pháp được gọi là RANSAC (Random Sample Consensus), đảm bảo rằng chỉ các cặp điểm đáng tin cậy được giữ lại. Khi các khớp tốt đã được xác định, hệ thống sẽ ước tính phép biến đổi liên kết hai hình ảnh một cách tốt nhất. Đây thường là phép biến đổi affine, giúp điều chỉnh các thay đổi như tỷ lệ, xoay và dịch chuyển, hoặc một phép homography, có thể xử lý cả các thay đổi về phối cảnh. Việc sử dụng các phép biến đổi này cho phép hệ thống căn chỉnh hình ảnh một cách chính xác, ngay cả khi chúng được chụp từ các góc nhìn hơi khác nhau.

Hình 2. (a) Trích xuất điểm đặc trưng và (b) khớp đặc trưng. (Nguồn)
Link to this sectionCác kỹ thuật cốt lõi liên quan đến khớp ảnh#
Trước khi khám phá các ứng dụng thực tế của khớp ảnh, hãy cùng xem xét kỹ hơn các kỹ thuật khớp ảnh được sử dụng trong các hệ thống computer vision.
Link to this sectionKhớp ảnh dựa trên so khớp mẫu (Template matching)#
So khớp mẫu (Template matching) là một trong những phương pháp khớp ảnh đơn giản nhất. Nó thường được coi là một kỹ thuật xử lý ảnh hơn là một phương pháp computer vision hiện đại vì nó dựa trên việc so sánh trực tiếp pixel và không trích xuất các đặc trưng thị giác sâu hơn.
Nó được sử dụng để định vị một hình ảnh tham chiếu nhỏ hơn, hoặc mẫu, trong một cảnh quan lớn hơn. Phương pháp này hoạt động bằng cách sử dụng một thuật toán trượt mẫu trên toàn bộ hình ảnh chính và tính toán điểm tương đồng tại mỗi vị trí để đo lường mức độ khớp của hai vùng đó. Khu vực có điểm số cao nhất được coi là khớp tốt nhất, cho biết đối tượng có khả năng xuất hiện ở đâu trong cảnh quan đó.

Hình 3. Cái nhìn về việc sử dụng so khớp mẫu. (Nguồn)
Kỹ thuật này hoạt động tốt khi tỷ lệ, độ xoay và ánh sáng của đối tượng không thay đổi, khiến nó trở thành lựa chọn tốt cho các môi trường được kiểm soát hoặc các so sánh cơ sở. Tuy nhiên, hiệu suất của nó giảm đi khi đối tượng trông khác với mẫu, chẳng hạn như khi kích thước thay đổi, bị xoay, bị che khuất một phần hoặc xuất hiện trên nền nhiễu hoặc phức tạp.
Link to this sectionCác kỹ thuật dựa trên đặc trưng cổ điển cho khớp ảnh#
Trước khi deep learning trở nên phổ biến, khớp ảnh chủ yếu dựa vào các thuật toán computer vision cổ điển giúp phát hiện các keypoints đặc trưng trong hình ảnh. Thay vì so sánh từng pixel, các phương pháp này phân tích gradient hình ảnh, hoặc những thay đổi về cường độ, để làm nổi bật các góc, cạnh và các vùng có hoa văn nổi bật.
Mỗi keypoint được phát hiện sau đó được đại diện bằng một bản tóm tắt số nhỏ gọn gọi là bộ mô tả (descriptor). Khi so sánh hai hình ảnh, một bộ khớp (matcher) đánh giá các bộ mô tả này để tìm ra các cặp tương tự nhất.
Điểm tương đồng cao thường cho thấy cùng một điểm vật lý xuất hiện trong cả hai hình ảnh. Các matcher cũng sử dụng các thước đo khoảng cách hoặc quy tắc tính điểm cụ thể để đánh giá mức độ căn chỉnh của các đặc trưng, từ đó cải thiện độ tin cậy tổng thể.
Dưới đây là một số thuật toán computer vision cổ điển quan trọng được sử dụng cho khớp ảnh:
-
SIFT (Scale-Invariant Feature Transform): Thuật toán này xác định các keypoints bằng cách phân tích gradient cường độ hình ảnh, cho phép chúng vẫn có thể nhận biết được khi hình ảnh được phóng to, thu nhỏ hoặc xoay.
-
SURF (Speeded-Up Robust Features): Thuật toán này tương tự như SIFT nhưng được tối ưu hóa cho tốc độ. Nó sử dụng các phép tính xấp xỉ nhanh dựa trên gradient, làm cho nó phù hợp với các ứng dụng yêu cầu thời gian phản hồi nhanh.
-
ORB (Oriented FAST and Rotated BRIEF): Nó kết hợp hai thuật toán gọi là FAST và BRIEF. FAST tìm nhanh các điểm giống góc trong một hình ảnh, trong khi BRIEF tạo ra một mô tả nhỏ gọn cho mỗi điểm để chúng có thể được khớp qua các hình ảnh. ORB cũng tăng cường cả hai bước bằng cách thêm tính năng xử lý xoay, giúp nó trở nên nhanh chóng và đáng tin cậy.

Hình 4. Các điểm đặc trưng SURF được trích xuất và khớp giữa hai hình ảnh. (Nguồn)
Link to this sectionCác kỹ thuật dựa trên deep learning cho khớp ảnh#
Không giống như các phương pháp cổ điển dựa trên các quy tắc cụ thể, deep learning tự động học các đặc trưng từ các tập dữ liệu lớn, vốn là các bộ sưu tập dữ liệu thị giác mà các mô hình AI học các hoa văn từ đó. Các mô hình này thường chạy trên GPU (Graphics Processing Units), cung cấp khả năng tính toán cao cần thiết để xử lý các lô hình ảnh lớn và huấn luyện các mạng thần kinh phức tạp một cách hiệu quả.
Điều này mang lại cho các mô hình AI khả năng xử lý các thay đổi trong thế giới thực như ánh sáng, góc máy ảnh và sự che khuất. Một số mô hình cũng kết hợp tất cả các bước vào một quy trình duy nhất, hỗ trợ hiệu suất mạnh mẽ trong các điều kiện đầy thách thức.
Dưới đây là một số cách tiếp cận dựa trên deep learning để trích xuất và khớp đặc trưng hình ảnh:
-
Trích xuất đặc trưng dựa trên CNN: Các mô hình này tự động học các hoa văn thị giác quan trọng từ các tập dữ liệu lớn. Chúng nhận diện các đặc trưng ít có khả năng thay đổi, làm cho chúng trở nên đáng tin cậy để khớp các đối tượng qua các cảnh quan khác nhau.
-
Khớp dựa trên embedding: Thay vì so sánh trực tiếp pixel, phương pháp này biến hình ảnh thành các biểu diễn số nhỏ gọn được gọi là embeddings. Bộ khớp sau đó so sánh các embedding này để tìm ra các hình ảnh tương tự. Các mô hình như FaceNet, tạo ra các embedding để nhận diện và so sánh khuôn mặt, và CLIP, ánh xạ hình ảnh và văn bản vào một không gian chung cho các tác vụ như tìm kiếm hình ảnh và khớp ngữ nghĩa, đều tuân theo cách tiếp cận này.
-
Quy trình khớp end-to-end: Các hệ thống deep learning tiên tiến thường kết hợp việc phát hiện keypoint, mô tả và khớp thành một quy trình thống nhất. Các mô hình như SuperPoint và D2-Net học cả keypoints và bộ mô tả trực tiếp từ các bản đồ đặc trưng CNN, trong khi SuperGlue đóng vai trò là một bộ khớp được học giúp ghép nối các bộ mô tả này đáng tin cậy hơn so với các phương pháp truyền thống. Cùng với nhau, các thành phần này tạo nên một quy trình end-to-end mang lại độ chính xác cao hơn và khả năng chịu lỗi lớn hơn trong các điều kiện đầy thách thức so với các phương pháp dựa trên đặc trưng cổ điển.
-
Khớp dựa trên Transformer: Phương pháp này sử dụng các cơ chế chú ý (attention mechanisms) để liên kết các vùng tương ứng giữa hai hình ảnh, cho phép nó căn chỉnh các vùng ngay cả khi có sự thay đổi mạnh về góc nhìn, ánh sáng hoặc hoa văn. Các mô hình như LoFTR (Local Feature Transformer) đạt độ chính xác cao hơn nhiều vì trường tiếp nhận toàn cục (global receptive field) của Transformer cho phép khớp đáng tin cậy trong các khu vực ít hoa văn, mờ hoặc lặp đi lặp lại mà các máy dò truyền thống thất bại. LoFTR tạo ra các khớp semi-dense với độ tin cậy cao và vượt xa các phương pháp hiện đại trước đó trên cả các chuẩn đo lường trong nhà và ngoài trời.
-
Các mô hình tập trung vào hiệu suất: Các mô hình khớp ảnh mới hơn nhằm mục đích mang lại độ chính xác cao trong khi chạy nhanh hơn. Các mô hình như LightGlue được thiết kế để chạy hiệu quả trên các thiết bị có khả năng tính toán hạn chế trong khi vẫn duy trì chất lượng khớp tốt.
Link to this sectionCác ứng dụng thực tế của khớp ảnh#
Giờ đây, khi chúng ta đã hiểu rõ hơn về cách thức hoạt động của khớp ảnh, hãy cùng xem xét một số ứng dụng thực tế nơi nó đóng một vai trò quan trọng.
Link to this sectionRobot thông minh hơn nhờ khớp ảnh#
Robot thường hoạt động trong các môi trường bận rộn và hay thay đổi, nơi chúng cần hiểu đối tượng nào đang hiện diện và cách chúng được đặt. Khớp ảnh có thể giúp robot hiểu các đối tượng mà chúng nhìn thấy bằng cách so sánh chúng với các hình ảnh được lưu trữ hoặc tham chiếu. Điều này giúp robot dễ dàng nhận diện đối tượng, theo dõi chuyển động của chúng và thích nghi ngay cả khi ánh sáng hoặc góc máy ảnh thay đổi.
Ví dụ, trong một nhà kho, một hệ thống gắp và đặt (pick-and-place) bằng robot có thể sử dụng khớp ảnh để xác định và xử lý các mặt hàng khác nhau. Robot trước tiên sẽ lấy một đối tượng, sau đó so sánh hình ảnh của nó với các mẫu tham chiếu để xác định nó.

Hình 5. Một robot nhận diện và gắp đối tượng bằng cách khớp chúng với các hình ảnh tham chiếu. (Nguồn)
Khi khớp được tìm thấy, robot biết cách phân loại hoặc đặt nó đúng vị trí. Cách tiếp cận này cho phép robot nhận diện cả các đối tượng quen thuộc và mới mà không cần phải huấn luyện lại toàn bộ hệ thống. Nó cũng giúp chúng đưa ra các quyết định thời gian thực tốt hơn, như sắp xếp kệ, lắp ráp các bộ phận hoặc sắp xếp lại các mặt hàng.
Link to this sectionCải thiện tái tạo 3D với khớp ảnh tốt hơn#
Trong các lĩnh vực như lập bản đồ bằng drone, thực tế ảo và kiểm tra tòa nhà, các hệ thống thường cần tái tạo mô hình 3D từ nhiều hình ảnh 2D. Để làm điều này, chúng dựa vào khớp ảnh để xác định các keypoints chung, như góc hoặc các vùng có hoa văn, xuất hiện trên nhiều hình ảnh.
Các điểm chung này giúp hệ thống hiểu cách các hình ảnh liên quan với nhau trong không gian 3D. Ý tưởng này có liên quan mật thiết đến Structure from Motion (SfM), một kỹ thuật xây dựng các cấu trúc 3D bằng cách xác định và khớp các keypoints trên các hình ảnh được chụp từ các góc nhìn khác nhau.
Nếu việc khớp không chính xác, mô hình 3D thu được có thể bị biến dạng hoặc không đầy đủ. Vì lý do này, các nhà nghiên cứu đã nỗ lực cải thiện độ tin cậy của khớp ảnh cho tái tạo 3D, và những tiến bộ gần đây đã cho thấy kết quả đầy hứa hẹn.
Một ví dụ thú vị là HashMatch, một thuật toán khớp ảnh nhanh hơn và mạnh mẽ hơn. HashMatch chuyển đổi các chi tiết hình ảnh thành các hoa văn nhỏ gọn gọi là mã băm (hash codes), giúp xác định các khớp đúng dễ dàng hơn và loại bỏ outliers, ngay cả khi ánh sáng hoặc góc nhìn thay đổi.
Khi được thử nghiệm trên các tập dữ liệu quy mô lớn, HashMatch đã tạo ra các mô hình tái tạo 3D sạch hơn và thực tế hơn với ít lỗi căn chỉnh hơn. Điều này làm cho nó đặc biệt hữu ích cho các ứng dụng như lập bản đồ bằng drone, các hệ thống AR và bảo tồn di sản văn hóa, nơi sự chính xác là yếu tố then chốt.
Link to this sectionVai trò của khớp ảnh trong thực tế tăng cường#
Khi nói đến thực tế tăng cường (AR), việc giữ các đối tượng ảo căn chỉnh với thế giới thực thường là một thách thức. Các môi trường ngoài trời có thể thay đổi liên tục tùy thuộc vào điều kiện môi trường, như ánh sáng mặt trời và thời tiết. Những khác biệt nhỏ trong thế giới thực có thể khiến các phần tử ảo xuất hiện không ổn định hoặc hơi lệch vị trí.
Để giải quyết vấn đề này, các hệ thống AR sử dụng khớp ảnh để diễn giải môi trường xung quanh. Bằng cách so sánh các khung hình camera trực tiếp với các hình ảnh tham chiếu được lưu trữ, chúng có thể hiểu người dùng đang ở đâu và cảnh quan đã thay đổi như thế nào.

Hình 6. Các điểm đặc trưng được khớp giữa hai hình ảnh. (Nguồn: theijes.com)
Ví dụ, trong một nghiên cứu liên quan đến đào tạo AR ngoài trời kiểu quân đội với kính XR (Extended Reality), các nhà nghiên cứu đã sử dụng SIFT và các phương pháp dựa trên đặc trưng khác để khớp các chi tiết thị giác giữa hình ảnh thực và hình ảnh tham chiếu. Các khớp chính xác giúp giữ cho các phần tử ảo được căn chỉnh đúng với thế giới thực, ngay cả khi người dùng di chuyển nhanh hoặc ánh sáng thay đổi.
Link to this sectionCác điểm chính cần lưu ý#
Khớp ảnh là một thành phần cốt lõi của computer vision, cho phép các hệ thống hiểu cách các hình ảnh khác nhau liên quan đến nhau hoặc cách một cảnh quan thay đổi theo thời gian. Nó đóng một vai trò quan trọng trong robot, thực tế tăng cường, tái tạo 3D, điều hướng tự động và nhiều ứng dụng thực tế khác, nơi độ chính xác và tính ổn định là điều cần thiết.
Với các mô hình AI tiên tiến như SuperPoint và LoFTR, các hệ thống ngày nay đang trở nên mạnh mẽ hơn nhiều so với các phương pháp trước đây. Khi các kỹ thuật học máy, các module thị giác chuyên dụng, các mạng thần kinh và các tập dữ liệu tiếp tục phát triển, khớp ảnh có khả năng sẽ trở nên nhanh hơn, chính xác hơn và dễ thích nghi hơn.
Hãy tham gia cộng đồng đang phát triển của chúng tôi và khám phá kho lưu trữ GitHub để có các tài nguyên AI thực hành. Để xây dựng với vision AI ngay hôm nay, hãy khám phá các tùy chọn cấp phép của chúng tôi. Tìm hiểu cách AI trong nông nghiệp đang chuyển đổi canh tác và cách Vision AI trong chăm sóc sức khỏe đang định hình tương lai bằng cách truy cập các trang giải pháp của chúng tôi.






