Bằng cách nhấp vào “Chấp nhận tất cả Cookie”, bạn đồng ý với việc lưu trữ cookie trên thiết bị của mình để tăng cường khả năng điều hướng trang web, phân tích việc sử dụng trang web và hỗ trợ các nỗ lực tiếp thị của chúng tôi. Thêm thông tin
Cài đặt Cookie
Bằng cách nhấp vào “Chấp nhận tất cả Cookie”, bạn đồng ý với việc lưu trữ cookie trên thiết bị của mình để tăng cường khả năng điều hướng trang web, phân tích việc sử dụng trang web và hỗ trợ các nỗ lực tiếp thị của chúng tôi. Thêm thông tin
Tìm hiểu về thuật toán SIFT. Tìm hiểu SIFT là gì, các tính năng mạnh mẽ của nó cho thị giác máy tính bất biến theo tỷ lệ. Nâng cao khả năng xử lý hình ảnh của bạn.
Ngày nay, nhiều thiết bị thông minh mà chúng ta sử dụng, từ điện thoại và máy ảnh đến hệ thống nhà thông minh, đều đi kèm với các giải pháp AI có thể nhận dạng khuôn mặt, đồ vật và thậm chí toàn bộ cảnh trực quan. Khả năng này đến từ thị giác máy tính, một lĩnh vực trí tuệ nhân tạo cho phép máy móc hiểu và diễn giải hình ảnh và video.
Ví dụ: nếu bạn chụp ảnh Tháp Eiffel từ bất kỳ góc độ hoặc khoảng cách nào, thiết bị của bạn thường vẫn có thể nhận ra nó bằng computer vision và sắp xếp nó vào đúng thư mục trong thư viện của bạn. Mặc dù điều này nghe có vẻ đơn giản, nhưng việc nhận dạng đối tượng không phải lúc nào cũng dễ dàng. Hình ảnh có thể trông rất khác nhau tùy thuộc vào kích thước, góc, tỷ lệ hoặc ánh sáng của chúng, điều này gây khó khăn cho máy móc trong việc xác định chúng một cách nhất quán.
Để giúp giải quyết vấn đề này, các nhà nghiên cứu đã phát triển một thuật toán thị giác máy tính có tên là Scale Invariant Feature Transform, hay SIFT. Thuật toán này giúp có thể phát hiện các đối tượng trong các điều kiện xem khác nhau. Được tạo ra bởi David Lowe vào năm 1999, SIFT được thiết kế để tìm và mô tả các điểm chính duy nhất trong một hình ảnh, chẳng hạn như các góc, cạnh hoặc mẫu vẫn có thể nhận ra ngay cả khi hình ảnh bị thay đổi kích thước, xoay hoặc chiếu sáng khác nhau.
Trước khi các mô hình thị giác máy tính dựa trên deep learning như Ultralytics YOLO11 trở nên phổ biến, SIFT là một kỹ thuật được sử dụng rộng rãi trong thị giác máy tính. Đây là một phương pháp tiêu chuẩn cho các tác vụ như nhận dạng đối tượng, trong đó mục tiêu là xác định một mục cụ thể trong ảnh và khớp ảnh, trong đó ảnh được căn chỉnh bằng cách tìm các đặc điểm hình ảnh chồng lên nhau.
Trong bài viết này, chúng ta sẽ khám phá SIFT với một cái nhìn tổng quan nhanh về nó là gì, cách nó hoạt động ở cấp độ cao và tại sao nó lại quan trọng trong quá trình phát triển của thị giác máy tính. Hãy cùng bắt đầu!
Tại sao thuật toán SIFT lại cần thiết cho thị giác máy tính?
Trong một hình ảnh, một đối tượng có thể xuất hiện theo nhiều cách khác nhau. Ví dụ: một chiếc cốc cà phê có thể được chụp từ trên xuống, từ bên cạnh, dưới ánh sáng mặt trời chói chang hoặc dưới ánh đèn ấm áp. Cùng một chiếc cốc cũng có thể trông lớn hơn khi ở gần máy ảnh và nhỏ hơn khi ở xa hơn.
Tất cả những khác biệt này làm cho việc dạy máy tính nhận dạng một đối tượng trở thành một nhiệm vụ phức tạp. Nhiệm vụ thị giác máy tính này, được gọi là phát hiện đối tượng, yêu cầu các mô hình Vision AI xác định và định vị các đối tượng một cách chính xác, ngay cả khi kích thước, góc độ hoặc điều kiện ánh sáng của chúng thay đổi.
Để thực hiện điều này, thị giác máy tính dựa vào một quy trình gọi là trích xuất đặc trưng (feature extraction) hoặc phát hiện. Thay vì cố gắng hiểu toàn bộ hình ảnh cùng một lúc, một mô hình sẽ tìm kiếm các đặc trưng hình ảnh đặc biệt như góc cạnh sắc nét, mẫu hoặc kết cấu độc đáo mà vẫn có thể nhận ra được ở các góc độ, tỷ lệ và điều kiện ánh sáng khác nhau.
Đặc biệt, đây là những gì Scale Invariant Feature Transform, hay SIFT, được thiết kế để thực hiện. SIFT là một thuật toán phát hiện và mô tả đặc trưng có thể xác định một cách đáng tin cậy các đối tượng trong hình ảnh, bất kể chúng được chụp như thế nào.
Đạt được tính bất biến tỷ lệ
Thuật toán SIFT có một vài thuộc tính quan trọng giúp nó hữu ích cho việc nhận dạng đối tượng. Một trong những thuộc tính quan trọng là bất biến tỷ lệ (scale invariance). Điều này có nghĩa là SIFT có thể nhận ra các phần khác nhau của một đối tượng, cho dù nó trông lớn và ở gần máy ảnh hay nhỏ và ở xa. Ngay cả khi đối tượng không hoàn toàn hiển thị, thuật toán vẫn có thể chọn ra các điểm chính tương tự.
Nó thực hiện điều này bằng cách sử dụng một khái niệm gọi là lý thuyết không gian tỷ lệ (scale-space theory). Nói một cách đơn giản, hình ảnh bị làm mờ ở các mức độ khác nhau để tạo ra nhiều phiên bản. Sau đó, SIFT xem xét các phiên bản này để tìm các mẫu và chi tiết giữ nguyên, bất kể hình ảnh thay đổi về kích thước hoặc độ sắc nét như thế nào.
Ví dụ: một biển báo đường bộ được chụp ảnh từ một vài mét sẽ trông lớn hơn nhiều so với cùng một biển báo được chụp ở khoảng cách xa, nhưng SIFT vẫn có thể phát hiện ra các đặc điểm đặc biệt giống nhau. Điều này giúp có thể khớp hai hình ảnh một cách chính xác, mặc dù biển báo xuất hiện ở các tỷ lệ rất khác nhau.
Đảm bảo tính bất biến xoay
Các đối tượng trong ảnh cũng có thể xuất hiện bị xoay, đôi khi thậm chí lộn ngược. SIFT xử lý điều này thông qua một thuộc tính gọi là tính bất biến xoay. Đối với mỗi điểm đặc trưng mà nó phát hiện, thuật toán sẽ gán một hướng nhất quán dựa trên độ dốc hình ảnh cục bộ. Bằng cách này, cùng một đối tượng có thể được nhận dạng cho dù nó được xoay như thế nào.
Bạn có thể hình dung nó giống như việc đánh dấu từng keypoint bằng một mũi tên nhỏ cho biết hướng mà nó đối diện. Bằng cách căn chỉnh các đặc trưng theo các hướng này, SIFT đảm bảo rằng các keypoint khớp chính xác ngay cả khi đối tượng bị xoay. Ví dụ: một địa danh được chụp trong ảnh phong cảnh vẫn có thể được xác định chính xác ngay cả khi một ảnh khác của nó được chụp với máy ảnh bị nghiêng một góc.
Khả năng phục hồi trước các biến thể hình ảnh khác
Ngoài kích thước và độ xoay, hình ảnh cũng có thể thay đổi theo những cách khác, chẳng hạn như thay đổi độ chiếu sáng. Ánh sáng trên một vật thể có thể chuyển từ sáng sang tối, góc máy ảnh có thể thay đổi một chút hoặc hình ảnh có thể bị mờ hoặc nhiễu.
SIFT được xây dựng để xử lý các loại biến thể này. Nó thực hiện điều này bằng cách tập trung vào các keypoint có tính đặc biệt và độ tương phản cao, vì các đặc điểm này ít bị ảnh hưởng bởi sự thay đổi về ánh sáng hoặc sự thay đổi nhỏ về góc nhìn. Do đó, SIFT có xu hướng đáng tin cậy hơn các phương pháp phát hiện cạnh hoặc góc đơn giản, thường không thành công khi điều kiện thay đổi.
Hình 1. Các điểm đặc trưng SIFT được trích xuất từ (a) ảnh trời mưa và (b) ảnh đầu vào sạch tương ứng của nó. (Nguồn)
Hãy xem xét một bức tranh trong phòng trưng bày. Nó vẫn có thể được nhận dạng cho dù được chụp dưới ánh sáng ban ngày dịu nhẹ, dưới ánh đèn nhân tạo rực rỡ, hoặc thậm chí bị mờ do chuyển động nhẹ từ máy ảnh cầm tay. Các điểm đặc trưng vẫn đủ ổn định để đối sánh chính xác bất chấp những khác biệt này.
Cách thức hoạt động của thuật toán Scale-Invariant Feature Transform (SIFT)
Tiếp theo, hãy xem xét cách thuật toán SIFT hoạt động. Quy trình này có thể được chia thành bốn bước chính: phát hiện điểm đặc trưng, định vị điểm đặc trưng, gán hướng và mô tả điểm đặc trưng.
Bước 1: Phát hiện cực trị trong không gian tỷ lệ (Scale-space extrema detection)
Bước đầu tiên là tìm và phát hiện các điểm đặc trưng (keypoint), là những điểm khác biệt trong hình ảnh, chẳng hạn như các góc hoặc các thay đổi đột ngột về kết cấu, giúp theo dõi hoặc nhận dạng một đối tượng.
Để đảm bảo các điểm chính tiềm năng này có thể được nhận dạng ở mọi kích thước, SIFT xây dựng cái được gọi là không gian tỷ lệ. Đây là một tập hợp các hình ảnh được tạo bằng cách làm mờ dần hình ảnh gốc bằng bộ lọc Gaussian, một kỹ thuật làm mịn và nhóm các kết quả thành các lớp được gọi là quãng tám. Mỗi quãng tám chứa cùng một hình ảnh ở mức độ mờ tăng dần, trong khi quãng tám tiếp theo là một phiên bản nhỏ hơn của hình ảnh.
Bằng cách trừ một ảnh bị mờ khỏi một ảnh khác, SIFT tính toán Sai số của Gauss (DoG), làm nổi bật các khu vực có độ sáng thay đổi mạnh. Các khu vực này được chọn làm điểm đặc trưng tiềm năng vì chúng vẫn nhất quán khi hình ảnh được phóng to hoặc thu nhỏ.
Hình 2. DoG làm nổi bật các cấu trúc chính bằng cách trừ các ảnh bị làm mờ ở các mức độ khác nhau. (Nguồn)
Bước 2: Bản địa hóa điểm đặc trưng (Keypoint localization)
Không phải tất cả các điểm đặc trưng tiềm năng đều hữu ích vì một số có thể yếu hoặc không ổn định. Để tinh chỉnh chúng, SIFT sử dụng một phương pháp toán học gọi là Khai triển chuỗi Taylor, giúp ước tính vị trí chính xác của một điểm đặc trưng với độ chính xác cao hơn.
Trong bước này, các điểm không đáng tin cậy sẽ bị loại bỏ. Các điểm đặc trưng có độ tương phản thấp, hòa lẫn vào môi trường xung quanh, sẽ bị loại bỏ, cũng như những điểm nằm trực tiếp trên các cạnh, vì chúng có thể dịch chuyển quá dễ dàng. Bước lọc này chỉ để lại những điểm đặc trưng ổn định và khác biệt nhất.
Bước 3: Gán hướng
Sau khi các điểm đặc trưng ổn định được xác định, SIFT làm cho chúng bất biến với phép quay, có nghĩa là chúng vẫn có thể được khớp ngay cả khi hình ảnh bị xoay ngang hoặc lộn ngược. Để thực hiện việc này, SIFT phân tích cách độ sáng thay đổi xung quanh mỗi điểm đặc trưng, được gọi là gradient. Gradient cho thấy cả hướng và cường độ thay đổi về cường độ pixel và cùng nhau chúng nắm bắt cấu trúc cục bộ xung quanh điểm.
Đối với mỗi keypoint (điểm đặc trưng), SIFT xem xét các gradient (độ dốc) trong một vùng xung quanh và nhóm chúng thành một histogram (biểu đồ tần suất) của các hướng. Đỉnh cao nhất trong histogram này cho biết hướng thay đổi cường độ chiếm ưu thế, sau đó được gán làm hướng của keypoint. Cả hướng gradient, cho biết nơi cường độ đang thay đổi và độ lớn gradient, cho biết mức độ mạnh của sự thay đổi đó, đều được sử dụng để xây dựng histogram này.
Nếu có các đỉnh khác gần bằng độ mạnh, SIFT sẽ gán nhiều hướng cho cùng một điểm đặc trưng. Điều này ngăn chặn các đặc điểm quan trọng bị mất khi các đối tượng xuất hiện ở các góc bất thường. Bằng cách căn chỉnh mỗi điểm đặc trưng với hướng của nó, SIFT đảm bảo rằng các descriptor được tạo ra trong bước tiếp theo vẫn nhất quán.
Nói cách khác, ngay cả khi hai hình ảnh của cùng một đối tượng được xoay khác nhau, các điểm đặc trưng được căn chỉnh theo hướng vẫn sẽ khớp chính xác. Bước này là điều mang lại cho SIFT khả năng xử lý xoay mạnh mẽ và làm cho nó mạnh mẽ hơn nhiều so với các phương pháp phát hiện đặc trưng trước đây.
Hình 3. Xem xét kỹ hơn bước 3 của thuật toán SIFT (Nguồn)
Bước 4: Mô tả điểm đặc trưng (Keypoint descriptor)
Bước cuối cùng trong SIFT là tạo ra mô tả cho mỗi điểm đặc trưng để nó có thể được nhận dạng trong các hình ảnh khác.
SIFT đạt được điều này bằng cách xem xét một vùng vuông nhỏ xung quanh mỗi keypoint, kích thước khoảng 16 x 16 pixel. Vùng này trước tiên được căn chỉnh theo hướng của keypoint để độ xoay không ảnh hưởng đến nó. Sau đó, vùng này được chia thành một lưới gồm 4 x 4 ô vuông nhỏ hơn.
Trong mỗi ô vuông nhỏ, SIFT đo lường sự thay đổi độ sáng theo các hướng khác nhau. Những thay đổi này được lưu trữ trong một thứ gọi là biểu đồ (histogram), giống như một biểu đồ hiển thị những hướng nào là phổ biến nhất. Mỗi ô vuông có biểu đồ riêng và cùng nhau 16 ô vuông tạo ra 16 biểu đồ.
Cuối cùng, các histogram này được kết hợp thành một danh sách duy nhất gồm 128 số. Danh sách này được gọi là vector đặc trưng và nó hoạt động như một dấu vân tay cho điểm đặc trưng. Vì nó nắm bắt được cấu trúc và kết cấu độc đáo xung quanh điểm, dấu vân tay này giúp có thể khớp cùng một điểm đặc trưng trên các hình ảnh khác nhau, ngay cả khi chúng được thay đổi kích thước, xoay hoặc chiếu sáng khác nhau.
Các ứng dụng chính của SIFT trong thị giác máy tính
Bây giờ chúng ta đã hiểu rõ hơn về SIFT là gì và cách nó hoạt động, hãy cùng khám phá một số ứng dụng thực tế của nó trong thị giác máy tính.
Nhận dạng và phát hiện đối tượng
Một trong những ứng dụng chính của SIFT là trong nhận dạng và phát hiện đối tượng. Điều này bao gồm việc dạy máy tính nhận dạng và định vị các đối tượng trong hình ảnh, ngay cả khi các đối tượng không phải lúc nào cũng trông giống nhau. Ví dụ: SIFT có thể phát hiện một cuốn sách bất kể nó ở gần máy ảnh, ở xa hơn hay xoay ở một góc.
Lý do điều này hiệu quả là vì SIFT trích xuất các điểm đặc trưng có tính phân biệt cao và ổn định. Khi các điểm đặc trưng này được ghép nối với các bộ mô tả SIFT, chúng tạo thành các đặc trưng SIFT, cung cấp một cách đáng tin cậy để khớp cùng một đối tượng trên các hình ảnh khác nhau. Các đặc trưng này nắm bắt các chi tiết duy nhất của đối tượng vẫn nhất quán, cho phép khớp đặc trưng đáng tin cậy trên các hình ảnh ngay cả khi kích thước, vị trí hoặc hướng của đối tượng thay đổi.
Hình 5. Sử dụng SIFT để nhận dạng bìa sách trong một hình ảnh mới được chụp ở hướng khác với ảnh gốc. Hình ảnh của tác giả.
Trước khi học sâu trở nên phổ biến, SIFT là một trong những phương pháp đáng tin cậy nhất để xây dựng hệ thống nhận dạng đối tượng. Nó đã được sử dụng rộng rãi trong nghiên cứu và các ứng dụng yêu cầu so khớp các đối tượng trên các tập dữ liệu hình ảnh lớn, mặc dù nó thường đòi hỏi tài nguyên tính toán đáng kể.
Khâu ảnh và tạo ảnh toàn cảnh
SIFT cũng có thể được sử dụng để tạo ra ảnh toàn cảnh, là những bức ảnh rộng được tạo ra bằng cách ghép nhiều ảnh lại với nhau. Sử dụng SIFT, các keypoint đặc biệt được tìm thấy trong các phần chồng lên nhau của các hình ảnh khác nhau và sau đó được ghép nối với nhau. Các kết quả ghép nối này đóng vai trò như các điểm neo, hướng dẫn quá trình ghép ảnh về cách các ảnh nên được căn chỉnh.
Sau khi quá trình khớp hoàn tất, các thuật toán ghép ảnh có thể được sử dụng để tính toán sự căn chỉnh chính xác, thường sử dụng các phép biến đổi hình học để ánh xạ một hình ảnh lên một hình ảnh khác. Sau đó, các hình ảnh được pha trộn để các đường nối biến mất. Kết quả cuối cùng là một ảnh toàn cảnh liền mạch trông giống như một bức ảnh rộng duy nhất, mặc dù nó được tạo từ nhiều ảnh chụp.
Tái tạo 3D và robot học
Một ứng dụng thú vị khác của SIFT là trong tái tạo 3D, nơi nhiều ảnh 2D được chụp từ các góc khác nhau được kết hợp để xây dựng mô hình ba chiều. SIFT hoạt động bằng cách tìm và khớp các điểm giống nhau trên các hình ảnh này.
Sau khi các kết quả phù hợp được tạo, vị trí 3D của các điểm đó có thể được ước tính bằng cách sử dụng phép tam giác, một phương pháp tính toán độ sâu từ các điểm nhìn khác nhau. Quá trình này là một phần của cấu trúc từ chuyển động (SfM), một kỹ thuật sử dụng nhiều hình ảnh chồng chéo để ước tính hình dạng 3D của một cảnh cùng với vị trí của các máy ảnh đã chụp ảnh.
Kết quả thường là một đám mây điểm 3D, một tập hợp các điểm trong không gian phác thảo đối tượng hoặc môi trường. SIFT là một trong những công cụ đầu tiên giúp cấu trúc từ chuyển động trở nên thiết thực. Mặc dù các kỹ thuật mới hơn nhanh hơn và phổ biến hơn ngày nay, SIFT vẫn tiếp tục được áp dụng khi độ chính xác quan trọng hơn tốc độ.
SIFT cũng đã được sử dụng trong robotics, đặc biệt là trong visual SLAM (Định vị và lập bản đồ đồng thời bằng thị giác). SLAM cho phép robot xác định vị trí của nó đồng thời xây dựng bản đồ môi trường xung quanh.
Các keypoint SIFT đóng vai trò là các điểm mốc đáng tin cậy mà robot có thể nhận ra trên các khung hình, ngay cả khi ánh sáng hoặc góc thay đổi. Bằng cách theo dõi các điểm mốc này, robot có thể ước tính vị trí của nó và cập nhật bản đồ của nó một cách nhanh chóng. Mặc dù các bộ phát hiện đặc trưng nhanh hơn được sử dụng thường xuyên hơn trong robot học ngày nay, nhưng SIFT đóng một vai trò quan trọng trong các hệ thống SLAM ban đầu và vẫn là chìa khóa trong các trường hợp mà độ mạnh mẽ quan trọng hơn tốc độ.
Ưu điểm và cân nhắc của SIFT
Mặc dù thuật toán SIFT đã được sử dụng rộng rãi trong computer vision (thị giác máy tính) và được biết đến như một phương pháp đáng tin cậy, nhưng nó cũng đi kèm với một số đánh đổi. Đó là lý do tại sao điều quan trọng là phải cân nhắc ưu và nhược điểm của nó trước khi quyết định xem nó có phù hợp với một dự án hay không. Tiếp theo, hãy cùng xem xét những điểm mạnh và hạn chế chính của nó.
Ưu điểm cốt lõi của SIFT
Dưới đây là một số ưu điểm của việc sử dụng thuật toán SIFT:
Tính bất biến theo tỷ lệ và xoay: SIFT cung cấp các điểm đặc trưng bất biến theo tỷ lệ, vẫn tương đối ổn định khi các đối tượng xuất hiện ở các kích cỡ hoặc hướng khác nhau, đây là một bước tiến đáng kể so với các bộ dò tìm đặc trưng trước đây.
Khả năng chống chịu vừa phải với các thay đổi về ánh sáng và góc nhìn: SIFT có thể xử lý các thay đổi về độ sáng, độ tương phản hoặc các thay đổi nhỏ về góc nhìn, mặc dù nó ít đáng tin cậy hơn trong các điều kiện khắc nghiệt hơn.
Khả năng hoạt động trong các cảnh lộn xộn hoặc bị che khuất một phần: Vì SIFT phát hiện nhiều điểm đặc trưng cục bộ, nó thường có thể xác định một đối tượng ngay cả khi một phần của nó bị che hoặc nền phức tạp.
Cân nhắc về hiệu suất và các lựa chọn thay thế
Dưới đây là một số nhược điểm của việc sử dụng thuật toán SIFT:
Tốn kém về mặt tính toán: Quy trình nhiều bước và các descriptor chi tiết của SIFT làm cho nó chậm hơn và tốn nhiều tài nguyên hơn so với các bộ dò tìm đặc trưng hiện đại. Để cải thiện điều này, các nhà nghiên cứu đã phát triển thuật toán SURF (Speeded-Up Robust Features), sử dụng các phép tính nhanh hơn để tìm và mô tả các đặc trưng. SURF kém chính xác hơn SIFT trong một số trường hợp, nhưng nó chạy nhanh hơn nhiều, làm cho nó thiết thực hơn cho các tác vụ nhạy cảm về thời gian.
Không lý tưởng cho việc sử dụng trong thời gian thực: Do chi phí tính toán của nó, SIFT gặp khó khăn khi nói đến các ứng dụng mà tốc độ là rất quan trọng, chẳng hạn như theo dõi thời gian thực hoặc robot di động.
Tính linh hoạt hạn chế: Mặc dù mạnh mẽ trong nhiều trường hợp, SIFT kém hiệu quả hơn khi ánh sáng thay đổi quá nhiều, góc nhìn thay đổi lớn hoặc các cảnh có tính động cao, nơi các thuật toán hoặc phương pháp học máy mới hơn hoạt động tốt hơn.
Trong khi khám phá những ưu và nhược điểm của SIFT, bạn có thể nhận thấy rằng nhiều hạn chế của nó đã mở đường cho các kỹ thuật tiên tiến hơn. Đặc biệt, mạng nơ-ron tích chập (CNN) nổi lên như một giải pháp thay thế mạnh mẽ.
CNN là một loại mô hình học sâu lấy cảm hứng từ cách hệ thống thị giác của con người hoạt động. Nó xử lý một hình ảnh theo các lớp, bắt đầu từ các mẫu đơn giản như cạnh và kết cấu, và dần dần xây dựng thành các hình dạng và đối tượng phức tạp hơn. Không giống như các quy tắc đặc trưng thủ công của SIFT, CNN học các biểu diễn đặc trưng trực tiếp từ dữ liệu.
Việc học dựa trên dữ liệu này có nghĩa là CNN có thể vượt trội hơn SIFT trong các tác vụ so khớp descriptor và phân loại. CNN cũng biểu cảm và mạnh mẽ hơn, thích ứng tốt hơn với sự thay đổi và phức tạp của dữ liệu trực quan.
Ví dụ: các mô hình dựa trên CNN đã đạt được kết quả đột phá trên ImageNet, một benchmark dataset khổng lồ chứa hàng triệu hình ảnh được gắn nhãn trên hàng ngàn danh mục. Được thiết kế để kiểm tra mức độ tốt của các thuật toán trong việc nhận dạng và phân loại đối tượng, ImageNet có thể làm nổi bật khoảng cách giữa các phương pháp dựa trên tính năng cũ hơn và deep learning.
CNN nhanh chóng vượt qua SIFT bằng cách học các biểu diễn phong phú và linh hoạt hơn nhiều, cho phép chúng nhận dạng các đối tượng trong điều kiện ánh sáng thay đổi, từ các góc nhìn khác nhau và ngay cả khi bị che khuất một phần, những trường hợp mà SIFT thường gặp khó khăn.
Những điều cần nhớ
Thuật toán Scale Invariant Feature Transform (SIFT) giữ một vị trí quan trọng trong lịch sử của thị giác máy tính. Nó cung cấp một cách đáng tin cậy để phát hiện các đặc trưng ngay cả trong môi trường thay đổi và ảnh hưởng đến nhiều phương pháp được sử dụng ngày nay.
Mặc dù các kỹ thuật mới hơn nhanh hơn và hiệu quả hơn, SIFT đã đặt nền móng cho chúng. SIFT cho thấy sự tiến bộ ngày nay trong lĩnh vực thị giác máy tính bắt đầu từ đâu và làm nổi bật hệ thống AI tiên tiến đã đạt được những thành tựu vượt bậc như thế nào.