Hướng dẫn

Scale-Invariant Feature Transform (SIFT) là gì?

Khám phá thuật toán SIFT. Tìm hiểu SIFT là gì, các tính năng mạnh mẽ của nó cho computer vision bất biến với tỷ lệ. Tăng cường khả năng xử lý hình ảnh của bạn.

ABAbirami Vina

6 min readSeptember 9, 2025

Thuật toán Scale-Invariant Feature Transform (SIFT) trong computer vision

Để có cái nhìn trực quan về các khái niệm được đề cập trong bài viết này, hãy xem video bên dưới.

Ngày nay, nhiều thiết bị thông minh mà chúng ta sử dụng, từ điện thoại, máy ảnh cho đến hệ thống nhà thông minh, đều được trang bị các giải pháp AI có khả năng nhận diện khuôn mặt, vật thể và thậm chí là toàn bộ cảnh quan trực quan. Khả năng này đến từ computer vision, một lĩnh vực của trí tuệ nhân tạo cho phép máy móc hiểu và diễn giải hình ảnh cũng như video.

Ví dụ, nếu bạn chụp ảnh tháp Eiffel từ bất kỳ góc độ hay khoảng cách nào, thiết bị của bạn thường vẫn có thể nhận ra nó bằng computer vision và sắp xếp vào đúng thư mục trong bộ sưu tập. Mặc dù nghe có vẻ đơn giản, việc nhận diện vật thể không phải lúc nào cũng dễ dàng. Hình ảnh có thể trông rất khác nhau tùy thuộc vào kích thước, góc độ, tỷ lệ hoặc ánh sáng, điều này gây khó khăn cho máy móc trong việc nhận diện một cách nhất quán.

Để giúp giải quyết vấn đề này, các nhà nghiên cứu đã phát triển một thuật toán computer vision gọi là Scale Invariant Feature Transform, hay SIFT. Thuật toán này giúp việc phát hiện vật thể trong các điều kiện quan sát khác nhau trở nên khả thi. Được tạo ra bởi David Lowe vào năm 1999, SIFT được thiết kế để tìm kiếm và mô tả các keypoints độc đáo trong một hình ảnh, chẳng hạn như các góc, cạnh hoặc hoa văn vẫn có thể nhận dạng được ngay cả khi hình ảnh bị thay đổi kích thước, xoay hoặc được chiếu sáng khác đi.

Trước khi các mô hình computer vision dựa trên deep learning như Ultralytics YOLO11 trở nên phổ biến, SIFT là một kỹ thuật được sử dụng rộng rãi trong computer vision. Đây từng là phương pháp tiêu chuẩn cho các tác vụ như nhận diện vật thể (object recognition), nơi mục tiêu là xác định một mục cụ thể trong ảnh, và khớp ảnh (image matching), nơi các bức ảnh được căn chỉnh bằng cách tìm các đặc trưng ảnh trùng lặp.

Trong bài viết này, chúng ta sẽ khám phá SIFT với cái nhìn tổng quan về nó là gì, cách thức hoạt động ở cấp độ cao và lý do tại sao nó quan trọng trong quá trình tiến hóa của computer vision. Hãy bắt đầu nào!

Link to this sectionTại sao thuật toán SIFT lại cần thiết cho computer vision#

Trong một hình ảnh, một vật thể có thể xuất hiện theo nhiều cách khác nhau. Ví dụ, một chiếc cốc cà phê có thể được chụp từ trên cao, từ bên cạnh, dưới ánh sáng mặt trời rực rỡ hoặc dưới ánh đèn ấm áp. Cùng một chiếc cốc đó cũng có thể trông lớn hơn khi ở gần máy ảnh và nhỏ hơn khi ở xa hơn.

Tất cả những khác biệt này làm cho việc dạy máy tính nhận diện một vật thể trở thành một tác vụ phức tạp. Tác vụ computer vision này, được gọi là object detection, đòi hỏi các mô hình Vision AI phải xác định và định vị vật thể chính xác, ngay cả khi kích thước, góc độ hoặc điều kiện ánh sáng thay đổi.

Để thực hiện được điều này, computer vision dựa vào một quy trình gọi là feature extraction hoặc phát hiện đặc trưng. Thay vì cố gắng hiểu toàn bộ hình ảnh cùng một lúc, một mô hình sẽ tìm kiếm các đặc trưng hình ảnh đặc biệt như các góc nhọn, hoa văn hoặc kết cấu độc đáo vẫn có thể nhận biết được qua các góc độ, tỷ lệ và điều kiện ánh sáng khác nhau.

Cụ thể, đây chính là điều mà Scale Invariant Feature Transform, hay SIFT, được thiết kế để thực hiện. SIFT là một thuật toán phát hiện và mô tả đặc trưng có thể xác định vật thể một cách đáng tin cậy trong hình ảnh, bất kể chúng được chụp như thế nào.

Link to this sectionĐạt được sự bất biến về tỷ lệ (scale invariance)#

Thuật toán SIFT có một vài thuộc tính quan trọng giúp nó hữu ích cho việc nhận diện vật thể. Một trong những thuộc tính chính được gọi là scale invariance. Điều này có nghĩa là SIFT có thể nhận ra các phần khác nhau của một vật thể, dù nó trông lớn và ở gần máy ảnh hay nhỏ và ở rất xa. Ngay cả khi vật thể không hoàn toàn hiển thị rõ, thuật toán vẫn có thể chọn ra các keypoints giống nhau.

Nó thực hiện điều này bằng cách sử dụng một khái niệm gọi là scale-space theory. Đơn giản mà nói, hình ảnh được làm mờ ở các mức độ khác nhau để tạo ra nhiều phiên bản. Sau đó, SIFT xem xét qua các phiên bản này để tìm ra các hoa văn và chi tiết vẫn không thay đổi, bất kể hình ảnh thay đổi như thế nào về kích thước hoặc độ sắc nét.

Ví dụ, một biển báo đường bộ được chụp từ khoảng cách vài mét sẽ trông lớn hơn nhiều so với cùng biển báo đó được chụp từ xa, nhưng SIFT vẫn có thể phát hiện các đặc trưng đặc biệt giống nhau. Điều này giúp việc khớp hai hình ảnh một cách chính xác trở nên khả thi, ngay cả khi biển báo xuất hiện ở các tỷ lệ rất khác nhau.

Link to this sectionĐảm bảo tính bất biến về xoay (rotation invariance)#

Các vật thể trong hình ảnh cũng có thể xuất hiện dưới dạng bị xoay, đôi khi thậm chí là ngược đầu. SIFT xử lý điều này thông qua một thuộc tính gọi là rotation invariance. Đối với mỗi keypoint mà nó phát hiện, thuật toán gán một hướng nhất quán dựa trên các gradient ảnh cục bộ. Bằng cách này, cùng một vật thể có thể được nhận diện bất kể nó bị xoay như thế nào.

Bạn có thể coi nó giống như việc đánh dấu mỗi keypoint bằng một mũi tên nhỏ cho biết hướng mà nó đối diện. Bằng cách căn chỉnh các đặc trưng theo các hướng này, SIFT đảm bảo rằng các keypoints khớp chính xác ngay cả khi vật thể bị xoay. Ví dụ, một địa danh được chụp trong ảnh phong cảnh vẫn có thể được xác định chính xác ngay cả khi một bức ảnh khác của nó được chụp với máy ảnh nghiêng ở một góc nào đó.

Link to this sectionKhả năng chống chịu với các biến thể hình ảnh khác#

Ngoài kích thước và sự xoay, hình ảnh còn có thể thay đổi theo những cách khác, chẳng hạn như thay đổi về độ sáng. Ánh sáng trên một vật thể có thể chuyển từ sáng sang mờ, góc máy có thể thay đổi nhẹ, hoặc hình ảnh có thể bị mờ hoặc nhiễu.

SIFT được xây dựng để xử lý các loại biến thể này. Nó làm điều đó bằng cách tập trung vào các keypoints đặc biệt và có độ tương phản cao, vì các đặc trưng này ít bị ảnh hưởng bởi thay đổi ánh sáng hoặc các thay đổi nhỏ về góc nhìn. Kết quả là, SIFT thường đáng tin cậy hơn các phương pháp edge or corner detection đơn giản, vốn thường thất bại khi điều kiện thay đổi.

Các điểm đặc trưng SIFT được trích xuất từ một hình ảnh mưa và hình ảnh đầu vào sạch của nó

Hình 1. Các keypoints SIFT được trích xuất từ (a) một hình ảnh mưa và (b) hình ảnh đầu vào sạch tương ứng của nó. (Nguồn)

Hãy xem xét một bức tranh trong phòng trưng bày. Nó vẫn có thể được nhận diện dù được chụp dưới ánh sáng ban ngày dịu nhẹ, dưới ánh đèn nhân tạo rực rỡ, hay thậm chí với một chút mờ do chuyển động từ máy ảnh cầm tay. Các keypoints vẫn đủ ổn định để khớp chính xác mặc dù có những khác biệt này.

Link to this sectionThuật toán Scale-Invariant Feature Transform (SIFT) hoạt động như thế nào#

Tiếp theo, hãy cùng xem cách thuật toán SIFT hoạt động. Quá trình này có thể được chia thành bốn bước chính: phát hiện keypoint, định vị keypoint, gán hướng và mô tả keypoint.

Link to this sectionBước 1: Phát hiện cực trị trong không gian tỷ lệ (Scale-space extrema detection)#

Bước đầu tiên là tìm và phát hiện các keypoints, là những điểm đặc biệt trong hình ảnh, chẳng hạn như các góc hoặc những thay đổi đột ngột về kết cấu, giúp theo dõi hoặc nhận diện vật thể.

Để đảm bảo các keypoints tiềm năng này có thể được nhận diện ở bất kỳ kích thước nào, SIFT xây dựng cái gọi là không gian tỷ lệ (scale space). Đây là một tập hợp các hình ảnh được tạo ra bằng cách dần dần làm mờ hình ảnh gốc bằng một bộ lọc Gaussian, vốn là một kỹ thuật làm mịn, và nhóm các kết quả vào các lớp được gọi là octaves. Mỗi octave chứa cùng một hình ảnh ở các mức độ mờ tăng dần, trong khi octave tiếp theo là một phiên bản nhỏ hơn của hình ảnh đó.

Bằng cách trừ một hình ảnh đã làm mờ này cho hình ảnh kia, SIFT tính toán Difference of Gaussians (DoG), làm nổi bật các khu vực nơi độ sáng thay đổi đột ngột. Các khu vực này được chọn làm các ứng viên keypoint vì chúng vẫn nhất quán khi hình ảnh được phóng to hoặc thu nhỏ.

DoG làm nổi bật các cấu trúc chính bằng cách trừ các hình ảnh được làm mờ ở các cấp độ khác nhau

Hình 2. DoG làm nổi bật các cấu trúc chính bằng cách trừ các hình ảnh đã làm mờ ở các cấp độ khác nhau. (Nguồn)

Link to this sectionBước 2: Định vị keypoint#

Không phải tất cả các ứng viên keypoint đều hữu ích vì một số có thể yếu hoặc không ổn định. Để tinh chỉnh chúng, SIFT sử dụng một phương pháp toán học gọi là Taylor Series Expansion, giúp ước tính vị trí chính xác của một keypoint với độ chính xác cao hơn.

Trong bước này, các điểm không đáng tin cậy sẽ bị loại bỏ. Các keypoints có độ tương phản thấp, hòa lẫn vào môi trường xung quanh, sẽ bị loại bỏ, cũng như những keypoints nằm trực tiếp trên các cạnh, vì chúng có thể dịch chuyển quá dễ dàng. Bước lọc này chỉ để lại những keypoints ổn định và đặc biệt nhất.

Link to this sectionBước 3: Gán hướng (Orientation assignment)#

Sau khi các keypoints ổn định được xác định, SIFT làm cho chúng có tính bất biến về xoay, nghĩa là chúng vẫn có thể được khớp ngay cả khi hình ảnh bị xoay nghiêng hoặc ngược đầu. Để thực hiện điều này, SIFT phân tích cách độ sáng thay đổi xung quanh mỗi keypoint, được gọi là gradient. Các gradient cho thấy cả hướng và cường độ thay đổi của cường độ pixel, và cùng nhau, chúng nắm bắt cấu trúc cục bộ xung quanh điểm đó.

Đối với mỗi keypoint, SIFT xem xét các gradient trong vùng xung quanh và nhóm chúng thành một biểu đồ tần suất (histogram) các hướng. Đỉnh cao nhất trong biểu đồ này cho biết hướng thay đổi cường độ chiếm ưu thế, sau đó được gán làm hướng của keypoint. Cả hướng gradient, cho biết nơi cường độ đang thay đổi, và độ lớn gradient, chỉ ra mức độ mạnh mẽ của sự thay đổi đó, đều được sử dụng để xây dựng biểu đồ này.

Nếu có các đỉnh khác mạnh gần bằng, SIFT sẽ gán nhiều hướng cho cùng một keypoint. Điều này ngăn chặn việc mất các đặc trưng quan trọng khi vật thể xuất hiện ở các góc lạ. Bằng cách căn chỉnh từng keypoint theo hướng của nó, SIFT đảm bảo rằng các descriptors được tạo ra trong bước tiếp theo vẫn nhất quán.

Nói cách khác, ngay cả khi hai hình ảnh của cùng một vật thể được xoay khác nhau, các keypoints đã được căn chỉnh theo hướng vẫn sẽ khớp chính xác. Bước này mang lại cho SIFT khả năng xử lý sự xoay mạnh mẽ và làm cho nó mạnh mẽ hơn nhiều so với các phương pháp phát hiện đặc trưng trước đó.

Cái nhìn cận cảnh hơn về bước 3 của thuật toán SIFT

Hình 3. Cái nhìn cận cảnh về bước 3 của thuật toán SIFT (Nguồn)

Link to this sectionBước 4: Mô tả keypoint (Keypoint descriptor)#

Bước cuối cùng trong SIFT là tạo ra một mô tả cho mỗi keypoint để nó có thể được nhận diện trong các hình ảnh khác.

SIFT đạt được điều này bằng cách nhìn vào một vùng hình vuông nhỏ xung quanh mỗi keypoint, có kích thước khoảng 16x16 pixel. Vùng này trước tiên được căn chỉnh theo hướng của keypoint để sự xoay không ảnh hưởng đến nó. Sau đó, vùng này được chia thành một lưới các hình vuông nhỏ hơn 4x4.

Trong mỗi hình vuông nhỏ, SIFT đo lường cách độ sáng thay đổi theo các hướng khác nhau. Những thay đổi này được lưu trữ trong một thứ gọi là biểu đồ tần suất, giống như một biểu đồ cho thấy hướng nào là phổ biến nhất. Mỗi hình vuông có biểu đồ riêng, và tổng cộng 16 hình vuông tạo ra 16 biểu đồ.

Cuối cùng, các biểu đồ này được kết hợp thành một danh sách số duy nhất, tổng cộng là 128 số. Danh sách này được gọi là feature vector (vector đặc trưng), và nó đóng vai trò như một dấu vân tay cho keypoint. Vì nó nắm bắt được kết cấu và cấu trúc độc đáo xung quanh điểm, dấu vân tay này giúp việc khớp cùng một keypoint trên các hình ảnh khác nhau trở nên khả thi, ngay cả khi chúng bị thay đổi kích thước, xoay hoặc chiếu sáng khác đi.

Tổng quan về cách thức hoạt động của SIFT

Hình 4. Tổng quan về cách hoạt động của SIFT (Nguồn)

Link to this sectionCác ứng dụng chính của SIFT trong computer vision#

Giờ đây khi chúng ta đã hiểu rõ hơn về SIFT là gì và cách nó hoạt động, hãy khám phá một số ứng dụng thực tế của nó trong computer vision.

Link to this sectionNhận diện và phát hiện vật thể#

Một trong những công dụng chính của SIFT là nhận diện và phát hiện vật thể. Điều này bao gồm việc dạy máy tính nhận diện và định vị vật thể trong hình ảnh, ngay cả khi vật thể không phải lúc nào cũng trông giống nhau. Ví dụ, SIFT có thể phát hiện một cuốn sách bất kể nó ở gần máy ảnh, ở xa hơn, hay được xoay ở một góc nào đó.

Lý do điều này hoạt động là vì SIFT trích xuất các keypoints có tính đặc biệt cao và ổn định. Khi các keypoints này được kết hợp với các SIFT descriptor, chúng tạo thành các đặc trưng SIFT, cung cấp một cách đáng tin cậy để khớp cùng một vật thể trên các hình ảnh khác nhau. Các đặc trưng này nắm bắt những chi tiết độc đáo của vật thể vẫn nhất quán, cho phép khớp đặc trưng đáng tin cậy trên các hình ảnh ngay cả khi kích thước, vị trí hoặc hướng của vật thể thay đổi.

Sử dụng SIFT để nhận diện bìa sách trong một hình ảnh mới được chụp ở hướng khác

Hình 5. Sử dụng SIFT để nhận diện bìa sách trong một hình ảnh mới chụp ở góc độ khác so với ảnh gốc. Hình ảnh bởi tác giả.

Trước khi deep learning trở nên phổ biến, SIFT là một trong những phương pháp đáng tin cậy nhất để xây dựng các hệ thống nhận diện vật thể. Nó được sử dụng rộng rãi trong nghiên cứu và các ứng dụng đòi hỏi khớp các vật thể trên các tập dữ liệu ảnh lớn, mặc dù nó thường đòi hỏi nguồn lực tính toán đáng kể.

Link to this sectionGhép ảnh và tạo ảnh toàn cảnh#

SIFT cũng có thể được sử dụng để tạo ảnh toàn cảnh, là những bức ảnh rộng được tạo bằng cách ghép nhiều bức ảnh lại với nhau. Sử dụng SIFT, các keypoints đặc biệt được tìm thấy trong các phần trùng lặp của các hình ảnh khác nhau và sau đó được khớp với nhau. Các khớp này đóng vai trò như các mỏ neo, hướng dẫn quá trình ghép về cách căn chỉnh các bức ảnh.

Sau khi quá trình khớp hoàn tất, các thuật toán ghép ảnh có thể được sử dụng để tính toán sự căn chỉnh chính xác, thường sử dụng các phép biến đổi hình học ánh xạ hình ảnh này lên hình ảnh khác. Sau đó, các hình ảnh được hòa trộn để các đường nối biến mất. Kết quả cuối cùng là một ảnh toàn cảnh liền mạch trông giống như một bức ảnh rộng duy nhất, mặc dù nó được tạo từ nhiều lần chụp.

Link to this sectionTái dựng 3D và robotics#

Một ứng dụng thú vị khác của SIFT là tái dựng 3D, nơi nhiều ảnh 2D chụp từ các góc độ khác nhau được kết hợp để xây dựng một three-dimensional model. SIFT hoạt động bằng cách tìm và khớp các điểm giống nhau trên các hình ảnh này.

Khi đã thực hiện khớp, các vị trí 3D của các điểm đó có thể được ước tính bằng cách sử dụng phép đạc tam giác (triangulation), một phương pháp tính toán độ sâu từ các góc nhìn khác nhau. Quá trình này là một phần của structure from motion (SfM), một kỹ thuật sử dụng nhiều hình ảnh chồng lấp để ước tính hình dạng 3D của một cảnh cùng với vị trí của các máy ảnh đã chụp ảnh.

Kết quả thường là một đám mây điểm 3D (3D point cloud), một tập hợp các điểm trong không gian phác thảo vật thể hoặc môi trường. SIFT là một trong những công cụ đầu tiên làm cho structure from motion trở nên thực tế. Mặc dù các kỹ thuật mới hơn ngày nay nhanh hơn và phổ biến hơn, SIFT vẫn được áp dụng khi độ chính xác quan trọng hơn tốc độ.

SIFT cũng đã được sử dụng trong robotics, đặc biệt là trong visual SLAM (Simultaneous Localization and Mapping). SLAM cho phép robot xác định vị trí của nó trong khi đồng thời xây dựng bản đồ môi trường xung quanh.

Các keypoints SIFT đóng vai trò như các mốc (landmarks) đáng tin cậy mà robot có thể nhận diện qua các khung hình, ngay cả khi ánh sáng hoặc góc độ thay đổi. Bằng cách theo dõi các mốc này, robot có thể ước tính vị trí của mình và cập nhật bản đồ ngay lập tức. Mặc dù các bộ phát hiện đặc trưng nhanh hơn được sử dụng thường xuyên hơn trong robotics ngày nay, SIFT đã đóng một vai trò quan trọng trong các hệ thống SLAM ban đầu và vẫn là chìa khóa trong các trường hợp mà tính bền vững quan trọng hơn tốc độ.

Link to this sectionƯu điểm và những cân nhắc về SIFT#

Mặc dù thuật toán SIFT đã được sử dụng rộng rãi trong computer vision và được biết đến là một phương pháp đáng tin cậy, nó cũng đi kèm với một số đánh đổi. Đó là lý do tại sao việc cân nhắc những ưu và nhược điểm của nó trước khi quyết định xem liệu nó có phù hợp với một dự án hay không là rất quan trọng. Tiếp theo, hãy cùng tìm hiểu các điểm mạnh và hạn chế chính của nó.

Link to this sectionƯu điểm cốt lõi của SIFT#

Dưới đây là một số ưu điểm khi sử dụng thuật toán SIFT:

Tính bất biến về tỷ lệ và xoay: SIFT cung cấp các keypoints bất biến về tỷ lệ vẫn tương đối ổn định khi vật thể xuất hiện ở các kích thước hoặc hướng khác nhau, đại diện cho một bước tiến đáng kể so với các bộ phát hiện đặc trưng trước đó.
Tính bền vững trung bình đối với thay đổi ánh sáng và góc nhìn: SIFT có thể xử lý các thay đổi về độ sáng, độ tương phản hoặc các dịch chuyển nhỏ về góc nhìn, mặc dù nó ít đáng tin cậy hơn trong các điều kiện khắc nghiệt hơn.
Khả năng hoạt động trong các cảnh lộn xộn hoặc bị che khuất một phần: Vì SIFT phát hiện nhiều keypoints cục bộ, nó thường vẫn có thể xác định một vật thể ngay cả khi một phần của nó bị che khuất hoặc nền phức tạp.

Link to this sectionNhững cân nhắc về hiệu năng và các giải pháp thay thế#

Dưới đây là một số nhược điểm khi sử dụng thuật toán SIFT:

Đòi hỏi nhiều tài nguyên tính toán: Quy trình đa bước và các mô tả chi tiết của SIFT làm cho nó chậm hơn và nặng về tài nguyên hơn so với các bộ phát hiện đặc trưng hiện đại. Để cải thiện điều này, các nhà nghiên cứu đã phát triển thuật toán SURF (Speeded-Up Robust Features), sử dụng các phép tính nhanh hơn để tìm và mô tả các đặc trưng. SURF kém chính xác hơn SIFT trong một số trường hợp, nhưng nó chạy nhanh hơn nhiều, làm cho nó thực tế hơn cho các tác vụ nhạy cảm với thời gian.
Không lý tưởng cho việc sử dụng thời gian thực: Do chi phí tính toán, SIFT gặp khó khăn khi áp dụng vào các ứng dụng nơi tốc độ là yếu tố sống còn, chẳng hạn như real-time tracking hoặc robot di động.
Tính linh hoạt hạn chế: Mặc dù mạnh mẽ trong nhiều trường hợp, SIFT kém hiệu quả hơn trong những thay đổi ánh sáng cực đoan, các thay đổi lớn về góc nhìn, hoặc các cảnh có tính động cao, nơi các thuật toán mới hơn hoặc các phương pháp máy học hoạt động tốt hơn.

Trong khi khám phá các ưu và nhược điểm của SIFT, bạn có thể nhận thấy rằng nhiều hạn chế của nó đã mở đường cho các kỹ thuật tiên tiến hơn. Cụ thể, convolutional neural networks (CNNs) đã nổi lên như một giải pháp thay thế mạnh mẽ.

CNN là một loại mô hình deep learning được lấy cảm hứng từ cách hệ thống thị giác con người hoạt động. Nó xử lý một hình ảnh theo các lớp, bắt đầu từ các hoa văn đơn giản như cạnh và kết cấu, và dần dần xây dựng lên các hình dạng và vật thể phức tạp hơn. Khác với các quy tắc đặc trưng được chế tạo thủ công của SIFT, CNNs học các biểu diễn đặc trưng trực tiếp từ dữ liệu.

Việc học dựa trên dữ liệu này có nghĩa là CNNs có thể vượt trội hơn SIFT trong các tác vụ khớp mô tả và classification. CNNs cũng biểu cảm và mạnh mẽ hơn, thích nghi tốt hơn với sự biến đổi và độ phức tạp của dữ liệu hình ảnh.

Ví dụ, các mô hình dựa trên CNN đã đạt được kết quả đột phá trên ImageNet, một tập dữ liệu benchmark khổng lồ chứa hàng triệu hình ảnh được dán nhãn trên hàng ngàn danh mục. Được thiết kế để kiểm tra khả năng nhận diện và phân loại vật thể của các thuật toán, ImageNet có thể làm nổi bật khoảng cách giữa các phương pháp dựa trên đặc trưng cũ và deep learning.

CNNs nhanh chóng vượt qua SIFT bằng cách học các biểu diễn phong phú và linh hoạt hơn nhiều, cho phép chúng nhận diện vật thể dưới điều kiện ánh sáng thay đổi, từ các góc nhìn khác nhau, và thậm chí khi bị che khuất một phần, những kịch bản mà SIFT thường gặp khó khăn.

Link to this sectionCác điểm chính cần lưu ý#

Thuật toán Scale Invariant Feature Transform giữ một vị trí quan trọng trong lịch sử của computer vision. Nó cung cấp một cách đáng tin cậy để phát hiện các đặc trưng ngay cả trong các môi trường thay đổi và ảnh hưởng đến nhiều phương pháp được sử dụng ngày nay.

Mặc dù các kỹ thuật mới hơn nhanh hơn và hiệu quả hơn, SIFT đã đặt nền móng cho chúng. SIFT thể hiện nơi mà tiến bộ ngày nay trong computer vision bắt đầu và nêu bật sự phát triển vượt bậc của các hệ thống AI tiên tiến.

Hãy tham gia cộng đồng toàn cầu của chúng tôi và kiểm tra GitHub repository của chúng tôi để tìm hiểu thêm về computer vision. Khám phá các trang giải pháp của chúng tôi để khám phá các đổi mới như AI in agriculture và computer vision in retail. Hãy xem các tùy chọn cấp phép của chúng tôi và bắt đầu xây dựng mô hình computer vision của riêng bạn.

Explore solutions

Hãy cùng nhau xây dựng tương lai của AI!

Bắt đầu hành trình của bạn với tương lai của machine learning

Yêu cầu giấy phép Bắt đầu ngay

Scale-Invariant Feature Transform (SIFT) là gì?

Link to this sectionTại sao thuật toán SIFT lại cần thiết cho computer vision#

Link to this sectionĐạt được sự bất biến về tỷ lệ (scale invariance)#

Link to this sectionĐảm bảo tính bất biến về xoay (rotation invariance)#

Link to this sectionKhả năng chống chịu với các biến thể hình ảnh khác#

Link to this sectionThuật toán Scale-Invariant Feature Transform (SIFT) hoạt động như thế nào#

Link to this sectionBước 1: Phát hiện cực trị trong không gian tỷ lệ (Scale-space extrema detection)#

Link to this sectionBước 2: Định vị keypoint#

Link to this sectionBước 3: Gán hướng (Orientation assignment)#

Link to this sectionBước 4: Mô tả keypoint (Keypoint descriptor)#

Link to this sectionCác ứng dụng chính của SIFT trong computer vision#

Link to this sectionNhận diện và phát hiện vật thể#

Link to this sectionGhép ảnh và tạo ảnh toàn cảnh#

Link to this sectionTái dựng 3D và robotics#

Link to this sectionƯu điểm và những cân nhắc về SIFT#

Link to this sectionƯu điểm cốt lõi của SIFT#

Link to this sectionNhững cân nhắc về hiệu năng và các giải pháp thay thế#

Link to this sectionCác điểm chính cần lưu ý#

Explore solutions

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

Hãy cùng nhau xây dựng tương lai của AI!