Hướng dẫn về kiến trúc U-Net và các ứng dụng của nó

Abirami Vina

5 phút đọc

Ngày 15 tháng 7 năm 2025

Tìm hiểu về kiến trúc U-Net, cách kiến trúc này hỗ trợ phân đoạn hình ảnh, các ứng dụng của nó và lý do tại sao nó có ý nghĩa quan trọng trong quá trình phát triển của thị giác máy tính.

Thị giác máy tính là một nhánh của trí tuệ nhân tạo (AI) tập trung vào việc phân tích dữ liệu hình ảnh. Nó đã mở đường cho nhiều hệ thống tiên tiến, chẳng hạn như tự động hóa quy trình kiểm tra sản phẩm trong nhà máy và hỗ trợ xe tự hành di chuyển trên đường. 

Một trong những nhiệm vụ thị giác máy tính nổi tiếng nhất là phát hiện đối tượng. Nhiệm vụ này cho phép các mô hình định vị và nhận dạng các đối tượng trong ảnh bằng cách sử dụng hộp giới hạn. Mặc dù hộp giới hạn hữu ích cho nhiều ứng dụng khác nhau, nhưng chúng chỉ cung cấp ước tính sơ bộ về vị trí của đối tượng.

Tuy nhiên, trong các lĩnh vực như chăm sóc sức khỏe, nơi độ chính xác là yếu tố then chốt, các trường hợp sử dụng Vision AI không chỉ đơn thuần là nhận dạng đối tượng. Thông thường, chúng còn yêu cầu thông tin liên quan đến hình dạng và vị trí chính xác của đối tượng.

Đó chính xác là mục đích của nhiệm vụ thị giác máy tính, phân đoạn. Thay vì sử dụng các hộp giới hạn, các mô hình phân đoạn phát hiện đối tượng ở cấp độ pixel. Qua nhiều năm, các nhà nghiên cứu đã phát triển các mô hình thị giác máy tính chuyên biệt cho phân đoạn.

Một trong những mô hình như vậy là U-Net. Mặc dù các mô hình mới hơn, tiên tiến hơn đã vượt trội hơn về hiệu suất, U-Net vẫn giữ một vị trí quan trọng trong lịch sử thị giác máy tính . Trong bài viết này, chúng ta sẽ xem xét kỹ hơn về kiến trúc U-Net , cách thức hoạt động, phạm vi ứng dụng và so sánh với các mô hình phân đoạn hiện đại hơn hiện nay.

Hình 1. Một ví dụ về phân đoạn sử dụng mô hình học sâu U-Net. ( Nguồn )

Lịch sử phân đoạn hình ảnh

Trước khi tìm hiểu sâu hơn về U-Net, trước tiên chúng ta hãy cùng tìm hiểu rõ hơn về cách các mô hình phân đoạn hình ảnh phát triển.

Ban đầu, thị giác máy tính dựa vào các kỹ thuật truyền thống như phát hiện cạnh, ngưỡng, hoặc mở rộng vùng để tách biệt các đối tượng trong ảnh. Các kỹ thuật này được sử dụng để phát hiện ranh giới đối tượng bằng cạnh, tách biệt các vùng theo cường độ điểm ảnh và nhóm các điểm ảnh tương tự. Chúng hiệu quả với các trường hợp đơn giản nhưng thường thất bại khi ảnh bị nhiễu, hình dạng chồng chéo hoặc ranh giới không rõ ràng.

Sau sự trỗi dậy của học sâu vào năm 2012 , các nhà nghiên cứu đã giới thiệu khái niệm mạng tích chập hoàn toàn (FCN) vào năm 2014 cho các tác vụ như phân đoạn ngữ nghĩa. Các mô hình này thay thế một số phần nhất định của mạng tích chập để cho phép máy tính xem xét toàn bộ hình ảnh cùng một lúc, thay vì chia nhỏ nó thành các phần nhỏ hơn. Điều này cho phép mô hình tạo ra các bản đồ chi tiết thể hiện rõ hơn những gì có trong hình ảnh.

Hình 2. Sự phát triển của các thuật toán phân đoạn dựa trên học sâu. ( Nguồn )

Dựa trên FCN, U-Net được các nhà nghiên cứu tại Đại học Freiburg giới thiệu vào năm 2015. Ban đầu, nó được thiết kế để phân đoạn hình ảnh y sinh . Đặc biệt, U-Net được thiết kế để hoạt động tốt trong các tình huống dữ liệu chú thích bị hạn chế. 

Trong khi đó, các phiên bản sau này như UNet++ và TransUNet đã bổ sung các nâng cấp như lớp chú ý và trích xuất đặc điểm tốt hơn. Các lớp chú ý giúp mô hình tập trung vào các vùng chính, trong khi trích xuất đặc điểm nâng cao thu thập thông tin chi tiết hơn.

U-Net là gì và các tính năng được truyền tải qua mô hình như thế nào?

U-Net là một mô hình học sâu được xây dựng chuyên biệt cho phân đoạn hình ảnh. Nó lấy một hình ảnh làm đầu vào và tạo ra một mặt nạ phân đoạn để phân loại từng điểm ảnh theo đối tượng hoặc vùng mà nó thuộc về.

Mô hình này lấy tên từ kiến trúc hình chữ U của nó. Nó bao gồm hai phần chính: bộ mã hóa nén hình ảnh và học các đặc điểm của nó, và bộ giải mã mở rộng hình ảnh trở lại kích thước ban đầu. Thiết kế này tạo ra hình chữ U đối xứng, giúp mô hình hiểu được cả cấu trúc tổng thể của hình ảnh và các chi tiết nhỏ hơn.

Một tính năng quan trọng của U-Net là sử dụng kết nối bỏ qua (skip connections), cho phép thông tin từ bộ mã hóa được truyền trực tiếp đến bộ giải mã. Điều này có nghĩa là mô hình có thể bảo toàn các chi tiết quan trọng có thể bị mất khi nén ảnh. 

Tổng quan về kiến trúc của U-Net

Sau đây là cái nhìn tổng quan về cách thức hoạt động của kiến trúc U-Net:

  • Hình ảnh đầu vào: U-Net bắt đầu bằng một hình ảnh 2D, chẳng hạn như ảnh chụp y tế hoặc ảnh vệ tinh . Mục tiêu là gán nhãn lớp cho từng pixel trong hình ảnh.

  • Giảm mẫu: Hình ảnh đi qua các lớp tích chập để học các đặc điểm hình ảnh quan trọng. Khi hình ảnh di chuyển qua các lớp khác nhau, độ phân giải của nó giảm dần và mô hình sẽ xác định các mẫu rộng hơn.

  • Lớp nút thắt cổ chai: Ở trung tâm của mạng, các bản đồ đặc trưng đạt đến độ phân giải không gian nhỏ nhất trong khi vẫn nắm bắt được các đặc trưng ngữ nghĩa cấp cao. Nói một cách đơn giản, biểu diễn nén này của các bản đồ đặc trưng chính là bối cảnh tổng thể của đầu vào.

  • Lấy mẫu lại: Mạng sau đó tái tạo hình ảnh bằng cách tăng dần độ phân giải. Các phép tích chập chuyển vị giúp mở rộng bản đồ đặc trưng trở lại kích thước ban đầu.

  • Kết nối bỏ qua: Các bản đồ đặc trưng từ đường dẫn hạ mẫu được nối với các bản đồ đặc trưng trên đường dẫn tăng mẫu. Điều này giúp bảo toàn các chi tiết không gian chi tiết trong khi vẫn tích hợp thông tin ngữ cảnh cấp cao.
  • Đầu ra là một bản đồ phân đoạn: Đầu ra cuối cùng là một mặt nạ phân đoạn theo từng pixel khớp với kích thước đầu vào. Mỗi pixel được phân loại vào một danh mục như đối tượng, nền hoặc vùng quan tâm.
Hình 3. Sơ đồ kiến trúc U-Net. ( Nguồn )

Hiểu sự khác biệt giữa ViT và U-Net

Khi khám phá U-Net, bạn có thể thắc mắc nó khác biệt như thế nào so với các mô hình học sâu khác, chẳng hạn như Vision Transformer (ViT) , vốn cũng có thể thực hiện các tác vụ phân đoạn. Mặc dù cả hai mô hình đều có thể thực hiện các tác vụ tương tự, nhưng chúng khác nhau về cách xây dựng và cách xử lý phân đoạn.

U-Net hoạt động bằng cách xử lý hình ảnh ở cấp độ pixel thông qua các lớp tích chập trong cấu trúc mã hóa-giải mã. Nó thường được sử dụng cho các tác vụ đòi hỏi phân đoạn chính xác, chẳng hạn như quét y tế hoặc cảnh xe tự lái. 

Mặt khác, Vision Transformer (ViT) chia nhỏ hình ảnh thành các mảng và xử lý chúng đồng thời thông qua các cơ chế chú ý. Nó sử dụng cơ chế tự chú ý (một cơ chế cho phép mô hình cân nhắc tầm quan trọng của các phần khác nhau của hình ảnh so với nhau) để nắm bắt cách các phần khác nhau của hình ảnh liên quan đến nhau, không giống như phương pháp tích chập của U-Net.

Một điểm khác biệt quan trọng nữa là ViT thường cần nhiều dữ liệu hơn để hoạt động tốt, nhưng lại rất hiệu quả trong việc nhận dạng các mẫu phức tạp. Mặt khác, U-Net hoạt động tốt với các tập dữ liệu nhỏ hơn, đào tạo nhanh hơn và thường yêu cầu ít thời gian đào tạo hơn.

Ứng dụng của mô hình U-Net

Bây giờ chúng ta đã hiểu rõ hơn về U-Net là gì và cách thức hoạt động của nó, hãy cùng khám phá cách U-Net được áp dụng trong nhiều lĩnh vực khác nhau.

Phân đoạn xuất huyết não trong hình ảnh y tế

U-Net đã trở thành một phương pháp đáng tin cậy để phân đoạn hình ảnh y tế phức tạp ở cấp độ pixel, đặc biệt là trong giai đoạn đỉnh cao của nghiên cứu. Nó được các nhà nghiên cứu sử dụng để làm nổi bật các khu vực quan trọng trong quá trình quét y tế, chẳng hạn như khối u và dấu hiệu xuất huyết nội trên hình ảnh CT và MRI. Phương pháp này đã cải thiện đáng kể độ chính xác của chẩn đoán và đơn giản hóa việc phân tích dữ liệu y tế phức tạp trong các bối cảnh nghiên cứu.

Một ví dụ về tác động của U-Net trong nghiên cứu chăm sóc sức khỏe là việc ứng dụng nó trong việc phát hiện đột quỵ và xuất huyết não trong các lần chụp chiếu y tế. Các nhà nghiên cứu có thể sử dụng U-Net để phân tích hình ảnh chụp sọ não và làm nổi bật các khu vực đáng lo ngại, cho phép xác định nhanh hơn các trường hợp cần được chăm sóc ngay lập tức.

Hình 4. Phân đoạn tổn thương đột quỵ xuất huyết bằng U-Net 3D. ( Nguồn )

Phân khúc cây trồng trong nông nghiệp

Một lĩnh vực khác mà các nhà nghiên cứu đã sử dụng U-Net là nông nghiệp, đặc biệt là để phân loại cây trồng, cỏ dại và đất. Công nghệ này giúp nông dân theo dõi sức khỏe cây trồng, ước tính năng suất và đưa ra quyết định tốt hơn trên các trang trại lớn. Ví dụ, U-Net có thể tách cây trồng khỏi cỏ dại, giúp việc phun thuốc diệt cỏ hiệu quả hơn và giảm thiểu chất thải.

Để giải quyết các thách thức như hiện tượng nhòe chuyển động trong hình ảnh từ máy bay không người lái, các nhà nghiên cứu đã cải tiến U-Net bằng các kỹ thuật khử nhòe hình ảnh . Điều này đảm bảo phân đoạn rõ ràng hơn, ngay cả khi dữ liệu được thu thập trong khi di chuyển, chẳng hạn như trong các cuộc khảo sát trên không.

Hình 5. Tách cây trồng khỏi cỏ dại trên đồng ruộng bằng U-Net. ( Nguồn )

Lái xe tự động

Trước khi các mô hình AI tiên tiến hơn ra đời, U-Net đã đóng một vai trò quan trọng trong việc khám phá cách phân đoạn có thể nâng cao khả năng lái xe tự động. Trong xe tự hành , phân đoạn ngữ nghĩa của U-Net có thể được sử dụng để phân loại từng pixel trong hình ảnh thành các danh mục như đường, phương tiện, người đi bộ và vạch kẻ đường. Điều này giúp xe có tầm nhìn rõ ràng về môi trường xung quanh, hỗ trợ điều hướng an toàn và ra quyết định hiệu quả.

Hình 6. Cảnh đường xá nơi khu vực có thể lái xe được phân đoạn bằng U-Net. ( Nguồn )

Ưu và nhược điểm của U-Net

Cho đến ngày nay, U-Net vẫn là một lựa chọn tốt cho phân đoạn hình ảnh trong giới nghiên cứu nhờ sự cân bằng giữa tính đơn giản, độ chính xác và khả năng thích ứng. Dưới đây là một số ưu điểm chính khiến nó nổi bật:

  • Có thể thích ứng với nhiều phương thức khác nhau: U-Net đã được điều chỉnh cho nhiều loại dữ liệu khác nhau, bao gồm quét y tế 3D, hình ảnh vệ tinh và thậm chí cả khung hình video.

  • Suy luận nhanh khi được tối ưu hóa: Khi được điều chỉnh đúng cách, U-Net có thể chạy hiệu quả, phù hợp với các ứng dụng thời gian thực hoặc gần thời gian thực.

  • Nguồn mở và cộng đồng: U-Net có sẵn trên nhiều thư viện học sâu lớn và được hỗ trợ bởi một cộng đồng lớn các nhà phát triển và nhà nghiên cứu.

Mặc dù U-Net có nhiều ưu điểm, nhưng cũng có một vài hạn chế cần lưu ý. Dưới đây là một số yếu tố cần cân nhắc: 

  • Nhạy cảm với chất lượng dữ liệu: Hiệu suất của U-Net có thể bị ảnh hưởng tiêu cực bởi dữ liệu chất lượng kém, chẳng hạn như hình ảnh nhiễu hoặc có độ phân giải thấp.

  • Dễ bị quá khớp với các tập dữ liệu nhỏ: Mặc dù U-Net hoạt động tốt với dữ liệu hạn chế, nhưng nó vẫn có nguy cơ quá khớp nếu không được chuẩn hóa đúng cách, đặc biệt là khi tập dữ liệu quá nhỏ hoặc thiếu tính đa dạng.

  • Tài nguyên tính toán: U-Net có thể tốn kém về mặt tính toán, đặc biệt là khi làm việc với các tập dữ liệu lớn, đòi hỏi nhiều tài nguyên phần cứng để đào tạo.

Những điểm chính

U-Net là một cột mốc quan trọng trong quá trình phát triển của phân đoạn hình ảnh. Nó chứng minh rằng các mô hình học sâu có thể mang lại kết quả chính xác khi sử dụng các tập dữ liệu nhỏ hơn, đặc biệt là trong các lĩnh vực như hình ảnh y tế. 

Bước đột phá này đã mở đường cho các ứng dụng tiên tiến hơn trong nhiều lĩnh vực. Khi thị giác máy tính tiếp tục phát triển, các mô hình phân đoạn như U-Net vẫn là nền tảng cơ bản giúp máy móc hiểu và diễn giải dữ liệu trực quan với độ chính xác cao.

Bạn đang muốn xây dựng các dự án thị giác máy tính của riêng mình? Hãy khám phá kho lưu trữ GitHub của chúng tôi để tìm hiểu sâu hơn về AI và xem các tùy chọn cấp phép của chúng tôi. Tìm hiểu cách thị giác máy tính trong chăm sóc sức khỏe đang cải thiện hiệu quả và khám phá tác động của AI trong bán lẻ bằng cách truy cập các trang giải pháp của chúng tôi! Hãy tham gia cộng đồng đang phát triển của chúng tôi ngay bây giờ!

Hãy cùng xây dựng tương lai
của AI cùng nhau!

Bắt đầu hành trình của bạn với tương lai của máy học

Bắt đầu miễn phí
Liên kết đã được sao chép vào clipboard