Khám phá kiến trúc U-Net để phân đoạn hình ảnh chính xác. Tìm hiểu cách thiết kế đối xứng độc đáo và các kết nối bỏ qua của nó hỗ trợ trí tuệ nhân tạo y tế và phân tích vệ tinh.
U-Net là một kiến trúc riêng biệt trong lĩnh vực học sâu, được thiết kế đặc biệt cho các tác vụ phân đoạn hình ảnh chính xác. Ban đầu được phát triển cho phân tích hình ảnh y sinh, mạng nơ-ron tích chập (CNN) này đã trở thành tiêu chuẩn cho bất kỳ ứng dụng nào yêu cầu phân loại ở cấp độ pixel. Không giống như phân loại hình ảnh tiêu chuẩn gán một nhãn duy nhất cho toàn bộ hình ảnh, U-Net phân loại từng pixel riêng lẻ, cho phép mô hình xác định hình dạng và vị trí chính xác của các đối tượng. Khả năng hoạt động hiệu quả với dữ liệu huấn luyện hạn chế khiến nó trở nên rất có giá trị trong các lĩnh vực chuyên biệt nơi dữ liệu lớn khan hiếm.
Tên gọi "U-Net" xuất phát từ hình dạng đối xứng của nó, giống như chữ U. Kiến trúc này bao gồm hai đường dẫn chính: một đường dẫn thu hẹp (bộ mã hóa) và một đường dẫn mở rộng (bộ giải mã). Đường dẫn thu hẹp thu thập ngữ cảnh của hình ảnh bằng cách giảm kích thước không gian của nó, tương tự như một kiến trúc xương sống tiêu chuẩn trong các mô hình thị giác khác. Đường dẫn mở rộng giúp tăng kích thước bản đồ đặc trưng để khôi phục kích thước hình ảnh gốc nhằm định vị chính xác.
Một đặc điểm nổi bật của U-Net là việc sử dụng các kết nối bỏ qua (skip connections ). Các kết nối này bắc cầu khoảng cách giữa bộ mã hóa và bộ giải mã, truyền các đặc trưng độ phân giải cao từ đường dẫn thu hẹp trực tiếp đến đường dẫn mở rộng. Cơ chế này cho phép mạng kết hợp thông tin ngữ cảnh với thông tin không gian chi tiết, ngăn ngừa việc mất các chi tiết nhỏ thường xảy ra trong quá trình giảm kích thước ảnh . Cấu trúc này giúp giảm thiểu các vấn đề như hiện tượng suy giảm độ dốc (vanishing gradient problem), đảm bảo quá trình học tập mạnh mẽ.
Mặc dù U-Net có nguồn gốc từ lĩnh vực y tế, nhưng tính linh hoạt của nó đã dẫn đến việc được áp dụng rộng rãi trong nhiều ngành công nghiệp khác nhau.
Điều quan trọng là phải phân biệt U-Net với các thuật ngữ thị giác máy tính khác. U-Net thực hiện phân đoạn ngữ nghĩa , coi nhiều đối tượng cùng lớp (ví dụ: hai chiếc xe khác nhau) như một thực thể duy nhất (mặt nạ lớp "xe"). Ngược lại, phân đoạn thể hiện xác định và tách biệt từng thể hiện đối tượng riêng lẻ.
Các kiến trúc hiện đại, chẳng hạn như mô hình phân đoạn YOLO26 , cung cấp một giải pháp thay thế nhanh hơn, theo thời gian thực cho mạng U-Net truyền thống trong nhiều ứng dụng công nghiệp. Mặc dù U-Net vượt trội trong nghiên cứu y học nhờ độ chính xác với các tập dữ liệu nhỏ, YOLO Phân đoạn dựa trên thường được ưu tiên triển khai trên các thiết bị biên, nơi tốc độ suy luận là yếu tố tối quan trọng.
Đối với người dùng muốn thực hiện các tác vụ phân đoạn một cách hiệu quả, các framework hiện đại cung cấp các công cụ được tối ưu hóa. Bạn có thể sử dụng Nền tảng Ultralytics để chú thích các tập dữ liệu phân đoạn và huấn luyện mô hình mà không cần lập trình phức tạp.
Dưới đây là một ví dụ ngắn gọn về cách chạy suy luận bằng cách sử dụng mô hình phân đoạn được huấn luyện trước từ...
ultralytics bưu kiện:
from ultralytics import YOLO
# Load a YOLO26 segmentation model (a fast alternative for segmentation tasks)
model = YOLO("yolo26n-seg.pt")
# Run inference on an image to generate segmentation masks
results = model.predict("path/to/image.jpg", save=True)
# Process the results (e.g., access masks)
for result in results:
masks = result.masks # Access the segmentation masks object
Để đạt được hiệu suất tốt nhất từ kiến trúc phân đoạn U-Net hoặc tương tự, các chuyên gia thường sử dụng kỹ thuật tăng cường dữ liệu . Các kỹ thuật như xoay, thu phóng và biến dạng đàn hồi giúp mô hình học được tính bất biến và ngăn ngừa hiện tượng quá khớp , điều này đặc biệt quan trọng khi dữ liệu huấn luyện bị hạn chế.
Hơn nữa, việc xác định hàm mất mát chính xác là rất quan trọng. Các lựa chọn phổ biến bao gồm hệ số Dice hoặc hàm mất mát focal loss , giúp xử lý sự mất cân bằng lớp tốt hơn so với hàm mất mát cross-entropy tiêu chuẩn, đảm bảo mô hình tập trung vào các trường hợp khó phân loại. classify pixel. Để tìm hiểu thêm về lịch sử và các chi tiết kỹ thuật, bạn có thể đọc hướng dẫn chi tiết của chúng tôi về kiến trúc U-Net .