Đón xem YOLO Vision 2025!
25 tháng 9, 2025
10:00 — 18:00 BST
Sự kiện kết hợp
Yolo Vision 2024
Bảng chú giải thuật ngữ

Feature Engineering

Tăng độ chính xác của machine learning bằng feature engineering chuyên nghiệp. Tìm hiểu các kỹ thuật tạo, chuyển đổi và chọn các feature (đặc trưng) có tác động.

Thiết kế đặc trưng (Feature engineering) là quá trình sử dụng kiến thức chuyên môn để chọn, tạo và chuyển đổi dữ liệu thô thành các đặc trưng thể hiện tốt hơn vấn đề cơ bản cho các mô hình dự đoán. Đây là một bước quan trọng và thường tốn thời gian trong quy trình học máy (ML), vì chất lượng của các đặc trưng ảnh hưởng trực tiếp đến hiệu suất và độ chính xác của mô hình kết quả. Thiết kế đặc trưng hiệu quả có thể tạo ra sự khác biệt giữa một mô hình tầm thường và một mô hình có độ chính xác cao, thường mang lại hiệu quả hoạt động lớn hơn so với việc chọn một thuật toán khác hoặc điều chỉnh siêu tham số mở rộng.

## Quy trình Kỹ thuật Đặc trưng

Thiết kế đặc trưng (Feature engineering) vừa là một nghệ thuật, vừa là một khoa học, kết hợp kiến thức chuyên môn với các kỹ thuật toán học. Quá trình này có thể được chia thành nhiều hoạt động phổ biến, thường được quản lý bằng các thư viện như module tiền xử lý của scikit-learn hoặc các công cụ chuyên dụng cho thiết kế đặc trưng tự động.

  • Tạo đặc trưng: Quá trình này bao gồm việc tạo ra các đặc trưng mới từ các đặc trưng hiện có. Ví dụ: trong một tập dữ liệu bán lẻ, bạn có thể trừ "ngày mua hàng" từ ngày "khách hàng từ" để tạo ra một đặc trưng "thời gian trung thành của khách hàng". Trong phân tích chuỗi thời gian, bạn có thể suy ra các đặc trưng như trung bình động hoặc tính thời vụ từ dấu thời gian.
  • Chuyển đổi: Dữ liệu thô thường cần được chuyển đổi để đáp ứng các giả định của một thuật toán học máy. Điều này bao gồm việc chia tỷ lệ các đặc trưng số, áp dụng các phép biến đổi logarit để xử lý dữ liệu bị lệch hoặc sử dụng các kỹ thuật như binning (phân nhóm) để nhóm các số thành các danh mục.
  • Mã hóa (Encoding): Nhiều mô hình ML không thể xử lý trực tiếp dữ liệu phân loại. Mã hóa bao gồm việc chuyển đổi các danh mục dựa trên văn bản thành các biểu diễn số. Các phương pháp phổ biến bao gồm mã hóa one-hot, trong đó mỗi giá trị danh mục được chuyển đổi thành một cột nhị phân mới và mã hóa nhãn.
  • Lựa chọn đặc trưng: Không phải tất cả các đặc trưng đều hữu ích. Một số có thể dư thừa hoặc không liên quan, gây ra nhiễu có thể dẫn đến quá khớp (overfitting). Lựa chọn đặc trưng nhằm mục đích chọn một tập hợp con các đặc trưng phù hợp nhất để cải thiện hiệu suất mô hình và giảm chi phí tính toán.

## Ứng dụng thực tế

Tác động của kỹ thuật đặc trưng là rõ ràng trong nhiều ngành công nghiệp. Tính hiệu quả của nó thường phụ thuộc vào kiến thức chuyên môn sâu sắc để tạo ra các đặc trưng thực sự nắm bắt các tín hiệu dự đoán.

  1. Chấm điểm tín dụng: Trong tài chính, dữ liệu khách hàng thô có thể bao gồm thu nhập, tuổi và lịch sử vay. Một kỹ sư đặc trưng có thể tạo ra các biến mới như "tỷ lệ nợ trên thu nhập" (chia tổng nợ cho tổng thu nhập) hoặc "mức sử dụng tín dụng" (chia số dư thẻ tín dụng cho hạn mức tín dụng). Các đặc trưng được thiết kế này cung cấp một tín hiệu rõ ràng hơn nhiều về tình hình tài chính của một người so với chỉ các con số thô, dẫn đến các mô hình rủi ro tín dụng chính xác hơn.
  2. Bảo trì dự đoán: Trong sản xuất, các cảm biến trên máy móc tạo ra các luồng dữ liệu thô khổng lồ như độ rung, nhiệt độ và tốc độ quay. Để dự đoán lỗi, một kỹ sư có thể tạo ra các đặc trưng như "trung bình trượt của nhiệt độ trong 24 giờ qua" hoặc "độ lệch chuẩn của độ rung". Các đặc trưng này có thể tiết lộ các kiểu suy thoái tinh vi báo trước sự cố cơ học, cho phép bảo trì chủ động và ngăn ngừa thời gian ngừng hoạt động tốn kém.

## Kỹ thuật đặc trưng so với các khái niệm liên quan

Điều quan trọng là phải phân biệt kỹ thuật đặc trưng (feature engineering) với các thuật ngữ liên quan trong AI và khoa học dữ liệu.

  • Kỹ thuật đặc trưng so với Trích xuất đặc trưng: Kỹ thuật đặc trưng là một quy trình chủ yếu thủ công để tạo các đặc trưng mới dựa trên trực giác và kinh nghiệm. Trích xuất đặc trưng thường là một quy trình tự động để chuyển đổi dữ liệu thành một tập hợp các đặc trưng giảm bớt. Trong học sâu, các mô hình như Mạng nơ-ron tích chập (CNN) tự động thực hiện trích xuất đặc trưng, học các đặc trưng phân cấp (cạnh, kết cấu, hình dạng) từ dữ liệu pixel thô mà không cần sự can thiệp của con người.
  • Kỹ thuật đặc trưng so với Nhúng (Embeddings): Nhúng là một hình thức biểu diễn đặc trưng phức tạp, được học, phổ biến trong NLP và thị giác máy tính. Thay vì tạo các đặc trưng thủ công, một mô hình học một vectơ dày đặc nắm bắt ý nghĩa ngữ nghĩa của một mục (như một từ hoặc một hình ảnh). Do đó, nhúng là kết quả của quá trình học đặc trưng tự động, không phải kỹ thuật thủ công.
  • Kỹ thuật đặc trưng so với Tiền xử lý dữ liệu: Tiền xử lý dữ liệu là một phạm trù rộng hơn bao gồm kỹ thuật đặc trưng như một trong những bước chính của nó. Nó cũng bao gồm các nhiệm vụ thiết yếu khác như làm sạch dữ liệu (xử lý các giá trị bị thiếu và ngoại lệ) và chuẩn bị tập dữ liệu để huấn luyện.

Mặc dù các kiến trúc hiện đại như trong các mô hình Ultralytics YOLO tự động hóa việc trích xuất đặc trưng cho các tác vụ dựa trên hình ảnh như nhận diện đối tượngphân đoạn thể hiện, các nguyên tắc của kỹ thuật đặc trưng vẫn là cơ bản. Hiểu cách biểu diễn dữ liệu một cách hiệu quả là rất quan trọng để gỡ lỗi mô hình, cải thiện chất lượng dữ liệu và giải quyết các vấn đề phức tạp liên quan đến việc kết hợp dữ liệu trực quan với dữ liệu có cấu trúc. Các nền tảng như Ultralytics HUB cung cấp các công cụ để quản lý toàn bộ vòng đời này, từ chuẩn bị bộ dữ liệu đến triển khai mô hình.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay
Đã sao chép liên kết vào clipboard