Thúc đẩy các dự án thị giác máy tính bằng các công cụ nguồn mở của Hugging Face
Hãy cùng tham gia xem lại một bài thuyết trình chính từ YOLO Vision 2024, tập trung vào việc khám phá cách các công cụ nguồn mở của Hugging Face đang thúc đẩy phát triển AI.

Việc lựa chọn các thuật toán phù hợp chỉ là một phần trong việc xây dựng các giải pháp thị giác máy tính hiệu quả. Các kỹ sư AI thường làm việc với các tập dữ liệu lớn, tinh chỉnh (fine-tune) mô hình cho các tác vụ cụ thể và tối ưu hóa các hệ thống AI để đạt hiệu suất trong thế giới thực. Khi các ứng dụng AI ngày càng được áp dụng nhanh chóng hơn, nhu cầu về các công cụ đơn giản hóa những quy trình này cũng đang tăng lên.
Tại YOLO Vision 2024 (YV24), sự kiện kết hợp thường niên do Ultralytics tổ chức, các chuyên gia AI và những người đam mê công nghệ đã cùng nhau khám phá những đổi mới mới nhất trong lĩnh vực thị giác máy tính. Sự kiện đã khơi dậy các cuộc thảo luận về nhiều chủ đề khác nhau, chẳng hạn như các cách để tăng tốc độ phát triển ứng dụng AI.
Một điểm nhấn quan trọng của sự kiện là bài phát biểu về Hugging Face, một nền tảng AI mã nguồn mở giúp tinh gọn việc huấn luyện, tối ưu hóa và triển khai mô hình. Pavel Iakubovskii, Kỹ sư Học máy tại Hugging Face, đã chia sẻ cách các công cụ của nền tảng này cải thiện quy trình làm việc cho các tác vụ thị giác máy tính như phát hiện đối tượng trong hình ảnh, phân loại hình ảnh vào các nhóm khác nhau và đưa ra dự đoán mà không cần huấn luyện trước trên các ví dụ cụ thể (zero-shot learning).
Hugging Face Hub lưu trữ và cung cấp quyền truy cập vào nhiều mô hình AI và computer vision models như Ultralytics YOLO11. Trong bài viết này, chúng tôi sẽ tóm tắt những điểm chính từ bài nói chuyện của Pavel và xem cách các nhà phát triển có thể sử dụng các công cụ mã nguồn mở của Hugging Face để xây dựng và triển khai các mô hình AI một cách nhanh chóng.

Hình 1. Pavel trên sân khấu tại YV24.
Link to this sectionHugging Face Hub hỗ trợ phát triển AI nhanh hơn#
Pavel bắt đầu bài nói chuyện của mình bằng cách giới thiệu Hugging Face là một nền tảng AI mã nguồn mở cung cấp các mô hình được huấn luyện sẵn cho nhiều ứng dụng khác nhau. Các mô hình này được thiết kế cho các nhánh khác nhau của AI, bao gồm xử lý ngôn ngữ tự nhiên (NLP), thị giác máy tính và AI đa phương thức, cho phép các hệ thống xử lý các loại dữ liệu khác nhau như văn bản, hình ảnh và âm thanh.
Pavel đề cập rằng Hugging Face Hub hiện đã lưu trữ hơn 1 triệu mô hình và các nhà phát triển có thể dễ dàng tìm thấy các mô hình phù hợp với dự án cụ thể của mình. Hugging Face hướng tới mục tiêu đơn giản hóa việc phát triển AI bằng cách cung cấp các công cụ để huấn luyện, tinh chỉnh (fine-tune) và triển khai mô hình. Khi các nhà phát triển có thể thử nghiệm với các mô hình khác nhau, nó giúp đơn giản hóa quá trình tích hợp AI vào các ứng dụng trong thế giới thực.
Mặc dù Hugging Face ban đầu được biết đến với NLP, nhưng nền tảng này đã mở rộng sang computer vision và AI đa phương thức, cho phép các nhà phát triển giải quyết phạm vi tác vụ AI rộng hơn. Nền tảng này cũng có một cộng đồng mạnh mẽ, nơi các nhà phát triển có thể cộng tác, chia sẻ thông tin chi tiết và nhận hỗ trợ thông qua các diễn đàn, Discord và GitHub.
Link to this sectionKhám phá các mô hình Hugging Face cho các ứng dụng thị giác máy tính#
Đi sâu hơn vào chi tiết, Pavel giải thích cách các công cụ của Hugging Face giúp việc xây dựng các ứng dụng thị giác máy tính trở nên dễ dàng hơn. Các nhà phát triển có thể sử dụng chúng cho các tác vụ như phân loại hình ảnh, phát hiện đối tượng và các ứng dụng thị giác-ngôn ngữ.
Anh ấy cũng chỉ ra rằng nhiều computer vision tasks này có thể được xử lý bằng các mô hình được huấn luyện sẵn có trên Hugging Face Hub, giúp tiết kiệm thời gian bằng cách giảm nhu cầu huấn luyện từ đầu. Trên thực tế, Hugging Face cung cấp hơn 13.000 mô hình được huấn luyện sẵn cho các tác vụ phân loại hình ảnh, bao gồm các mô hình phân loại thực phẩm, phân loại thú cưng và phát hiện cảm xúc.
Nhấn mạnh khả năng tiếp cận của các mô hình này, anh cho biết: "Có lẽ bạn thậm chí không cần phải huấn luyện một mô hình cho dự án của mình - bạn có thể tìm thấy một mô hình trên Hub đã được ai đó từ cộng đồng huấn luyện sẵn rồi."
Link to this sectionCác mô hình Hugging Face cho phát hiện đối tượng#
Đưa ra một ví dụ khác, Pavel giải thích kỹ hơn về cách Hugging Face có thể hỗ trợ object detection, một chức năng chính trong thị giác máy tính được sử dụng để xác định và định vị các đối tượng trong hình ảnh. Ngay cả với dữ liệu được gắn nhãn hạn chế, các mô hình được huấn luyện sẵn có trên Hugging Face Hub có thể giúp việc phát hiện đối tượng trở nên hiệu quả hơn.
Anh ấy cũng đưa ra tổng quan nhanh về một số mô hình được xây dựng cho tác vụ này mà bạn có thể tìm thấy trên Hugging Face:
- Các mô hình phát hiện đối tượng thời gian thực: Đối với các môi trường động nơi tốc độ là yếu tố then chốt, các mô hình như Detection Transformer (DETR) cung cấp khả năng phát hiện đối tượng theo thời gian thực. DETR được huấn luyện trên tập dữ liệu COCO và được thiết kế để xử lý các tính năng đa quy mô một cách hiệu quả, giúp nó phù hợp cho các ứng dụng nhạy cảm về thời gian.
- Vision-language models: Các mô hình này kết hợp xử lý hình ảnh và văn bản, giúp các hệ thống AI có thể khớp hình ảnh với các mô tả hoặc nhận diện các đối tượng nằm ngoài dữ liệu huấn luyện của chúng. Ví dụ bao gồm CLIP và SigLIP, giúp cải thiện việc tìm kiếm hình ảnh bằng cách liên kết văn bản với hình ảnh trực quan và cho phép các giải pháp AI nhận diện các đối tượng mới bằng cách hiểu ngữ cảnh của chúng.
- Các mô hình phát hiện đối tượng zero-shot: Chúng có thể xác định các đối tượng mà chúng chưa từng thấy trước đây bằng cách hiểu mối quan hệ giữa hình ảnh và văn bản. Ví dụ bao gồm OwlVit, GroundingDINO và OmDet, sử dụng zero-shot learning để phát hiện các đối tượng mới mà không cần dữ liệu huấn luyện được gắn nhãn.
Link to this sectionCách sử dụng các mô hình Hugging Face#
Pavel sau đó chuyển sự tập trung sang việc thực hành với các mô hình Hugging Face, giải thích ba cách các nhà phát triển có thể tận dụng chúng: khám phá mô hình, kiểm tra nhanh và tùy chỉnh sâu hơn.
Anh đã trình diễn cách các nhà phát triển có thể duyệt các mô hình trực tiếp trên Hugging Face Hub mà không cần viết bất kỳ dòng mã nào, giúp dễ dàng kiểm tra các mô hình ngay lập tức thông qua giao diện tương tác. "Bạn có thể dùng thử mà không cần viết một dòng mã nào hoặc tải xuống mô hình trên máy tính của mình," Pavel nói thêm. Vì một số mô hình có kích thước lớn, việc chạy chúng trên Hub giúp tránh các hạn chế về lưu trữ và xử lý.

Hình 2. Cách sử dụng các mô hình Hugging Face.
Ngoài ra, Hugging Face Inference API cho phép các nhà phát triển chạy các mô hình AI với các lệnh gọi API đơn giản. Nó rất tuyệt vời cho việc kiểm tra nhanh, các dự án chứng minh khái niệm (proof-of-concept) và tạo mẫu nhanh mà không cần thiết lập phức tạp.
Đối với các trường hợp sử dụng nâng cao hơn, các nhà phát triển có thể sử dụng framework Hugging Face Transformers, một công cụ mã nguồn mở cung cấp các mô hình được huấn luyện sẵn cho các tác vụ văn bản, thị giác và âm thanh trong khi hỗ trợ cả PyTorch và TensorFlow. Pavel giải thích rằng chỉ với hai dòng mã, các nhà phát triển có thể truy xuất một mô hình từ Hugging Face Hub và liên kết nó với một công cụ tiền xử lý, chẳng hạn như bộ xử lý hình ảnh, để phân tích dữ liệu hình ảnh cho các ứng dụng Vision AI.
Link to this sectionTối ưu hóa các quy trình làm việc AI với Hugging Face#
Tiếp theo, Pavel giải thích cách Hugging Face có thể tinh gọn các quy trình làm việc AI. Một chủ đề chính mà anh đề cập là tối ưu hóa cơ chế chú ý (attention mechanism) trong Transformers, một tính năng cốt lõi của các mô hình học sâu giúp nó tập trung vào những phần phù hợp nhất của dữ liệu đầu vào. Điều này cải thiện độ chính xác của các tác vụ liên quan đến xử lý ngôn ngữ và thị giác máy tính. Tuy nhiên, nó có thể tốn nhiều tài nguyên.
Việc tối ưu hóa cơ chế chú ý có thể giảm đáng kể mức tiêu thụ bộ nhớ đồng thời cải thiện tốc độ. Pavel chỉ ra rằng, "Ví dụ, bằng cách chuyển sang một triển khai chú ý hiệu quả hơn, bạn có thể đạt được hiệu suất nhanh hơn tới 1,8 lần."
Hugging Face cung cấp hỗ trợ tích hợp cho các triển khai chú ý hiệu quả hơn trong framework Transformers. Các nhà phát triển có thể kích hoạt các tối ưu hóa này bằng cách chỉ định một triển khai chú ý thay thế khi tải mô hình.
Link to this sectionOptimum và Torch Compile#
Anh ấy cũng nói về lượng hóa (quantization), một kỹ thuật giúp các mô hình AI nhỏ gọn hơn bằng cách giảm độ chính xác của các số mà chúng sử dụng mà không ảnh hưởng quá nhiều đến hiệu suất. Điều này giúp các mô hình sử dụng ít bộ nhớ hơn và chạy nhanh hơn, làm cho chúng phù hợp hơn với các thiết bị có sức mạnh xử lý hạn chế như điện thoại thông minh và các hệ thống nhúng.
Để cải thiện hiệu quả hơn nữa, Pavel giới thiệu thư viện Hugging Face Optimum, một bộ công cụ được thiết kế để tối ưu hóa và triển khai các mô hình. Chỉ với một vài dòng mã, các nhà phát triển có thể áp dụng các kỹ thuật lượng hóa và chuyển đổi các mô hình sang các định dạng hiệu quả như ONNX (Open Neural Network Exchange), cho phép chúng chạy trơn tru trên các loại phần cứng khác nhau, bao gồm máy chủ đám mây và thiết bị biên (edge devices).

Hình 3. Pavel đã nói về thư viện Optimum và các tính năng của nó.
Cuối cùng, Pavel đề cập đến những lợi ích của Torch Compile, một tính năng trong PyTorch giúp tối ưu hóa cách các mô hình AI xử lý dữ liệu, làm cho chúng chạy nhanh hơn và hiệu quả hơn. Hugging Face tích hợp Torch Compile trong các thư viện Transformers và Optimum của mình, cho phép các nhà phát triển tận dụng những cải tiến hiệu suất này với những thay đổi mã tối thiểu.
Bằng cách tối ưu hóa cấu trúc tính toán của mô hình, Torch Compile có thể tăng tốc thời gian suy luận (inference) và tăng tốc độ khung hình từ 29 lên 150 khung hình mỗi giây mà không làm giảm độ chính xác hoặc chất lượng.
Link to this sectionTriển khai các mô hình với các công cụ Hugging Face#
Tiếp theo, Pavel đề cập ngắn gọn về cách các nhà phát triển có thể mở rộng và triển khai các mô hình Vision AI bằng các công cụ Hugging Face sau khi chọn mô hình phù hợp và chọn phương pháp phát triển tốt nhất.
Ví dụ, các nhà phát triển có thể triển khai các ứng dụng AI tương tác bằng Gradio và Streamlit. Gradio cho phép các nhà phát triển tạo các giao diện dựa trên web cho các mô hình học máy, trong khi Streamlit giúp xây dựng các ứng dụng dữ liệu tương tác với các script Python đơn giản.
Pavel cũng chỉ ra, "Bạn không cần phải bắt đầu viết mọi thứ từ đầu," đề cập đến các hướng dẫn, sổ tay huấn luyện (training notebooks) và các script ví dụ mà Hugging Face cung cấp. Những tài nguyên này giúp các nhà phát triển bắt đầu nhanh chóng mà không cần phải xây dựng mọi thứ từ con số không.

Hình 4. Pavel thảo luận về khả năng của Hugging Face tại YV24.
Link to this sectionLợi ích của Hugging Face Hub#
Kết thúc bài phát biểu, Pavel đã tóm tắt những lợi thế của việc sử dụng Hugging Face Hub. Anh nhấn mạnh cách nó đơn giản hóa việc quản lý mô hình và cộng tác. Anh cũng lưu ý đến sự sẵn có của các hướng dẫn, sổ tay và tài liệu học tập, những thứ có thể giúp cả người mới bắt đầu và các chuyên gia hiểu và triển khai các mô hình AI.
"Có rất nhiều không gian thú vị đã có trên Hub. Bạn có thể tìm các không gian tương tự, sao chép mã nguồn được chia sẻ, sửa đổi một vài dòng, thay thế mô hình bằng mô hình của riêng bạn và đẩy nó trở lại," anh giải thích, khuyến khích các nhà phát triển tận dụng sự linh hoạt của nền tảng.
Link to this sectionCác điểm chính cần lưu ý#
Trong bài nói chuyện của mình tại YV24, Pavel đã chia sẻ cách Hugging Face cung cấp các công cụ hỗ trợ việc huấn luyện, tối ưu hóa và triển khai mô hình AI. Ví dụ, những đổi mới như Transformers, Optimum và Torch Compile có thể giúp các nhà phát triển nâng cao hiệu suất mô hình.
Khi các mô hình AI trở nên hiệu quả hơn, những tiến bộ trong việc lượng hóa và triển khai tại biên (edge deployment) đang giúp việc chạy chúng trên các thiết bị giới hạn tài nguyên trở nên dễ dàng hơn. Những cải tiến này, kết hợp với các công cụ như Hugging Face và các mô hình thị giác máy tính tiên tiến như Ultralytics YOLO11, là chìa khóa để xây dựng các ứng dụng Vision AI có khả năng mở rộng và hiệu suất cao.
Hãy tham gia cộng đồng đang ngày càng phát triển của chúng tôi! Khám phá kho lưu trữ GitHub của chúng tôi để tìm hiểu về AI và xem qua các giấy phép YOLO của chúng tôi để bắt đầu các dự án Vision AI của bạn. Bạn quan tâm đến các đổi mới như thị giác máy tính trong chăm sóc sức khỏe hay thị giác máy tính trong nông nghiệp? Hãy ghé thăm các trang giải pháp của chúng tôi để khám phá thêm!






