Đón xem YOLO Vision 2025!
25 tháng 9, 2025
10:00 — 18:00 BST
Sự kiện kết hợp
Yolo Vision 2024

Nâng cao sức mạnh cho thị giác máy tính mã nguồn mở với transformers của HuggingFace

Nuvola Ladi

5 phút đọc

14 tháng 2, 2024

Đi sâu vào lĩnh vực thị giác máy tính mã nguồn mở với HuggingFace! Tìm hiểu về chuyển giao học tập, transformers và khám phá hơn 8.000 mô hình. Tham gia cùng Merve Noyan để có được những hiểu biết sâu sắc và các bản demo thực tế, trao quyền cho các nhà phát triển đổi mới trong khám phá AI.

Khi chúng ta tiếp tục khám phá những điểm nổi bật từ sự kiện YOLO VISION 2023 (YV23), hãy cùng gặp gỡ Merve Noyan, Kỹ sư Vận động Phát triển tại HuggingFace, nền tảng NLP hàng đầu với các mô hình được đào tạo trước để phát triển hiệu quả các ứng dụng ngôn ngữ. Trong bài nói của mình, Merve đã chia sẻ một số hiểu biết đáng kinh ngạc về thế giới thị giác máy tính mã nguồn mở. 

Hãy tham gia cùng chúng tôi khi chúng tôi đưa bạn vào một cuộc hành trình xuyên qua vũ trụ hấp dẫn của chuyển giao học tập, transformers và hệ sinh thái thị giác máy tính mã nguồn mở.

Chuyển giao học tập được hé lộ: Tóm tắt nhanh

Merve đã bắt đầu bằng một phần giới thiệu nhanh về chuyển giao học tập, cây đũa thần cho phép chúng ta chuyển kiến thức từ mạng nơ-ron này sang mạng nơ-ron khác. Hãy tưởng tượng việc huấn luyện một mô hình trên các đặc trưng phổ quát ở các lớp đầu, như cạnh và góc, và sau đó tinh chỉnh nó cho các tác vụ cụ thể. Đây là bản chất của chuyển giao học tập, giảm sự phụ thuộc vào dữ liệu và tăng độ chính xác.

Merve đã làm nổi bật các xương sống tích chập cổ điển như ResNet và Inception, tạo tiền đề cho hành trình chuyển đổi phía trước.

Bước vào thế giới transformers: Một câu đố được hé lộ

Điều gì làm cho Transformers trở nên đặc biệt? Merve đã ví nó như một câu đố, cho thấy cách chúng khác với các mô hình dựa trên tích chập truyền thống. Bí mật nằm ở khả năng thực hiện học tập tự giám sát, nắm bắt các đặc trưng mà không cần dữ liệu được gắn nhãn. Vision Transformer, Data Efficient Transformer, CLIP và SWIM CLIP là một trong số những dàn sao mô hình dựa trên transformer mà cô ấy đã giới thiệu. 

Ultralytics hỗ trợ mô hình transformer được thiết kế để phát hiện đối tượng. Mô hình này có bộ mã hóa hybrid hiệu quả, lựa chọn truy vấn dựa trên IOU và tốc độ suy luận có thể điều chỉnh. Đáng chú ý, nó tuân theo mô hình quen thuộc của các mô hình Ultralytics YOLOv8 khác, cung cấp các tùy chọn để dự đoán, huấn luyện, xác thực và xuất mô hình.

Điểm đến lý tưởng của bạn

Merve sau đó đi sâu vào kho tàng các sản phẩm của HuggingFace, với hơn 8.000 mô hình cho các tác vụ thị giác máy tính cổ điển và 10.000 mô hình cho các ứng dụng đa phương thức. HuggingFace Hub tự hào có hơn 3.000 bộ dữ liệu, biến nó thành sân chơi cho các nhà phát triển và những người đam mê. Merve nhấn mạnh trải nghiệm liền mạch, nhờ API nhất quán của HuggingFace, cung cấp các mô hình sẵn sàng sử dụng cho nhiều trường hợp sử dụng khác nhau.

Thực hành thú vị với HuggingFace

Bài nói chuyện chuyển sang trình diễn thực tế, cho thấy cách người ta có thể làm việc với các mô hình một cách dễ dàng. Từ việc khởi tạo các mô hình và bộ xử lý đến tinh chỉnh với Trainer API, Merve đã nói rõ rằng thư viện HuggingFace Transformers là người bạn tốt nhất của nhà phát triển. Cô ấy thậm chí còn giới thiệu Pipeline API, một tính năng yêu thích cá nhân, giúp đơn giản hóa quy trình làm việc cho người dùng.

Hình 1. Merve Noyan thuyết trình tại YV23 tại Google for Startups Campus ở Madrid.

Một cái nhìn thoáng qua về các ứng dụng

Merve kết thúc bài nói chuyện bằng một cái nhìn thoáng qua về một số ứng dụng tuyệt vời, bao gồm mô hình Plot để trả lời câu hỏi trực quan, Blip để chú thích hình ảnh và mô hình Segment Anything mạnh mẽ để phân đoạn hình ảnh. Pipeline API của HuggingFace Ecosystem đã trở thành tâm điểm, giúp bạn dễ dàng sử dụng các mô hình mà không cần đi sâu vào các chi tiết kỹ thuật.

Điểm nhấn đặc biệt là màn trình diễn của Merve về việc tạo ra ảo ảnh quang học với Elysian Diffusion, một trải nghiệm hấp dẫn mang đến một sự thay đổi thú vị cho thế giới AI.

Tóm lại!

Tóm lại, bài nói chuyện của Merve đã truyền cảm hứng cho chúng ta và thôi thúc chúng ta khám phá những khả năng vô tận của thị giác máy tính mã nguồn mở. HuggingFace thực sự đã làm cho AI trở nên dễ tiếp cận, thú vị và hấp dẫn, trao quyền cho các nhà phát triển thỏa sức sáng tạo. Đây là tương lai của cộng đồng mã nguồn mở và những đổi mới đáng kinh ngạc mà nó nắm giữ! 

Xem toàn bộ bài nói chuyện tại đây

Hãy cùng nhau xây dựng tương lai
của AI!

Bắt đầu hành trình của bạn với tương lai của học máy

Bắt đầu miễn phí
Đã sao chép liên kết vào clipboard