Bằng cách nhấp vào “Chấp nhận tất cả Cookie”, bạn đồng ý với việc lưu trữ cookie trên thiết bị của mình để tăng cường khả năng điều hướng trang web, phân tích việc sử dụng trang web và hỗ trợ các nỗ lực tiếp thị của chúng tôi. Thêm thông tin
Cài đặt Cookie
Bằng cách nhấp vào “Chấp nhận tất cả Cookie”, bạn đồng ý với việc lưu trữ cookie trên thiết bị của mình để tăng cường khả năng điều hướng trang web, phân tích việc sử dụng trang web và hỗ trợ các nỗ lực tiếp thị của chúng tôi. Thêm thông tin
Hãy tham gia cùng chúng tôi khi chúng tôi xem lại bài phát biểu quan trọng từ YOLO Tầm nhìn 2024 tập trung vào việc khám phá cách Hugging Face Các công cụ nguồn mở đang thúc đẩy sự phát triển AI.
Lựa chọn đúng thuật toán chỉ là một phần trong việc xây dựng các giải pháp thị giác máy tính hiệu quả. Các kỹ sư AI thường làm việc với bộ dữ liệu lớn, tinh chỉnh các mô hình cho các tác vụ cụ thể và tối ưu hóa các hệ thống AI để có hiệu suất thực tế. Khi các ứng dụng AI được áp dụng nhanh hơn, nhu cầu về các công cụ đơn giản hóa các quy trình này cũng tăng lên.
Tại YOLO Vision 2024 (YV24) , sự kiện kết hợp thường niên được hỗ trợ bởi Ultralytics Các chuyên gia AI và những người đam mê công nghệ đã cùng nhau khám phá những đổi mới mới nhất trong lĩnh vực thị giác máy tính. Sự kiện đã khơi mào các cuộc thảo luận về nhiều chủ đề, chẳng hạn như các phương pháp tăng tốc phát triển ứng dụng AI.
Một điểm nhấn quan trọng của sự kiện là bài phát biểu quan trọng về Hugging Face , một nền tảng AI nguồn mở giúp hợp lý hóa việc đào tạo, tối ưu hóa và triển khai mô hình. Pavel Lakubovskii , Kỹ sư Học máy tại Hugging Face , đã chia sẻ cách các công cụ của mình cải thiện quy trình làm việc cho các tác vụ thị giác máy tính như phát hiện đối tượng trong hình ảnh, phân loại hình ảnh thành các nhóm khác nhau và đưa ra dự đoán mà không cần đào tạo trước về các ví dụ cụ thể (học không cần thực hành).
Hugging Face Hub lưu trữ và cung cấp quyền truy cập vào nhiều mô hình AI và thị giác máy tính như Ultralytics YOLO11 Trong bài viết này, chúng tôi sẽ tóm tắt những nội dung chính từ bài nói chuyện của Pavel và xem các nhà phát triển có thể sử dụng như thế nào Hugging Face Các công cụ nguồn mở để xây dựng và triển khai các mô hình AI một cách nhanh chóng.
Hình 1. Pavel trên sân khấu tại YV24.
Hugging Face Hub hỗ trợ phát triển AI nhanh hơn
Pavel bắt đầu bài nói chuyện của mình bằng cách giới thiệu Hugging Face là một nền tảng AI nguồn mở cung cấp các mô hình được đào tạo sẵn cho nhiều ứng dụng khác nhau. Các mô hình này được thiết kế cho nhiều nhánh AI khác nhau, bao gồm xử lý ngôn ngữ tự nhiên (NLP), thị giác máy tính và AI đa phương thức, cho phép các hệ thống xử lý các loại dữ liệu khác nhau, chẳng hạn như văn bản, hình ảnh và âm thanh.
Pavel đã đề cập rằng Hugging Face Hub hiện đã lưu trữ hơn 1 triệu mô hình và các nhà phát triển có thể dễ dàng tìm thấy các mô hình phù hợp với dự án cụ thể của mình. Hugging Face nhằm mục đích đơn giản hóa quá trình phát triển AI bằng cách cung cấp các công cụ để đào tạo, tinh chỉnh và triển khai mô hình. Khi các nhà phát triển có thể thử nghiệm với nhiều mô hình khác nhau, quá trình tích hợp AI vào các ứng dụng thực tế sẽ trở nên đơn giản hơn.
Trong khi Hugging Face Ban đầu được biết đến với NLP, sau đó đã mở rộng sang thị giác máy tính và AI đa phương thức, cho phép các nhà phát triển xử lý nhiều tác vụ AI hơn. Nền tảng này cũng có một cộng đồng mạnh mẽ, nơi các nhà phát triển có thể hợp tác, chia sẻ thông tin chuyên sâu và nhận hỗ trợ thông qua diễn đàn, Discord và GitHub.
Khám phá Hugging Face mô hình cho các ứng dụng thị giác máy tính
Đi sâu hơn vào chi tiết, Pavel đã giải thích cách Hugging Face Các công cụ của 's giúp việc xây dựng các ứng dụng thị giác máy tính trở nên dễ dàng hơn. Các nhà phát triển có thể sử dụng chúng cho các tác vụ như phân loại hình ảnh, phát hiện đối tượng và các ứng dụng ngôn ngữ thị giác.
Ông cũng chỉ ra rằng nhiều nhiệm vụ thị giác máy tính này có thể được xử lý bằng các mô hình được đào tạo trước có sẵn trên Hugging Face Hub, tiết kiệm thời gian bằng cách giảm nhu cầu đào tạo từ đầu. Trên thực tế, Hugging Face cung cấp hơn 13.000 mô hình được đào tạo trước cho các nhiệm vụ phân loại hình ảnh, bao gồm phân loại thực phẩm, phân loại thú cưng và phát hiện cảm xúc.
Nhấn mạnh khả năng tiếp cận của các mô hình này, ông nói, "Bạn có thể thậm chí không cần phải huấn luyện một mô hình cho dự án của mình - bạn có thể tìm thấy một mô hình trên Hub đã được huấn luyện bởi ai đó từ cộng đồng."
Hugging Face mô hình phát hiện đối tượng
Đưa ra một ví dụ khác, Pavel đã giải thích chi tiết về cách Hugging Face có thể hỗ trợ phát hiện đối tượng , một chức năng quan trọng trong thị giác máy tính, được sử dụng để xác định và định vị các đối tượng trong hình ảnh. Ngay cả với dữ liệu được gắn nhãn hạn chế, các mô hình được đào tạo trước vẫn có sẵn trên Hugging Face Hub có thể giúp phát hiện đối tượng hiệu quả hơn.
Ông cũng đưa ra một cái nhìn tổng quan nhanh về một số mô hình được xây dựng cho nhiệm vụ này mà bạn có thể tìm thấy trên Hugging Face :
Các mô hình phát hiện đối tượng thời gian thực : Đối với các môi trường động, nơi tốc độ là yếu tố quan trọng, các mô hình như Detection Transformer (DETR) cung cấp khả năng phát hiện đối tượng thời gian thực. DETR được đào tạo về COCO bộ dữ liệu và được thiết kế để xử lý các tính năng đa tỷ lệ một cách hiệu quả, phù hợp với các ứng dụng nhạy cảm với thời gian.
Mô hình ngôn ngữ thị giác (Vision-language models): Các mô hình này kết hợp xử lý hình ảnh và văn bản, giúp các hệ thống AI có thể khớp hình ảnh với mô tả hoặc nhận dạng các đối tượng vượt ra ngoài dữ liệu huấn luyện của chúng. Ví dụ bao gồm CLIP và SigLIP, giúp cải thiện khả năng tìm kiếm hình ảnh bằng cách liên kết văn bản với hình ảnh và cho phép các giải pháp AI xác định các đối tượng mới bằng cách hiểu ngữ cảnh của chúng.
Các mô hình phát hiện vật thể Zero-shot: Chúng có thể xác định các vật thể mà chúng chưa từng thấy trước đây bằng cách hiểu mối quan hệ giữa hình ảnh và văn bản. Ví dụ bao gồm OwlVit, GroundingDINO và OmDet, sử dụng phương pháp học Zero-shot để detect các đối tượng mới mà không cần dữ liệu đào tạo có nhãn.
Làm thế nào để sử dụng Hugging Face các mô hình
Sau đó, Pavel chuyển trọng tâm sang việc thực hành với Hugging Face các mô hình, giải thích ba cách mà các nhà phát triển có thể tận dụng chúng: khám phá các mô hình, nhanh chóng thử nghiệm chúng và tùy chỉnh chúng hơn nữa.
Ông đã chứng minh cách các nhà phát triển có thể duyệt các mô hình trực tiếp trên Hugging Face Hub mà không cần viết bất kỳ mã nào, giúp bạn dễ dàng kiểm tra mô hình ngay lập tức thông qua giao diện tương tác. "Bạn có thể dùng thử mà không cần viết một dòng mã nào hay tải mô hình về máy tính", Pavel nói thêm. Vì một số mô hình có dung lượng lớn, việc chạy chúng trên Hub giúp tránh được những hạn chế về lưu trữ và xử lý.
Hình 2. Cách sử dụng Hugging Face các mô hình.
Ngoài ra, Hugging Face Inference API cho phép các nhà phát triển chạy mô hình AI bằng các lệnh gọi API đơn giản. Nó rất phù hợp cho việc thử nghiệm nhanh, các dự án chứng minh khái niệm và tạo mẫu nhanh mà không cần thiết lập phức tạp.
Đối với các trường hợp sử dụng nâng cao hơn, các nhà phát triển có thể sử dụng Hugging Face Khung Transformers, một công cụ nguồn mở cung cấp các mô hình được đào tạo trước cho các tác vụ văn bản, hình ảnh và âm thanh trong khi hỗ trợ cả hai PyTorch Và TensorFlow . Pavel giải thích rằng chỉ với hai dòng mã, các nhà phát triển có thể lấy một mô hình từ Hugging Face Hub và liên kết nó với một công cụ xử lý trước, chẳng hạn như bộ xử lý hình ảnh, để phân tích dữ liệu hình ảnh cho các ứng dụng Vision AI.
Tối ưu hóa quy trình làm việc AI với Hugging Face
Tiếp theo, Pavel giải thích cách Hugging Face có thể hợp lý hóa quy trình làm việc của AI. Một chủ đề chính mà ông đề cập là tối ưu hóa cơ chế chú ý trong Transformers, một tính năng cốt lõi của các mô hình học sâu, giúp tập trung vào những phần quan trọng nhất của dữ liệu đầu vào. Điều này cải thiện độ chính xác của các tác vụ liên quan đến xử lý ngôn ngữ và thị giác máy tính. Tuy nhiên, nó có thể tiêu tốn nhiều tài nguyên.
Tối ưu hóa cơ chế attention có thể giảm đáng kể việc sử dụng bộ nhớ đồng thời cải thiện tốc độ. Pavel chỉ ra, "Ví dụ: bằng cách chuyển sang một cách triển khai attention hiệu quả hơn, bạn có thể thấy hiệu suất nhanh hơn tới 1,8 lần."
Hugging Face cung cấp hỗ trợ tích hợp cho việc triển khai chú ý hiệu quả hơn trong khuôn khổ Transformers. Các nhà phát triển có thể kích hoạt những tối ưu hóa này bằng cách chỉ định một triển khai chú ý thay thế khi tải mô hình.
Tối ưu và Torch Biên dịch
Ông cũng nói về lượng tử hóa, một kỹ thuật làm cho các mô hình AI nhỏ hơn bằng cách giảm độ chính xác của các con số mà chúng sử dụng mà không ảnh hưởng quá nhiều đến hiệu suất. Điều này giúp các mô hình sử dụng ít bộ nhớ hơn và chạy nhanh hơn, làm cho chúng phù hợp hơn cho các thiết bị có sức mạnh xử lý hạn chế, như điện thoại thông minh và hệ thống nhúng.
Để cải thiện hiệu quả hơn nữa, Pavel đã giới thiệu Hugging Face Thư viện Optimum, một bộ công cụ được thiết kế để tối ưu hóa và triển khai các mô hình. Chỉ với vài dòng mã, các nhà phát triển có thể áp dụng các kỹ thuật lượng tử hóa và chuyển đổi mô hình sang các định dạng hiệu quả như ONNX (Open Neural Network Exchange) , cho phép chúng chạy mượt mà trên nhiều loại phần cứng khác nhau, bao gồm máy chủ đám mây và thiết bị biên.
Hình 3. Pavel đã nói về thư viện Optimum và các tính năng của nó.
Cuối cùng, Pavel đã đề cập đến những lợi ích của Torch Biên dịch, một tính năng trong PyTorch giúp tối ưu hóa cách các mô hình AI xử lý dữ liệu, giúp chúng chạy nhanh hơn và hiệu quả hơn. Hugging Face tích hợp Torch Biên dịch trong các thư viện Transformers và Optimum, cho phép các nhà phát triển tận dụng những cải tiến về hiệu suất này với những thay đổi mã tối thiểu.
Bằng cách tối ưu hóa cấu trúc tính toán của mô hình, Torch Biên dịch có thể tăng tốc thời gian suy luận và tăng tốc độ khung hình từ 29 lên 150 khung hình mỗi giây mà không ảnh hưởng đến độ chính xác hoặc chất lượng.
Triển khai các mô hình với Hugging Face công cụ
Tiếp theo, Pavel đã đề cập ngắn gọn về cách các nhà phát triển có thể mở rộng và triển khai các mô hình Vision AI bằng cách sử dụng Hugging Face công cụ sau khi chọn đúng mô hình và chọn phương pháp phát triển tốt nhất.
Ví dụ, các nhà phát triển có thể triển khai các ứng dụng AI tương tác bằng Gradio và Streamlit. Gradio cho phép các nhà phát triển tạo giao diện web cho các mô hình học máy, trong khi Streamlit giúp xây dựng các ứng dụng dữ liệu tương tác với các tính năng đơn giản. Python kịch bản.
Pavel cũng chỉ ra rằng, “Bạn không cần phải bắt đầu viết mọi thứ từ đầu”, ám chỉ đến các hướng dẫn, sổ tay đào tạo và các kịch bản mẫu Hugging Face cung cấp. Những tài nguyên này giúp các nhà phát triển nhanh chóng bắt đầu mà không cần phải xây dựng mọi thứ từ đầu.
Hình 4. Pavel thảo luận về khả năng của Hugging Face tại YV24.
Lợi ích của Hugging Face Trung tâm
Kết thúc bài phát biểu quan trọng của mình, Pavel đã tóm tắt những lợi ích của việc sử dụng Hugging Face Hub. Ông nhấn mạnh cách nó đơn giản hóa việc quản lý và cộng tác mô hình. Ông cũng lưu ý đến việc cung cấp các hướng dẫn, sổ tay và bài hướng dẫn, có thể giúp cả người mới bắt đầu và chuyên gia hiểu và triển khai các mô hình AI.
"Đã có rất nhiều không gian thú vị trên Hub. Bạn có thể tìm thấy những không gian tương tự, sao chép mã được chia sẻ, sửa đổi một vài dòng, thay thế mô hình bằng mô hình của riêng bạn và đẩy nó trở lại," ông giải thích, khuyến khích các nhà phát triển tận dụng tính linh hoạt của nền tảng.
Những điều cần nhớ
Trong bài phát biểu của mình tại YV24, Pavel đã chia sẻ cách Hugging Face cung cấp các công cụ hỗ trợ đào tạo, tối ưu hóa và triển khai mô hình AI. Ví dụ, các sáng kiến như Transformers, Optimum và Torch Biên dịch có thể giúp các nhà phát triển nâng cao hiệu suất mô hình.
Khi các mô hình AI trở nên hiệu quả hơn, những tiến bộ trong lượng tử hóa và triển khai biên đang giúp việc chạy chúng trên các thiết bị hạn chế về tài nguyên trở nên dễ dàng hơn. Những cải tiến này, kết hợp với các công cụ như Hugging Face và các mô hình thị giác máy tính tiên tiến như Ultralytics YOLO11 , là chìa khóa để xây dựng các ứng dụng Vision AI có khả năng mở rộng và hiệu suất cao.