Giới thiệu Florence-2, mô hình ngôn ngữ thị giác của Microsoft, cung cấp khả năng phát hiện đối tượng, phân đoạn và hiệu suất zero-shot được cải thiện với hiệu quả cao.

Giới thiệu Florence-2, mô hình ngôn ngữ thị giác của Microsoft, cung cấp khả năng phát hiện đối tượng, phân đoạn và hiệu suất zero-shot được cải thiện với hiệu quả cao.

Vào tháng 6 năm 2024, Microsoft đã giới thiệu Florence-2, một mô hình ngôn ngữ thị giác (VLM) đa phương thức được thiết kế để xử lý một loạt các tác vụ bao gồm phát hiện đối tượng, phân vùng, chú thích hình ảnh và grounding. Florence-2 đặt ra một chuẩn mực mới cho hiệu suất zero-shot, có nghĩa là nó có thể thực hiện các tác vụ mà không cần đào tạo cụ thể trước đó và tăng kích thước mô hình nhỏ hơn so với các mô hình ngôn ngữ thị giác hiện đại khác.
Nó không chỉ là một mô hình khác, tính linh hoạt và hiệu suất được cải thiện của Florence-2 có khả năng tác động đáng kể đến nhiều ngành công nghiệp bằng cách cải thiện độ chính xác và giảm nhu cầu huấn luyện mở rộng. Trong bài viết này, chúng ta sẽ khám phá các tính năng cải tiến của Florence-2, so sánh hiệu suất của nó với các VLM khác và thảo luận về các ứng dụng tiềm năng của nó.
Florence-2 có thể xử lý nhiều tác vụ khác nhau trong một framework thống nhất duy nhất. Khả năng ấn tượng của mô hình một phần là nhờ vào tập dữ liệu huấn luyện khổng lồ của nó có tên là FLD-5B. FLD-5B bao gồm 5,4 tỷ chú thích trên 126 triệu hình ảnh. Tập dữ liệu toàn diện này được tạo ra đặc biệt để cho phép Florence-2 có các khả năng cần thiết để xử lý một loạt các tác vụ thị giác với độ chính xác và hiệu quả cao.
Sau đây là cái nhìn cận cảnh hơn về các tác vụ mà Florence-2 hỗ trợ:
.png)
Mô hình hỗ trợ cả các tác vụ dựa trên văn bản và dựa trên khu vực. Các mã thông báo vị trí đặc biệt được thêm vào từ vựng của mô hình cho các tác vụ liên quan đến các khu vực cụ thể của hình ảnh. Các mã thông báo này giúp mô hình hiểu các hình dạng khác nhau, chẳng hạn như hình chữ nhật xung quanh các đối tượng (biểu diễn hộp), hình dạng bốn cạnh (biểu diễn hộp tứ giác) và hình dạng nhiều cạnh (biểu diễn đa giác). Mô hình được huấn luyện bằng một phương pháp gọi là mất mát cross-entropy, giúp mô hình học bằng cách so sánh các dự đoán của nó với các câu trả lời đúng và điều chỉnh các tham số bên trong của nó cho phù hợp.
Bộ dữ liệu FLD-5B bao gồm các loại chú thích khác nhau: mô tả văn bản, cặp vùng và văn bản, và sự kết hợp của văn bản, cụm từ và vùng. Nó được tạo ra thông qua một quy trình hai bước bao gồm thu thập và chú thích dữ liệu. Hình ảnh được lấy từ các bộ dữ liệu phổ biến như ImageNet-22k, Object 365, Open Images, Conceptual Captions và LAION. Các chú thích trong bộ dữ liệu FLD-5B chủ yếu là tổng hợp, có nghĩa là chúng được tạo tự động thay vì được gắn nhãn thủ công.
.png)
Ban đầu, các mô hình chuyên dụng có kỹ năng trong các tác vụ cụ thể, như phát hiện đối tượng hoặc phân đoạn, đã tạo ra các chú thích này. Sau đó, một quy trình lọc và nâng cao đã được sử dụng để đảm bảo rằng các chú thích chi tiết và chính xác. Sau khi loại bỏ mọi nhiễu, tập dữ liệu đã trải qua quá trình tinh chỉnh lặp đi lặp lại, trong đó đầu ra của Florence-2 được sử dụng để liên tục cập nhật và cải thiện các chú thích.
Kiến trúc mô hình của Florence-2 tuân theo phương pháp học sequence-to-sequence. Điều này có nghĩa là mô hình xử lý một chuỗi đầu vào (như một hình ảnh với một lời nhắc văn bản) và tạo ra một chuỗi đầu ra (như một mô tả hoặc một nhãn) theo từng bước. Trong framework sequence-to-sequence, mỗi tác vụ được coi là một bài toán dịch: mô hình lấy một hình ảnh đầu vào và một lời nhắc cụ thể cho tác vụ và tạo ra đầu ra tương ứng.
.png)
Cốt lõi của kiến trúc mô hình là một transformer bộ mã hóa-giải mã đa phương thức, kết hợp bộ mã hóa hình ảnh và bộ mã hóa-giải mã đa phương thức. Bộ mã hóa hình ảnh, được gọi là DaViT (Data-efficient Vision Transformer), xử lý hình ảnh đầu vào bằng cách chuyển đổi chúng thành các embedding token trực quan - các biểu diễn nhỏ gọn của hình ảnh nắm bắt cả thông tin không gian (vị trí của mọi thứ) và ngữ nghĩa (mọi thứ là gì). Các token trực quan này sau đó được kết hợp với các embedding văn bản (biểu diễn của văn bản), cho phép mô hình hợp nhất liền mạch dữ liệu văn bản và hình ảnh.
Florence-2 nổi bật so với các mô hình ngôn ngữ thị giác khác nhờ khả năng zero-shot ấn tượng của nó. Không giống như các mô hình như PaliGemma, dựa vào việc tinh chỉnh rộng rãi để thích ứng với các tác vụ khác nhau, Florence-2 hoạt động tốt ngay khi xuất xưởng. Ngoài ra, Florence-2 có thể cạnh tranh với các mô hình lớn hơn như GPT-4V và Flamingo, thường có nhiều tham số hơn nhưng không phải lúc nào cũng phù hợp với hiệu suất của Florence-2. Ví dụ: Florence-2 đạt được kết quả zero-shot tốt hơn Kosmos-2, mặc dù Kosmos-2 có số lượng tham số gấp đôi.
Trong các bài kiểm tra điểm chuẩn, Florence-2 đã cho thấy hiệu suất đáng chú ý trong các tác vụ như chú thích COCO và hiểu biểu thức tham chiếu. Nó vượt trội hơn các mô hình như PolyFormer và UNINEXT trong các tác vụ phát hiện và phân đoạn đối tượng trên tập dữ liệu COCO. Đây là một lựa chọn có tính cạnh tranh cao cho các ứng dụng thực tế, nơi cả hiệu suất và hiệu quả tài nguyên đều rất quan trọng.
Florence-2 có thể được sử dụng trong nhiều ngành công nghiệp khác nhau, chẳng hạn như giải trí, khả năng tiếp cận, giáo dục, v.v. Hãy cùng xem qua một vài ví dụ để hiểu rõ hơn.
Khi bạn ở trên một nền tảng phát trực tuyến cố gắng quyết định xem gì, bạn có thể đọc tóm tắt về một bộ phim để giúp bạn chọn. Điều gì sẽ xảy ra nếu nền tảng này cũng có thể cung cấp một mô tả chi tiết về áp phích phim? Florence-2 có thể thực hiện điều đó thông qua chú thích hình ảnh, tạo ra văn bản mô tả cho hình ảnh. Florence-2 có thể tạo ra các mô tả chi tiết về áp phích phim, làm cho các nền tảng phát trực tuyến trở nên hòa nhập hơn cho người dùng khiếm thị. Bằng cách phân tích các yếu tố trực quan của một áp phích, chẳng hạn như nhân vật, phong cảnh và văn bản, Florence-2 có thể tạo ra các mô tả chi tiết truyền tải nội dung và tâm trạng của áp phích. Hình ảnh bên dưới cho thấy mức độ chi tiết mà Florence-2 có thể cung cấp trong mô tả của nó.

Dưới đây là một số ví dụ khác về trường hợp chú thích ảnh hữu ích:
Florence-2 cũng có thể được sử dụng để làm phong phú thêm trải nghiệm ẩm thực. Ví dụ: một cuốn sách dạy nấu ăn trực tuyến có thể sử dụng Florence-2 để neo trực quan và gắn nhãn các phần của một hình ảnh công thức phức tạp. Neo trực quan giúp liên kết các phần cụ thể của hình ảnh với văn bản mô tả tương ứng. Mỗi thành phần và bước có thể được dán nhãn và giải thích một cách chính xác, giúp các đầu bếp tại gia dễ dàng làm theo công thức và hiểu vai trò của từng thành phần trong món ăn.
.png)
OCR với xử lý dựa trên vùng, tập trung vào việc trích xuất văn bản từ các khu vực cụ thể trong tài liệu, có thể hữu ích trong các lĩnh vực như kế toán. Các khu vực được chỉ định của tài liệu tài chính có thể được phân tích để tự động trích xuất thông tin quan trọng như chi tiết giao dịch, số tài khoản và ngày đến hạn. Bằng cách giảm nhu cầu nhập dữ liệu thủ công, nó giảm thiểu lỗi và tăng tốc thời gian xử lý. Các tổ chức tài chính có thể sử dụng nó để hợp lý hóa các tác vụ như xử lý hóa đơn, đối chiếu biên lai và thanh toán séc, dẫn đến giao dịch nhanh hơn và dịch vụ khách hàng tốt hơn.
.png)
Phân đoạn dựa trên vùng, bao gồm việc chia một hình ảnh thành các phần có ý nghĩa để phân tích tập trung và kiểm tra chi tiết, có thể thúc đẩy các ứng dụng công nghiệp giúp cải thiện độ chính xác và hiệu quả trong các quy trình khác nhau. Bằng cách tập trung vào các khu vực cụ thể trong một hình ảnh, công nghệ này cho phép kiểm tra và phân tích chi tiết các thành phần và sản phẩm. Đối với kiểm soát chất lượng, nó có thể xác định các khuyết tật hoặc sự không nhất quán trong vật liệu, chẳng hạn như vết nứt hoặc lệch lạc, đảm bảo rằng chỉ những sản phẩm chất lượng hàng đầu mới được đưa ra thị trường.
.png)
Nó cũng cải thiện dây chuyền lắp ráp tự động bằng cách hướng dẫn cánh tay robot đến các bộ phận cụ thể và tối ưu hóa việc đặt và lắp ráp các thành phần. Tương tự, trong quản lý hàng tồn kho, nó giúp theo dõi và giám sát tình trạng và vị trí của hàng hóa, dẫn đến hậu cần hiệu quả hơn và giảm thời gian ngừng hoạt động. Nhìn chung, phân đoạn dựa trên khu vực giúp tăng độ chính xác và năng suất, dẫn đến tiết kiệm chi phí và chất lượng sản phẩm cao hơn trong môi trường công nghiệp.
Chúng ta đang bắt đầu thấy một xu hướng là các mô hình AI ngày càng trở nên nhẹ hơn trong khi vẫn duy trì hiệu suất cao. Florence-2 đánh dấu một bước tiến lớn về mô hình ngôn ngữ thị giác. Nó có thể xử lý nhiều tác vụ khác nhau như phát hiện đối tượng, phân đoạn, chú thích hình ảnh và grounding với hiệu suất zero-shot ấn tượng. Mặc dù có kích thước nhỏ hơn, Florence-2 hiệu quả và đa chức năng, điều này làm cho nó cực kỳ hữu ích về mặt ứng dụng trong các ngành công nghiệp khác nhau. Các mô hình như Florence-2 đang mang lại nhiều khả năng hơn, mở rộng tiềm năng cho các đổi mới AI.
Tìm hiểu thêm về AI bằng cách truy cập kho lưu trữ GitHub của chúng tôi và tham gia cộng đồng của chúng tôi. Xem các trang giải pháp của chúng tôi để đọc về các ứng dụng AI trong sản xuất và nông nghiệp. 🚀