FastVLM: Apple giới thiệu model thị giác ngôn ngữ nhanh mới của mình
Apple giới thiệu FastVLM tại CVPR 2025. Model thị giác-ngôn ngữ mã nguồn mở này sở hữu bộ mã hóa FastViTHD, mang lại tốc độ time-to-first-token nhanh hơn tới 85 lần.

Tại hội nghị CVPR 2025, Apple đã giới thiệu một mô hình AI mã nguồn mở mới mang tên FastVLM. Nó được xây dựng để hiểu cả hình ảnh và ngôn ngữ, đồng thời chạy trên các thiết bị Apple như iPhone, iPad và Mac. Điều này có nghĩa là nó có thể mang lại kết quả thông minh một cách nhanh chóng mà không cần gửi dữ liệu của bạn lên đám mây.
Điều khiến FastVLM trở nên đặc biệt thú vị là tốc độ và hiệu quả của nó. Apple đã phát triển một bộ mã hóa thị giác mới có tên là FastViTHD, giúp mô hình diễn giải các hình ảnh chất lượng cao trong khi sử dụng ít bộ nhớ và năng lượng hơn. Tất cả quá trình xử lý đều diễn ra cục bộ trên thiết bị, giúp tăng thời gian phản hồi đồng thời bảo đảm quyền riêng tư của người dùng.
Trong bài viết này, chúng ta sẽ khám phá cách thức hoạt động của FastVLM, những đặc điểm khiến nó trở nên khác biệt và lý do tại sao bản phát hành này của Apple có thể là một bước tiến quan trọng cho các ứng dụng AI hàng ngày trên thiết bị của bạn.
Link to this sectionTìm hiểu về các mô hình ngôn ngữ thị giác (VLM)#
Trước khi tìm hiểu sâu về những điều làm nên sự đặc biệt của FastVLM, hãy cùng xem “VLM” trong tên gọi của nó là gì. Nó đề cập đến mô hình ngôn ngữ thị giác, được thiết kế để hiểu và kết nối nội dung hình ảnh với ngôn ngữ.
Các VLM kết hợp sự hiểu biết về hình ảnh và ngôn ngữ, cho phép chúng thực hiện các tác vụ như mô tả ảnh, trả lời câu hỏi về ảnh chụp màn hình hoặc trích xuất văn bản từ tài liệu. Các mô hình ngôn ngữ thị giác thường hoạt động theo hai phần: một phần xử lý hình ảnh và chuyển đổi nó thành dữ liệu, phần còn lại diễn giải dữ liệu đó để tạo ra phản hồi mà bạn có thể đọc hoặc nghe.
Có thể bạn đã từng sử dụng loại hình đổi mới AI này mà thậm chí không nhận ra. Các ứng dụng quét hóa đơn, đọc thẻ ID, tạo chú thích hình ảnh hoặc hỗ trợ người khiếm thị tương tác với màn hình thường dựa vào các mô hình ngôn ngữ thị giác chạy lặng lẽ dưới nền.
Link to this sectionFastVLM là gì?#
Apple xây dựng FastVLM để thực hiện các tác vụ tương tự như các mô hình ngôn ngữ thị giác khác, nhưng với tốc độ cao hơn, quyền riêng tư mạnh mẽ hơn và hiệu suất được tối ưu hóa trên chính các thiết bị của họ. Nó có thể hiểu nội dung của một hình ảnh và phản hồi bằng văn bản, nhưng không giống như nhiều mô hình dựa vào máy chủ đám mây, FastVLM có thể chạy hoàn toàn trên iPhone, iPad hoặc Mac của bạn.
Các VLM thường hoạt động tốt hơn với hình ảnh có độ phân giải cao. Ví dụ, như hình bên dưới, FastVLM chỉ có thể xác định chính xác biển báo đường phố là “Cấm đi ngược chiều” khi được cung cấp phiên bản hình ảnh có độ phân giải cao. Tuy nhiên, đầu vào độ phân giải cao thường làm chậm mô hình. Đây là nơi FastViTHD tạo ra sự khác biệt.

Hình 1. Hiệu suất FastVLM trên hình ảnh độ phân giải thấp so với cao. (Nguồn)
Bộ mã hóa thị giác mới của Apple, FastViTHD, giúp FastVLM xử lý các hình ảnh chất lượng cao hiệu quả hơn, sử dụng ít bộ nhớ và năng lượng hơn. Cụ thể, FastViTHD đủ nhẹ để chạy mượt mà ngay cả trên các thiết bị nhỏ hơn.
Ngoài ra, FastVLM được công khai trên kho lưu trữ FastVLM GitHub, nơi các nhà phát triển có thể truy cập mã nguồn, thực hiện các thay đổi và sử dụng nó trong ứng dụng của riêng họ theo các điều khoản cấp phép của Apple.
Link to this sectionSo sánh FastVLM với các mô hình VLM khác#
So với các mô hình ngôn ngữ thị giác khác, FastVLM được tối ưu hóa để chạy trên các thiết bị hàng ngày như điện thoại thông minh và máy tính xách tay. Trong các bài kiểm tra hiệu suất, FastVLM tạo ra từ hoặc đầu ra đầu tiên nhanh hơn tới 85 lần so với các mô hình như LLaVA-OneVision-0.5B.

Hình 2. So sánh hiệu suất của FastVLM với các mô hình khác. (Nguồn)
Dưới đây là sơ lược về một số tiêu chuẩn đánh giá mà FastVLM đã được kiểm chứng:
- DocVQA (Trả lời câu hỏi trực quan về tài liệu): Tiêu chuẩn này đánh giá khả năng đọc và hiểu thông tin văn bản trong tài liệu của mô hình, chẳng hạn như các biểu mẫu hoặc trang đã quét.
- TextVQA (Trả lời câu hỏi trực quan dựa trên văn bản): Nó đánh giá khả năng diễn giải các hình ảnh chứa văn bản nhúng và trả lời các câu hỏi liên quan một cách chính xác của mô hình.
- GQA (Trả lời câu hỏi về đồ thị): Tác vụ này kiểm tra kỹ năng suy luận của mô hình bằng cách yêu cầu nó hiểu mối quan hệ giữa các đối tượng và cảnh trong hình ảnh.
- MMMU (Hiểu đa phương thức đa ngành quy mô lớn): Nó đo lường hiệu suất của mô hình trên nhiều môn học và định dạng học thuật, kết hợp khả năng hiểu hình ảnh và văn bản.
- SeedBench (Đánh giá tiêu chuẩn dữ liệu nâng cao để đo kiểm): Tiêu chuẩn này khám phá các khả năng chung của mô hình trong việc hiểu trực quan và suy luận trên nhiều lĩnh vực.
Trên các tiêu chuẩn đánh giá này, FastVLM đạt được kết quả cạnh tranh trong khi sử dụng ít tài nguyên hơn. Nó mang AI thị giác thực tiễn đến các thiết bị hàng ngày như điện thoại, máy tính bảng và máy tính xách tay.
Link to this sectionBộ mã hóa thị giác hiệu quả của FastVLM: FastViTHD#
Tiếp theo, hãy xem xét kỹ hơn FastViTHD, bộ mã hóa thị giác đóng vai trò quan trọng trong hiệu suất xử lý hình ảnh của FastVLM.
Hầu hết các mô hình ngôn ngữ thị giác đều chia hình ảnh thành hàng nghìn phần nhỏ được gọi là token. Càng nhiều token, mô hình càng cần nhiều thời gian và năng lượng để hiểu hình ảnh. Điều này có thể khiến mọi thứ trở nên chậm chạp, đặc biệt là trên điện thoại hoặc máy tính xách tay.

Hình 3. Cách bộ mã hóa thị giác xử lý hình ảnh. (Nguồn)
FastViTHD tránh tình trạng chậm chạp khi xử lý quá nhiều token bằng cách sử dụng ít token hơn nhưng vẫn hiểu toàn bộ hình ảnh. Nó kết hợp hai phương pháp: Transformer, giỏi mô hình hóa các mẫu và mối quan hệ, và các lớp tích chập, hiệu quả trong việc xử lý dữ liệu trực quan. Kết quả là một hệ thống hoạt động nhanh hơn và sử dụng ít bộ nhớ hơn.
Theo Apple, FastViTHD nhỏ hơn tới 3,4 lần so với một số bộ mã hóa thị giác truyền thống trong khi vẫn duy trì độ chính xác cao. Thay vì dựa vào các kỹ thuật tối ưu hóa mô hình như tỉa token (loại bỏ các phần hình ảnh ít quan trọng để tăng tốc xử lý), nó đạt được hiệu quả thông qua một kiến trúc đơn giản và hợp lý hơn.
Link to this sectionCác biến thể mô hình và quy trình đào tạo của FastVLM#
Apple đã phát hành FastVLM với ba kích thước khác nhau: 0,5B, 1,5B và 7B tham số (trong đó "B" là viết tắt của tỷ, đề cập đến số lượng trọng số có thể huấn luyện trong mô hình). Mỗi phiên bản được thiết kế để phù hợp với các loại thiết bị khác nhau. Các mô hình nhỏ hơn có thể chạy trên điện thoại và máy tính bảng, trong khi mô hình 7B lớn hơn phù hợp hơn với máy tính để bàn hoặc các tác vụ đòi hỏi khắt khe hơn.
Điều này mang lại cho các nhà phát triển sự linh hoạt để lựa chọn những gì phù hợp nhất cho ứng dụng của họ. Họ có thể xây dựng thứ gì đó nhanh và nhẹ cho thiết bị di động hoặc thứ gì đó phức tạp hơn cho các hệ thống lớn hơn, tất cả trong khi vẫn sử dụng cùng một kiến trúc mô hình cơ bản.
Apple đã đào tạo các biến thể mô hình FastVLM bằng cách sử dụng quy trình LLaVA-1.5, một khung để căn chỉnh thị giác và mô hình ngôn ngữ. Đối với thành phần ngôn ngữ, họ đã đánh giá FastVLM bằng cách sử dụng các mô hình mã nguồn mở hiện có như Qwen và Vicuna, vốn nổi tiếng với khả năng tạo ra văn bản tự nhiên và mạch lạc. Thiết lập này cho phép FastVLM xử lý cả hình ảnh đơn giản và phức tạp để tạo ra các phản hồi dễ đọc và phù hợp.
Link to this sectionÝ nghĩa của FastVLM: Hướng đi hiệu quả của Apple đối với AI#
Bạn có thể tự hỏi, tại sao việc xử lý hình ảnh hiệu quả của FastVLM lại quan trọng? Nó phụ thuộc vào việc các ứng dụng có thể hoạt động mượt mà trong thời gian thực như thế nào mà không cần dựa vào đám mây. FastVLM có thể xử lý hình ảnh độ phân giải cao, lên đến 1152 x 1152 pixel, trong khi vẫn đủ nhanh và nhẹ để chạy trực tiếp trên thiết bị của bạn.
Điều này có nghĩa là các ứng dụng có thể mô tả những gì máy ảnh nhìn thấy, quét hóa đơn khi chúng được chụp hoặc phản hồi các thay đổi trên màn hình, tất cả trong khi vẫn giữ mọi thứ cục bộ. Nó đặc biệt hữu ích cho các lĩnh vực như giáo dục, hỗ trợ tiếp cận, năng suất và nhiếp ảnh.
Vì FastViTHD hiệu quả ngay cả với hình ảnh lớn, nó giúp thiết bị luôn phản hồi tốt và không bị nóng. Nó hoạt động với tất cả các kích thước mô hình, bao gồm cả mô hình nhỏ nhất, chạy trên các iPhone cấp thấp. Điều đó có nghĩa là các tính năng AI tương tự có thể hoạt động trên điện thoại, máy tính bảng và máy Mac.
Link to this sectionCác ứng dụng của FastVLM#
FastVLM có thể cung cấp sức mạnh cho nhiều ứng dụng nhờ các lợi ích chính như tốc độ, hiệu quả và quyền riêng tư trên thiết bị. Dưới đây là một vài cách nó có thể được sử dụng:
-
Đọc tài liệu: Nó có thể quét hóa đơn, biểu mẫu hoặc thẻ ID và chỉ trích xuất thông tin liên quan. Nó có thể tập trung vào các khu vực cụ thể trong hình ảnh, điều này hữu ích cho các ứng dụng cần trích xuất văn bản nhanh và chính xác.
-
Chú thích hình ảnh: Bằng cách phân tích một bức ảnh, nó có thể tạo ra mô tả rõ ràng về những gì có trong hình ảnh. Điều này hỗ trợ các tính năng trong ứng dụng máy ảnh, thư viện ảnh hoặc bất kỳ công cụ nào được hưởng lợi từ việc hiểu hình ảnh theo thời gian thực.
-
Hỗ trợ tiếp cận: FastVLM có thể mô tả nội dung trên màn hình cho người dùng khiếm thị hoặc thị lực kém, giúp các nút, menu và các phần tử bố cục dễ dàng điều hướng và sử dụng hơn.
-
Trợ lý AI trên thiết bị: FastVLM có thể hoạt động tốt với các trợ lý AI cần hiểu nhanh những gì có trên màn hình. Vì nó chạy trực tiếp trên thiết bị và giữ dữ liệu ở chế độ riêng tư, nó có thể giúp thực hiện các tác vụ như đọc văn bản, nhận dạng các nút hoặc biểu tượng và hướng dẫn người dùng trong thời gian thực mà không cần gửi thông tin lên đám mây.

Hình 4. FastVLM có thể được sử dụng để nhận dạng văn bản và trả lời câu hỏi bằng hình ảnh. (Nguồn)
Link to this sectionCác điểm chính cần lưu ý#
FastVLM mang AI ngôn ngữ thị giác trên thiết bị đến các thiết bị Apple, kết hợp tốc độ, quyền riêng tư và hiệu quả. Với thiết kế nhẹ và bản phát hành mã nguồn mở, nó cho phép hiểu hình ảnh thời gian thực trên các ứng dụng di động và máy tính để bàn.
Điều này giúp làm cho AI trở nên thiết thực và dễ tiếp cận hơn cho việc sử dụng hàng ngày, đồng thời cung cấp cho các nhà phát triển một nền tảng vững chắc để xây dựng các ứng dụng hữu ích, tập trung vào quyền riêng tư. Nhìn về phía trước, có khả năng các mô hình ngôn ngữ thị giác sẽ đóng một vai trò quan trọng trong cách chúng ta tương tác với công nghệ, giúp AI phản hồi nhanh hơn, nhận thức theo ngữ cảnh và hữu ích hơn trong các tình huống hàng ngày.
Khám phá kho lưu trữ GitHub của chúng tôi để tìm hiểu thêm về AI. Tham gia cộng đồng tích cực của chúng tôi và khám phá những đổi mới trong các lĩnh vực như AI trong ngành ô tô và AI thị giác trong sản xuất. Để bắt đầu với thị giác máy tính ngay hôm nay, hãy xem các tùy chọn cấp phép của chúng tôi.






