Bằng cách nhấp vào “Chấp nhận tất cả cookie”, bạn đồng ý lưu trữ cookie trên thiết bị của mình để cải thiện khả năng điều hướng trang web, phân tích việc sử dụng trang web và hỗ trợ các nỗ lực tiếp thị của chúng tôi. Thông tin thêm
Cài đặt Cookie
Bằng cách nhấp vào “Chấp nhận tất cả cookie”, bạn đồng ý lưu trữ cookie trên thiết bị của mình để cải thiện khả năng điều hướng trang web, phân tích việc sử dụng trang web và hỗ trợ các nỗ lực tiếp thị của chúng tôi. Thông tin thêm
Apple ra mắt FastVLM tại CVPR 2025. Mô hình ngôn ngữ thị giác nguồn mở này có bộ mã hóa FastViTHD, giúp rút ngắn thời gian xử lý mã thông báo đầu tiên lên tới 85 lần.
Tại hội nghị CVPR 2025 , Apple đã giới thiệu một mô hình AI nguồn mở mới có tên FastVLM. Nó được xây dựng để hiểu cả hình ảnh và ngôn ngữ, và chạy trên các thiết bị Apple như iPhone, iPad và Mac. Điều này có nghĩa là nó có thể cung cấp kết quả thông minh một cách nhanh chóng mà không cần gửi dữ liệu của bạn lên đám mây.
Điều khiến FastVLM đặc biệt thú vị là tốc độ và hiệu quả của nó. Apple đã phát triển một bộ mã hóa thị giác mới có tên FastViTHD, giúp mô hình diễn giải hình ảnh chất lượng cao trong khi sử dụng ít bộ nhớ và điện năng hơn. Toàn bộ quá trình xử lý diễn ra cục bộ trên thiết bị, giúp thời gian phản hồi nhanh hơn mà vẫn đảm bảo quyền riêng tư của người dùng.
Trong bài viết này, chúng ta sẽ tìm hiểu cách thức hoạt động của FastVLM, điểm khác biệt của nó và lý do tại sao bản phát hành này của Apple có thể là bước tiến đáng kể cho các ứng dụng AI hàng ngày trên thiết bị của bạn.
Hiểu về mô hình ngôn ngữ thị giác (VLM)
Trước khi đi sâu vào điều gì làm nên sự đặc biệt của FastVLM, hãy cùng tìm hiểu ý nghĩa của chữ "VLM" trong tên gọi. Nó đề cập đến một mô hình ngôn ngữ thị giác , được thiết kế để hiểu và kết nối nội dung trực quan với ngôn ngữ.
VLM kết hợp khả năng hiểu thị giác và ngôn ngữ, cho phép chúng thực hiện các tác vụ như mô tả ảnh, trả lời câu hỏi về ảnh chụp màn hình hoặc trích xuất văn bản từ tài liệu. Các mô hình ngôn ngữ thị giác thường hoạt động theo hai phần: một phần xử lý hình ảnh và chuyển đổi thành dữ liệu, phần còn lại diễn giải dữ liệu đó để tạo ra phản hồi mà bạn có thể đọc hoặc nghe.
Có thể bạn đã từng sử dụng loại cải tiến AI này mà không hề hay biết. Các ứng dụng quét biên lai, đọc thẻ căn cước, tạo chú thích hình ảnh hoặc hỗ trợ người khiếm thị tương tác với màn hình thường dựa vào các mô hình ngôn ngữ thị giác chạy ngầm.
FastVLM là gì?
Apple đã xây dựng FastVLM để thực hiện các tác vụ tương tự như các mô hình ngôn ngữ thị giác khác, nhưng với tốc độ nhanh hơn, quyền riêng tư mạnh mẽ hơn và hiệu suất được tối ưu hóa trên các thiết bị của riêng mình. FastVLM có thể hiểu nội dung hình ảnh và phản hồi bằng văn bản, nhưng không giống như nhiều mô hình dựa trên máy chủ đám mây, FastVLM có thể chạy hoàn toàn trên iPhone, iPad hoặc Mac của bạn.
VLM thường hoạt động tốt hơn với hình ảnh có độ phân giải cao. Ví dụ, như minh họa bên dưới, FastVLM chỉ có thể nhận dạng chính xác biển báo đường phố là "Cấm vào" khi được cung cấp phiên bản hình ảnh có độ phân giải cao. Tuy nhiên, đầu vào có độ phân giải cao thường làm chậm mô hình. Đây chính là điểm khác biệt của FastViTHD.
Hình 1. Hiệu suất của FastVLM trên hình ảnh có độ phân giải thấp so với độ phân giải cao. ( Nguồn )
Bộ mã hóa hình ảnh mới của Apple, FastViTHD, giúp FastVLM xử lý hình ảnh chất lượng cao hiệu quả hơn, sử dụng ít bộ nhớ và điện năng hơn. Cụ thể, FastViTHD đủ nhẹ để chạy mượt mà ngay cả trên các thiết bị nhỏ hơn.
Ngoài ra, FastVLM còn có sẵn công khai trên kho lưu trữ FastVLM GitHub, nơi các nhà phát triển có thể truy cập mã nguồn, thực hiện thay đổi và sử dụng trong ứng dụng của riêng họ theo các điều khoản cấp phép của Apple.
So sánh FastVLM với các mô hình VLM khác
So với các mô hình ngôn ngữ thị giác khác, FastVLM được tối ưu hóa để chạy trên các thiết bị thông dụng như điện thoại thông minh và máy tính xách tay. Trong các bài kiểm tra hiệu năng, FastVLM tạo ra từ đầu tiên hoặc kết quả đầu ra nhanh hơn tới 85 lần so với các mô hình như LLaVA-OneVision-0.5B.
Hình 2. So sánh hiệu suất của FastVLM với các mô hình khác. ( Nguồn )
Sau đây là cái nhìn tổng quan về một số tiêu chuẩn đánh giá FastVLM:
DocVQA (Trả lời câu hỏi trực quan về tài liệu): Tiêu chuẩn này đánh giá mức độ mô hình có thể đọc và hiểu thông tin văn bản trong tài liệu, chẳng hạn như biểu mẫu hoặc trang được quét.
TextVQA (Trả lời câu hỏi trực quan dựa trên văn bản): Đánh giá khả năng của mô hình trong việc diễn giải hình ảnh có chứa văn bản nhúng và trả lời chính xác các câu hỏi liên quan.
GQA (Trả lời câu hỏi đồ thị): Nhiệm vụ này kiểm tra kỹ năng lập luận của mô hình bằng cách yêu cầu mô hình hiểu mối quan hệ giữa các đối tượng và cảnh trong một hình ảnh.
MMMU (Hiểu biết đa phương thức đa ngành): Đo lường hiệu suất của mô hình trên nhiều môn học và định dạng học thuật, kết hợp khả năng hiểu bằng hình ảnh và văn bản.
SeedBench (Đánh giá tiêu chuẩn dữ liệu nâng cao để đánh giá chuẩn): Đánh giá chuẩn này khám phá khả năng chung của mô hình trong việc hiểu và lập luận trực quan trên nhiều lĩnh vực.
Qua các tiêu chuẩn này, FastVLM đã đạt được kết quả cạnh tranh trong khi sử dụng ít tài nguyên hơn. Nó mang AI trực quan thực tế đến các thiết bị hàng ngày như điện thoại, máy tính bảng và máy tính xách tay.
Bộ mã hóa tầm nhìn hiệu quả của FastVLM: FastViTHD
Tiếp theo, chúng ta hãy xem xét kỹ hơn FastViTHD, bộ mã hóa thị giác đóng vai trò quan trọng trong hiệu suất xử lý hình ảnh của FastVLM.
Hầu hết các mô hình ngôn ngữ thị giác đều chia hình ảnh thành hàng ngàn mảng nhỏ gọi là token. Càng nhiều token, mô hình càng cần nhiều thời gian và năng lượng để hiểu hình ảnh. Điều này có thể làm chậm quá trình xử lý, đặc biệt là trên điện thoại hoặc máy tính xách tay.
Hình 3. Bộ mã hóa thị giác xử lý hình ảnh như thế nào. ( Nguồn )
FastViTHD tránh được tình trạng chậm chạp thường gặp khi xử lý quá nhiều token bằng cách sử dụng ít token hơn, trong khi vẫn hiểu được toàn bộ hình ảnh. Nó kết hợp hai phương pháp: bộ biến đổi (transformer) , vốn hiệu quả trong việc mô hình hóa các mẫu và mối quan hệ, và các lớp tích chập (convolutional layer ), vốn hiệu quả trong việc xử lý dữ liệu hình ảnh. Kết quả là một hệ thống hoạt động nhanh hơn và sử dụng ít bộ nhớ hơn.
Theo Apple, FastViTHD nhỏ hơn tới 3,4 lần so với một số bộ mã hóa hình ảnh truyền thống, nhưng vẫn duy trì độ chính xác cao. Thay vì dựa vào các kỹ thuật tối ưu hóa mô hình như cắt tỉa mã thông báo (loại bỏ các mảng hình ảnh ít quan trọng để tăng tốc độ xử lý), FastViTHD đạt được hiệu quả thông qua kiến trúc đơn giản và hợp lý hơn.
Các biến thể mô hình và quy trình đào tạo của FastVLM
Apple đã phát hành FastVLM với ba kích cỡ khác nhau: tham số 0.5B, 1.5B và 7B (trong đó "B" là viết tắt của tỷ, ám chỉ số lượng tạ có thể luyện tập trong mô hình). Mỗi phiên bản được thiết kế để phù hợp với các loại thiết bị khác nhau. Các phiên bản nhỏ hơn có thể chạy trên điện thoại và máy tính bảng, trong khi phiên bản 7B lớn hơn phù hợp hơn với máy tính để bàn hoặc các tác vụ đòi hỏi khắt khe hơn.
Điều này mang lại cho các nhà phát triển sự linh hoạt trong việc lựa chọn giải pháp phù hợp nhất cho ứng dụng của họ. Họ có thể xây dựng một ứng dụng nhanh và nhẹ cho thiết bị di động hoặc phức tạp hơn cho các hệ thống lớn hơn, tất cả đều sử dụng cùng một kiến trúc mô hình cơ bản.
Apple đã huấn luyện các biến thể mô hình FastVLM bằng cách sử dụng đường ống LLaVA‑1.5, một khuôn khổ để liên kết các mô hình thị giác và ngôn ngữ . Đối với thành phần ngôn ngữ, họ đã đánh giá FastVLM bằng các mô hình nguồn mở hiện có như Qwen và Vicuna, vốn nổi tiếng với khả năng tạo ra văn bản tự nhiên và mạch lạc. Thiết lập này cho phép FastVLM xử lý cả hình ảnh đơn giản và phức tạp, đồng thời tạo ra các phản hồi dễ đọc và phù hợp.
Tầm quan trọng của FastVLM: Cách tiếp cận AI hiệu quả của Apple
Bạn có thể thắc mắc, tại sao khả năng xử lý hình ảnh hiệu quả của FastVLM lại quan trọng? Vấn đề nằm ở việc các ứng dụng có thể hoạt động mượt mà theo thời gian thực mà không cần phụ thuộc vào đám mây. FastVLM có thể xử lý hình ảnh độ phân giải cao, lên đến 1152 x 1152 pixel, đồng thời vẫn đủ nhanh và nhẹ để chạy trực tiếp trên thiết bị của bạn.
Điều này có nghĩa là các ứng dụng có thể mô tả những gì camera nhìn thấy, quét biên lai khi chúng được chụp hoặc phản hồi các thay đổi trên màn hình, đồng thời vẫn giữ mọi thứ cục bộ. Tính năng này đặc biệt hữu ích cho các lĩnh vực như giáo dục, trợ năng , năng suất và nhiếp ảnh.
Vì FastViTHD hoạt động hiệu quả ngay cả với hình ảnh lớn, nó giúp thiết bị luôn phản hồi nhanh và mát mẻ. Nó tương thích với mọi kích cỡ máy, kể cả máy nhỏ nhất, chạy trên iPhone cơ bản. Điều này có nghĩa là các tính năng AI tương tự có thể hoạt động trên điện thoại, máy tính bảng và máy Mac.
Ứng dụng của FastVLM
FastVLM có thể hỗ trợ nhiều ứng dụng khác nhau nhờ những lợi ích chính như tốc độ, hiệu suất và quyền riêng tư trên thiết bị. Dưới đây là một số cách sử dụng:
Đọc tài liệu: Có thể quét biên lai, biểu mẫu hoặc thẻ căn cước và chỉ trích xuất thông tin liên quan. Công nghệ này có thể tập trung vào các khu vực cụ thể trên hình ảnh, rất hữu ích cho các ứng dụng cần trích xuất văn bản nhanh chóng và chính xác.
Chú thích ảnh: Bằng cách phân tích ảnh, nó có thể tạo ra mô tả rõ ràng về nội dung trong ảnh. Tính năng này hỗ trợ các tính năng trong ứng dụng camera, thư viện ảnh hoặc bất kỳ công cụ nào tận dụng khả năng hiểu hình ảnh theo thời gian thực.
Hỗ trợ khả năng truy cập: FastVLM có thể mô tả nội dung trên màn hình cho người dùng bị mù hoặc thị lực kém, giúp các nút, menu và thành phần bố cục dễ điều hướng và sử dụng hơn.
Trợ lý AI trên thiết bị: FastVLM có thể hoạt động tốt với các trợ lý AI cần nhanh chóng hiểu những gì hiển thị trên màn hình. Vì FastVLM chạy trực tiếp trên thiết bị và bảo mật dữ liệu, nó có thể hỗ trợ các tác vụ như đọc văn bản, nhận dạng nút hoặc biểu tượng, và hướng dẫn người dùng theo thời gian thực mà không cần gửi thông tin lên đám mây.
Hình 4. FastVLM có thể được sử dụng để nhận dạng văn bản và trả lời câu hỏi trực quan. ( Nguồn )
Những điểm chính
FastVLM mang AI ngôn ngữ thị giác trên thiết bị đến các thiết bị Apple, kết hợp tốc độ, quyền riêng tư và hiệu quả. Với thiết kế gọn nhẹ và bản phát hành mã nguồn mở, FastVLM cho phép hiểu hình ảnh theo thời gian thực trên cả ứng dụng di động và máy tính để bàn.
Điều này giúp AI trở nên thiết thực và dễ tiếp cận hơn cho mục đích sử dụng hàng ngày, đồng thời cung cấp cho các nhà phát triển nền tảng vững chắc để xây dựng các ứng dụng hữu ích, tập trung vào quyền riêng tư. Nhìn về tương lai, nhiều khả năng các mô hình ngôn ngữ thị giác sẽ đóng vai trò quan trọng trong cách chúng ta tương tác với công nghệ, giúp AI phản ứng nhanh hơn, nhận thức ngữ cảnh tốt hơn và hữu ích hơn trong các tình huống hàng ngày.