Bằng cách nhấp vào “Chấp nhận tất cả Cookie”, bạn đồng ý với việc lưu trữ cookie trên thiết bị của mình để tăng cường khả năng điều hướng trang web, phân tích việc sử dụng trang web và hỗ trợ các nỗ lực tiếp thị của chúng tôi. Thêm thông tin
Cài đặt Cookie
Bằng cách nhấp vào “Chấp nhận tất cả Cookie”, bạn đồng ý với việc lưu trữ cookie trên thiết bị của mình để tăng cường khả năng điều hướng trang web, phân tích việc sử dụng trang web và hỗ trợ các nỗ lực tiếp thị của chúng tôi. Thêm thông tin
Apple ra mắt FastVLM tại CVPR 2025. Mô hình ngôn ngữ‑thị giác mã nguồn mở này có bộ mã hóa FastViTHD, mang lại thời gian hiển thị mã thông báo đầu tiên nhanh hơn tới 85 ×.
Tại hội nghị CVPR 2025, Apple đã giới thiệu một mô hình AI mã nguồn mở mới có tên là FastVLM. Nó được xây dựng để hiểu cả hình ảnh và ngôn ngữ, và nó chạy trên các thiết bị Apple như iPhone, iPad và Mac. Điều này có nghĩa là nó có thể cung cấp kết quả thông minh một cách nhanh chóng, mà không cần gửi dữ liệu của bạn lên đám mây.
Điều gì khiến FastVLM trở nên đặc biệt thú vị là tốc độ và hiệu quả của nó. Apple đã phát triển một bộ mã hóa thị giác mới có tên là FastViTHD, giúp mô hình diễn giải hình ảnh chất lượng cao trong khi sử dụng ít bộ nhớ và năng lượng hơn. Tất cả quá trình xử lý diễn ra cục bộ trên thiết bị, giúp thời gian phản hồi nhanh hơn đồng thời bảo vệ quyền riêng tư của người dùng.
Trong bài viết này, chúng ta sẽ khám phá cách FastVLM hoạt động, điều gì làm nên sự khác biệt của nó và tại sao bản phát hành này của Apple có thể là một bước tiến quan trọng đối với các ứng dụng AI hàng ngày trên thiết bị của bạn.
Tìm hiểu về mô hình ngôn ngữ thị giác (VLMs)
Trước khi chúng ta đi sâu vào điều gì làm cho FastVLM trở nên đặc biệt, hãy xem qua chữ “VLM” trong tên của nó có nghĩa là gì. Nó đề cập đến một mô hình ngôn ngữ thị giác, được thiết kế để hiểu và kết nối nội dung trực quan với ngôn ngữ.
Mô hình VLM kết hợp khả năng hiểu hình ảnh và ngôn ngữ, cho phép chúng thực hiện các tác vụ như mô tả ảnh, trả lời câu hỏi về ảnh chụp màn hình hoặc trích xuất văn bản từ tài liệu. Mô hình ngôn ngữ thị giác (Vision-language models) thường hoạt động theo hai phần: một phần xử lý hình ảnh và chuyển đổi nó thành dữ liệu, phần còn lại diễn giải dữ liệu đó để tạo ra phản hồi mà bạn có thể đọc hoặc nghe.
Bạn có thể đã sử dụng loại đổi mới AI này mà thậm chí không nhận ra. Các ứng dụng quét biên lai, đọc thẻ ID, tạo chú thích hình ảnh hoặc giúp những người có thị lực kém tương tác với màn hình của họ thường dựa vào các mô hình ngôn ngữ thị giác chạy âm thầm ở chế độ nền.
FastVLM là gì?
Apple đã xây dựng FastVLM để thực hiện các tác vụ tương tự như các mô hình ngôn ngữ thị giác khác, nhưng với tốc độ cao hơn, quyền riêng tư mạnh mẽ hơn và hiệu suất được tối ưu hóa trên các thiết bị của riêng mình. Nó có thể hiểu nội dung của một hình ảnh và trả lời bằng văn bản, nhưng không giống như nhiều mô hình dựa vào máy chủ đám mây, FastVLM có thể chạy hoàn toàn trên iPhone, iPad hoặc Mac của bạn.
Nhìn chung, VLM hoạt động tốt hơn với hình ảnh có độ phân giải cao. Ví dụ: như hình bên dưới, FastVLM chỉ có thể xác định chính xác biển báo đường phố là “Cấm vào” khi được cung cấp phiên bản có độ phân giải cao của hình ảnh. Tuy nhiên, đầu vào có độ phân giải cao thường làm chậm mô hình. Đây là điểm khác biệt của FastViTHD.
Hình 1. Hiệu suất của FastVLM trên ảnh có độ phân giải thấp so với độ phân giải cao. (Nguồn)
Bộ mã hóa thị giác mới của Apple, FastViTHD, giúp FastVLM xử lý hình ảnh chất lượng cao hiệu quả hơn, sử dụng ít bộ nhớ và năng lượng hơn. Cụ thể, FastViTHD đủ nhẹ để chạy mượt mà ngay cả trên các thiết bị nhỏ hơn.
Ngoài ra, FastVLM hiện có sẵn công khai trên kho lưu trữ FastVLM GitHub, nơi các nhà phát triển có thể truy cập mã nguồn, thực hiện các thay đổi và sử dụng nó trong các ứng dụng của riêng họ theo các điều khoản cấp phép của Apple.
So sánh FastVLM với các mô hình VLM khác
So với các mô hình ngôn ngữ thị giác khác, FastVLM được tối ưu hóa để chạy trên các thiết bị hàng ngày như điện thoại thông minh và máy tính xách tay. Trong các thử nghiệm hiệu suất, FastVLM tạo ra từ hoặc đầu ra đầu tiên nhanh hơn tới 85 lần so với các mô hình như LLaVA-OneVision-0.5B.
Hình 2. So sánh hiệu suất của FastVLM với các mô hình khác. (Nguồn)
Đây là cái nhìn sơ lược về một số tiêu chuẩn đánh giá mà FastVLM đã được đánh giá:
DocVQA (Document Visual Question Answering): Điểm chuẩn này đánh giá mức độ mô hình có thể đọc và hiểu thông tin văn bản trong tài liệu, chẳng hạn như biểu mẫu hoặc trang được quét.
TextVQA (Trả lời câu hỏi trực quan dựa trên văn bản): Nó đánh giá khả năng của mô hình trong việc diễn giải hình ảnh có chứa văn bản nhúng và trả lời các câu hỏi liên quan một cách chính xác.
GQA (Trả lời câu hỏi đồ thị): Tác vụ này kiểm tra kỹ năng suy luận của mô hình bằng cách yêu cầu nó hiểu các mối quan hệ giữa các đối tượng và cảnh trong một hình ảnh.
MMMU (Massive Multi-discipline Multimodal Understanding): Nó đo lường hiệu suất của mô hình trên một loạt các môn học và định dạng học thuật, kết hợp khả năng hiểu biết về hình ảnh và văn bản.
SeedBench (Đánh giá Tiêu chuẩn về Dữ liệu Nâng cao để Điểm chuẩn): Điểm chuẩn này khám phá các khả năng chung của mô hình trong việc hiểu và suy luận trực quan trên nhiều lĩnh vực.
Trong các điểm chuẩn này, FastVLM đạt được kết quả cạnh tranh trong khi sử dụng ít tài nguyên hơn. Nó mang AI trực quan thiết thực đến các thiết bị hàng ngày như điện thoại, máy tính bảng và máy tính xách tay.
Bộ mã hóa thị giác hiệu quả của FastVLM: FastViTHD
Tiếp theo, hãy xem xét kỹ hơn về FastViTHD, bộ mã hóa hình ảnh đóng vai trò quan trọng trong hiệu suất xử lý hình ảnh của FastVLM.
Hầu hết các mô hình ngôn ngữ thị giác chia một hình ảnh thành hàng nghìn vùng nhỏ gọi là token. Càng nhiều token, mô hình càng cần nhiều thời gian và năng lượng để hiểu hình ảnh. Điều này có thể làm chậm quá trình, đặc biệt là trên điện thoại hoặc máy tính xách tay.
Hình 3. Bộ mã hóa thị giác xử lý một hình ảnh như thế nào. (Nguồn)
FastViTHD tránh sự chậm lại khi xử lý quá nhiều token bằng cách sử dụng ít token hơn, đồng thời vẫn hiểu toàn bộ hình ảnh. Nó kết hợp hai phương pháp: transformers, rất giỏi trong việc mô hình hóa các mẫu và mối quan hệ, và các lớp tích chập, có hiệu quả trong việc xử lý dữ liệu trực quan. Kết quả là một hệ thống hoạt động nhanh hơn và sử dụng ít bộ nhớ hơn.
Theo Apple, FastViTHD nhỏ hơn tới 3,4 lần so với một số bộ mã hóa hình ảnh truyền thống, đồng thời vẫn duy trì độ chính xác cao. Thay vì dựa vào các kỹ thuật tối ưu hóa mô hình như tỉa bớt token (loại bỏ các vùng ảnh ít quan trọng để tăng tốc độ xử lý), nó đạt được hiệu quả thông qua một kiến trúc đơn giản và hợp lý hơn.
Các biến thể mô hình và quy trình huấn luyện của FastVLM
Apple đã phát hành FastVLM với ba kích thước khác nhau: 0,5B, 1,5B và 7B tham số (trong đó "B" là viết tắt của tỷ, đề cập đến số lượng trọng số có thể huấn luyện trong mô hình). Mỗi phiên bản được thiết kế để phù hợp với các loại thiết bị khác nhau. Các mô hình nhỏ hơn có thể chạy trên điện thoại và máy tính bảng, trong khi mô hình 7B lớn hơn phù hợp hơn cho máy tính để bàn hoặc các tác vụ đòi hỏi khắt khe hơn.
Điều này mang lại cho các nhà phát triển sự linh hoạt để chọn những gì phù hợp nhất cho ứng dụng của họ. Họ có thể xây dựng một thứ gì đó nhanh chóng và nhẹ cho thiết bị di động hoặc thứ gì đó phức tạp hơn cho các hệ thống lớn hơn, tất cả trong khi sử dụng cùng một kiến trúc mô hình cơ bản.
Apple đã huấn luyện các biến thể mô hình FastVLM bằng quy trình LLaVA‑1.5, một khuôn khổ để căn chỉnh thị giác và các mô hình ngôn ngữ. Đối với thành phần ngôn ngữ, họ đã đánh giá FastVLM bằng các mô hình mã nguồn mở hiện có như Qwen và Vicuna, được biết đến với khả năng tạo ra văn bản tự nhiên và mạch lạc. Thiết lập này cho phép FastVLM xử lý cả hình ảnh đơn giản và phức tạp, đồng thời tạo ra các phản hồi dễ đọc và phù hợp.
Tầm quan trọng của FastVLM: Cách tiếp cận hiệu quả của Apple đối với AI
Bạn có thể tự hỏi, tại sao khả năng xử lý hình ảnh hiệu quả của FastVLM lại quan trọng? Điều này liên quan đến mức độ mượt mà mà các ứng dụng có thể hoạt động trong thời gian thực mà không cần dựa vào đám mây. FastVLM có thể xử lý hình ảnh có độ phân giải cao, lên đến 1152 x 1152 pixel, đồng thời vẫn đủ nhanh và nhẹ để chạy trực tiếp trên thiết bị của bạn.
Điều này có nghĩa là các ứng dụng có thể mô tả những gì camera nhìn thấy, quét biên lai khi chúng được chụp hoặc phản hồi các thay đổi trên màn hình, tất cả đều diễn ra cục bộ. Nó đặc biệt hữu ích cho các lĩnh vực như giáo dục, khả năng tiếp cận, năng suất và nhiếp ảnh.
Vì FastViTHD hiệu quả ngay cả với những hình ảnh lớn, nó giúp các thiết bị luôn phản hồi nhanh và mát mẻ. Nó hoạt động với tất cả các kích thước mô hình, kể cả mô hình nhỏ nhất, chạy trên iPhone cơ bản. Điều đó có nghĩa là các tính năng AI tương tự có thể hoạt động trên điện thoại, máy tính bảng và máy Mac.
Ứng dụng của FastVLM
FastVLM có thể cung cấp năng lượng cho một loạt các ứng dụng, nhờ các lợi ích chính của nó như tốc độ, hiệu quả và quyền riêng tư trên thiết bị. Dưới đây là một vài cách nó có thể được sử dụng:
Đọc tài liệu: Nó có thể quét biên lai, biểu mẫu hoặc thẻ ID và chỉ trích xuất thông tin liên quan. Nó có thể tập trung vào các khu vực cụ thể trong một hình ảnh, rất hữu ích cho các ứng dụng cần trích xuất văn bản nhanh chóng và chính xác.
Chú thích ảnh: Bằng cách phân tích một bức ảnh, nó có thể tạo ra một mô tả rõ ràng về những gì có trong hình ảnh. Điều này hỗ trợ các tính năng trong ứng dụng máy ảnh, thư viện ảnh hoặc bất kỳ công cụ nào được hưởng lợi từ khả năng hiểu hình ảnh theo thời gian thực.
Hỗ trợ tiếp cận: FastVLM có thể mô tả nội dung trên màn hình cho người khiếm thị hoặc thị lực kém, giúp họ điều hướng và sử dụng các nút, menu và thành phần bố cục dễ dàng hơn.
Trợ lý AI trên thiết bị: FastVLM có thể hoạt động tốt với các trợ lý AI cần nhanh chóng hiểu những gì trên màn hình. Vì nó chạy trực tiếp trên thiết bị và giữ dữ liệu ở chế độ riêng tư, nó có thể giúp thực hiện các tác vụ như đọc văn bản, xác định các nút hoặc biểu tượng và hướng dẫn người dùng trong thời gian thực mà không cần gửi thông tin lên đám mây.
Hình 4. FastVLM có thể được sử dụng để nhận dạng văn bản và trả lời câu hỏi trực quan. (Nguồn)
Những điều cần nhớ
FastVLM mang AI ngôn ngữ thị giác trên thiết bị đến các thiết bị Apple, kết hợp tốc độ, quyền riêng tư và hiệu quả. Với thiết kế gọn nhẹ và bản phát hành mã nguồn mở, nó cho phép hiểu hình ảnh theo thời gian thực trên các ứng dụng di động và máy tính để bàn.
Điều này giúp làm cho AI trở nên thiết thực và dễ tiếp cận hơn để sử dụng hàng ngày, đồng thời cung cấp cho các nhà phát triển một nền tảng vững chắc để xây dựng các ứng dụng hữu ích, tập trung vào quyền riêng tư. Nhìn về phía trước, có khả năng các mô hình thị giác-ngôn ngữ sẽ đóng một vai trò quan trọng trong cách chúng ta tương tác với công nghệ, làm cho AI phản hồi nhanh hơn, nhận biết ngữ cảnh và hữu ích hơn trong các tình huống hàng ngày.