Thị giác AI

Trải nghiệm thực tế với Google Gemini 2.5 cho các tác vụ computer vision

Xem cách bạn có thể trải nghiệm thực tế với Google Gemini 2.5 cho các tác vụ computer vision như phát hiện vật thể, chú thích hình ảnh và OCR cho các giải pháp Vision AI.

ABAbirami Vina

5 min readMarch 31, 2025

Sử dụng Google Gemini 2.5 cho các tác vụ computer vision

Các tiến bộ về AI đang phát triển nhanh chóng, với những đổi mới xuất hiện trên tiêu đề tin tức gần như mỗi ngày. Một bước đột phá gần đây là Gemini 2.5, mô hình đa phương thức mới nhất từ Google DeepMind, được ra mắt vào ngày 26 tháng 3. Trong khi các Large Language Models (LLMs) truyền thống có thể học từ lượng dữ liệu khổng lồ để tạo văn bản giống như con người, Gemini 2.5 còn làm được nhiều hơn thế.

Nó được thiết kế như một “mô hình tư duy” có khả năng xử lý hình ảnh, âm thanh và video. Nó có kỹ năng lập luận và lập trình được nâng cao. Đáng chú ý, nó cũng hoạt động đặc biệt hiệu quả đối với các tác vụ thị giác máy tính, nơi máy móc diễn giải và phân tích dữ liệu thị giác, chẳng hạn như phát hiện đối tượng, chú thích hình ảnh và nhận dạng ký tự quang học (OCR).

Sử dụng Gemini 2.5 để hiểu nội dung của một hình ảnh

Hình 1. Ví dụ về việc sử dụng Gemini 2.5 để hiểu nội dung của một hình ảnh.

Trong bài viết này, chúng tôi sẽ hướng dẫn bạn qua một trong những notebook của Ultralytics giúp bạn có trải nghiệm thực tế với các khả năng thị giác máy tính của Gemini 2.5. Chúng tôi cũng sẽ xem xét kỹ hơn các tính năng chính của Gemini 2.5 và giới thiệu cách sử dụng nó để xây dựng các giải pháp thị giác máy tính cho các ứng dụng thực tế. Hãy bắt đầu thôi!

Link to this sectionTổng quan về Gemini 2.5: các tính năng và khả năng#

Phiên bản đầu tiên trong dòng mô hình Gemini 2.5 vừa được phát hành là bản thử nghiệm của Gemini 2.5 Pro. Nó được thiết kế để xử lý các vấn đề phức tạp bằng cách tư duy thông qua các phản hồi trước khi đưa ra câu trả lời. Nó sử dụng các phương pháp như học tăng cường (reinforcement learning - nơi mô hình học từ phản hồi) và nhắc nhở theo chuỗi tư duy (chain-of-thought prompting - một cách tiếp cận từng bước để giải quyết vấn đề).

Một trong những tính năng chính của nó là cửa sổ ngữ cảnh khổng lồ, có thể chứa 1 triệu token (khoảng một triệu từ hoặc phần của từ) và dự kiến sẽ tăng lên 2 triệu. Điều này có nghĩa là mô hình có thể tiếp nhận một lượng thông tin lớn cùng lúc, dẫn đến kết quả chi tiết và chính xác hơn.

Ngoài việc xử lý ngôn ngữ, Gemini 2.5 có thể được sử dụng cho các tác vụ thị giác máy tính sau đây:

Object detection: Đây là quá trình xác định và định vị các đối tượng trong một hình ảnh. Nó có thể được sử dụng trong các ứng dụng như giám sát hoặc xe tự lái.
Image captioning: Tác vụ này liên quan đến việc tạo văn bản mô tả cho một hình ảnh. Nó làm cho nội dung hình ảnh trở nên dễ tiếp cận và dễ hiểu hơn.
Optical character recognition: Công nghệ này chuyển đổi văn bản tìm thấy trong hình ảnh thành văn bản có thể chỉnh sửa, máy có thể đọc được. Nó hữu ích cho việc số hóa tài liệu và tự động hóa nhập liệu.

Link to this sectionĐánh giá và so sánh Google Gemini 2.5 với các mô hình khác#

Hiện có nhiều mô hình đa phương thức trong không gian AI, vì vậy điều quan trọng là phải hiểu cách Gemini 2.5 Pro so sánh với chúng. Dựa trên kết quả đánh giá do Google DeepMind chia sẻ, Gemini 2.5 Pro cho thấy hiệu suất ấn tượng trên một loạt các tác vụ.

Ví dụ, trong một bài kiểm tra có tên Humanity’s Last Exam, mô phỏng một bài thi khó bao gồm nhiều môn học và kiểm tra khả năng lập luận nâng cao cùng kiến thức chung, Gemini 2.5 Pro đạt khoảng 18,8%, vượt trội hơn các mô hình như o3-mini của OpenAI, vốn đạt khoảng 14%.

Tổng quan về hiệu suất benchmark của Gemini 2.5 Pro

Hình 2. Tổng quan về hiệu suất benchmark của Gemini 2.5 Pro.

Nó cũng hoạt động rất tốt trong các thử thách toán học và lập trình, thường đạt hoặc vượt hiệu suất của các mô hình như OpenAI GPT-4.5, Claude 3.7 Sonnet, Grok 3 Beta, và DeepSeek R1, chứng minh khả năng xử lý các tác vụ phức tạp và xử lý lượng dữ liệu lớn.

Link to this sectionTrải nghiệm thực tế với Gemini 2.5: Cách sử dụng Google Gemini API#

Gemini 2.5 Pro có sẵn trên nhiều nền tảng. Bạn có thể thử nghiệm nó trong Google AI Studio và truy cập thông qua ứng dụng Gemini cho người dùng Gemini Advanced. Trong thông báo ra mắt, Google DeepMind cũng đề cập rằng mô hình này sẽ sớm được hỗ trợ trên Vertex AI. Những điểm truy cập này giúp các nhà phát triển dễ dàng sử dụng Gemini 2.5 Pro cho các ứng dụng AI thực tế.

Tuy nhiên, nếu bạn muốn sử dụng Google Gemini API và bắt đầu chỉ trong vài phút mà không cần thiết lập phức tạp và đang tìm cách hiểu rõ hơn về các khả năng thị giác máy tính của nó, bạn có thể xem notebook của Ultralytics trình bày các tác vụ như phát hiện đối tượng và chú thích hình ảnh bằng Gemini 2.5 Pro. Hãy cùng xem chi tiết những gì bạn có thể mong đợi trong notebook này.

Link to this sectionThiết lập inferencing với notebook Google Gemini 2.5#

Để bắt đầu với notebook của Ultralytics và sử dụng Google Gemini 2.5, trước tiên bạn cần tạo một API key thông qua Google AI Studio. Key này cung cấp cho bạn quyền truy cập vào Gemini API để bạn có thể sử dụng mô hình.

Khi bạn đã có API key, hãy đảm bảo môi trường của bạn đã cài đặt các thư viện cần thiết - bao gồm các gói từ Ultralytics và bộ công cụ AI của Google. Bước này được nêu rõ trong notebook, vì vậy bạn có thể dễ dàng làm theo hướng dẫn để thiết lập không gian làm việc của mình.

Với mọi thứ đã được cấu hình, bạn có thể kết nối với Gemini API bằng cách nhập API key của mình (như hiển thị bên dưới), điều này tạo ra một liên kết giữa không gian làm việc của bạn và mô hình. Sau đó, bạn sẽ sẵn sàng gửi hình ảnh và các prompt văn bản đến Gemini 2.5.

Về cơ bản, bạn có thể cung cấp một hình ảnh và một hướng dẫn đơn giản (như “detect objects in this image” hoặc “describe what you see”) cho mô hình, và nó sẽ trả về kết quả bạn cần. Quy trình đơn giản này giúp bạn dễ dàng bắt đầu khám phá các khả năng thị giác máy tính của Gemini 2.5.

Link to this sectionPhát hiện đối tượng với Google Gemini 2.5#

Một trong những ví dụ chính trong notebook là phát hiện đối tượng bằng Gemini 2.5 Pro. Trong ví dụ này, bạn cung cấp cho mô hình một hình ảnh và một prompt đơn giản để phát hiện đối tượng.

Mô hình xử lý hình ảnh và trả về một tập hợp các tọa độ và nhãn cho mỗi đối tượng mà nó tìm thấy; các tọa độ này được đưa ra dưới dạng chuẩn hóa. Sau đó, các hàm từ gói Python của Ultralytics được sử dụng để chuyển đổi các giá trị chuẩn hóa này cho phù hợp với kích thước thực tế của hình ảnh và vẽ các bounding box rõ ràng xung quanh mỗi đối tượng, như hiển thị bên dưới.

Sử dụng Google Gemini 2.5 cho tác vụ phát hiện đối tượng

Hình 3. Sử dụng Google Gemini 2.5 để phát hiện đối tượng.

Link to this sectionChú thích hình ảnh bằng Gemini 2.5#

Một ví dụ thú vị khác trong notebook là image captioning bằng cách sử dụng Gemini 2.5 Pro. Trong ví dụ này, bạn cung cấp cho mô hình một hình ảnh và một prompt yêu cầu nó tạo một chú thích chi tiết mô tả những gì có trong hình ảnh.

Sau đó, mô hình phân tích nội dung thị giác và trả về một câu chuyện, thường được định dạng thành nhiều câu, ghi lại cả nội dung và ngữ cảnh của hình ảnh. Tính năng này hữu ích cho việc cải thiện khả năng tiếp cận, tóm tắt thông tin thị giác và thậm chí nâng cao khả năng kể chuyện sáng tạo.

Link to this sectionNâng cao độ chính xác của OCR với các mô hình Google Gemini#

Một tác vụ thị giác máy tính sử dụng khả năng đọc văn bản trong hình ảnh của Gemini 2.5 Pro là OCR. Trong notebook, bạn có thể cung cấp cho mô hình một hình ảnh chứa văn bản cùng với một prompt để trích xuất văn bản đó. Mô hình xử lý hình ảnh và trả về cả văn bản được phát hiện và tọa độ nơi văn bản đó nằm, như hiển thị bên dưới.

Sau đó, các hàm từ gói Python của Ultralytics được sử dụng để chuyển đổi các tọa độ chuẩn hóa này thành kích thước thực tế của hình ảnh và vẽ các bounding boxes xung quanh các vùng văn bản. Đầu ra được chú thích này giúp xác định rõ vị trí của văn bản, điều này hữu ích cho việc số hóa tài liệu, tự động hóa nhập liệu và cải thiện khả năng tiếp cận.

Trích xuất dữ liệu văn bản trong hình ảnh sử dụng Google Gemini 2.5

Hình 4. Trích xuất dữ liệu văn bản trong hình ảnh bằng Google Gemini 2.5.

Link to this sectionCác ứng dụng thực tế của Google Gemini 2.5#

Bây giờ chúng ta đã đi qua cách Google Gemini 2.5 Pro có thể được sử dụng cho các tác vụ thị giác máy tính khác nhau, hãy khám phá một số ứng dụng thực tế nơi các khả năng này có thể được áp dụng.

Ví dụ, khả năng phát hiện đối tượng của Gemini 2.5 Pro có thể giúp tự động dán nhãn và sắp xếp các tập hợp hình ảnh lớn, làm cho các tác vụ như tạo dataset hoặc quản lý nội dung nhanh hơn nhiều. Nó cũng có thể được sử dụng để phân tích hình ảnh trong các lĩnh vực như bán lẻ và nông nghiệp - ví dụ, phát hiện sản phẩm trên kệ hoặc xác định các dấu hiệu căng thẳng của cây trồng trong ảnh chụp trang trại.

Gemini 2.5 Pro phân tích sức khỏe của cây trồng

Hình 5. Gemini 2.5 Pro phân tích sức khỏe của một cây trồng.

Trong khi đó, tính năng chú thích hình ảnh của mô hình có thể giúp người dùng khiếm thị hiểu những gì có trong hình ảnh. Ví dụ, nếu bạn có một bức ảnh về một con phố đông đúc, mô hình có thể tạo ra một chú thích mô tả chi tiết khung cảnh, đề cập đến các loại phương tiện, hoạt động của người đi bộ và thậm chí cả thời gian trong ngày dựa trên các tín hiệu ánh sáng.

Ngoài ra, chức năng OCR của Gemini 2.5 có thể được sử dụng trong nhiều ứng dụng khác nhau. Ví dụ, bạn có thể số hóa các tài liệu in bằng cách quét các trang hoặc hóa đơn. Khả năng này rất lý tưởng để tự động hóa các tác vụ nhập liệu, xử lý biểu mẫu hoặc thậm chí đọc văn bản từ danh thiếp và bảng hiệu.

Nhìn chung, Google Gemini 2.5 Pro mở ra cánh cửa cho hàng loạt ứng dụng AI thực tế.

Link to this sectionCác điểm chính cần lưu ý#

Vượt xa việc tạo và phân tích văn bản, Google Gemini 2.5 Pro có thể được sử dụng cho các tác vụ thị giác máy tính như phát hiện đối tượng, chú thích hình ảnh và OCR. Với cửa sổ ngữ cảnh khổng lồ và khả năng lập luận nâng cao, nó tạo ra các kết quả chi tiết, hiểu ngữ cảnh và hoạt động tốt trong các tình huống thực tế.

Khi các mô hình AI tiếp tục phát triển, các công cụ như Gemini 2.5 Pro đang giúp việc giải quyết các vấn đề phức tạp trên nhiều ngành công nghiệp trở nên dễ dàng hơn. Có khả năng chúng ta sẽ thấy sự áp dụng AI rộng rãi hơn khi ngày càng nhiều tổ chức tìm kiếm các giải pháp linh hoạt, đa phương thức có thể xử lý nhiều tác vụ, từ hiểu hình ảnh đến xử lý ngôn ngữ.

Trở thành một phần của cộng đồng của chúng tôi và tìm hiểu về các dự án AI tiên tiến trên kho lưu trữ GitHub của chúng tôi. Xem các ứng dụng của Vision AI trong nông nghiệp và vai trò của AI trong sản xuất trên các trang giải pháp của chúng tôi. Khám phá các gói cấp phép của chúng tôi và xây dựng các giải pháp thị giác máy tính ngay hôm nay!

Explore solutions

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.

Trải nghiệm thực tế với Google Gemini 2.5 cho các tác vụ computer vision

Link to this sectionTổng quan về Gemini 2.5: các tính năng và khả năng#

Link to this sectionĐánh giá và so sánh Google Gemini 2.5 với các mô hình khác#

Link to this sectionTrải nghiệm thực tế với Gemini 2.5: Cách sử dụng Google Gemini API#

Link to this sectionThiết lập inferencing với notebook Google Gemini 2.5#

Link to this sectionPhát hiện đối tượng với Google Gemini 2.5#

Link to this sectionChú thích hình ảnh bằng Gemini 2.5#

Link to this sectionNâng cao độ chính xác của OCR với các mô hình Google Gemini#

Link to this sectionCác ứng dụng thực tế của Google Gemini 2.5#

Link to this sectionCác điểm chính cần lưu ý#

Explore solutions

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

Hãy cùng nhau xây dựng tương lai của AI!