Đón xem YOLO Vision 2025!
25 tháng 9, 2025
10:00 — 18:00 BST
Sự kiện kết hợp
Yolo Vision 2024

Thực hành với Google Gemini 2.5 cho các tác vụ thị giác máy tính

Abirami Vina

5 phút đọc

31 tháng 3, 2025

Xem cách bạn có thể thực hành với Google Gemini 2.5 cho các tác vụ thị giác máy tính như phát hiện đối tượng, tạo chú thích ảnh và OCR cho các giải pháp AI Thị giác.

Những tiến bộ trong lĩnh vực AI đang diễn ra rất nhanh chóng, với những đổi mới liên tục xuất hiện trên các phương tiện truyền thông gần như mỗi ngày. Một đột phá gần đây là Gemini 2.5, mô hình đa phương thức mới nhất từ Google DeepMind, ra mắt vào ngày 26 tháng 3. Trong khi các Mô hình Ngôn ngữ Lớn (LLM) truyền thống có thể học từ lượng lớn dữ liệu để tạo ra văn bản giống như con người, thì Gemini 2.5 còn vượt xa hơn thế. 

Nó được thiết kế như một “mô hình tư duy” có thể xử lý hình ảnh, âm thanh và video. Nó có khả năng suy luận và kỹ năng lập trình được nâng cao. Điều thú vị là nó cũng hoạt động đặc biệt tốt đối với các tác vụ thị giác máy tính, nơi máy móc diễn giải và phân tích dữ liệu trực quan, chẳng hạn như phát hiện đối tượng, tạo chú thích ảnh và nhận dạng ký tự quang học (OCR).

__wf_reserved_inherit
Hình 1. Một ví dụ về cách sử dụng Gemini 2.5 để hiểu nội dung của một hình ảnh.

Trong bài viết này, chúng ta sẽ cùng nhau xem qua một trong những notebook của Ultralytics có thể giúp bạn thực hành các khả năng thị giác máy tính của Gemini 2.5. Chúng ta cũng sẽ xem xét kỹ hơn các tính năng chính của Gemini 2.5 và giới thiệu cách nó có thể được sử dụng để xây dựng các giải pháp thị giác máy tính cho các ứng dụng thực tế. Hãy bắt đầu nào!

Tổng quan về Gemini 2.5: các tính năng và khả năng

Phiên bản đầu tiên trong dòng mô hình Gemini 2.5 vừa được phát hành là bản thử nghiệm của Gemini 2.5 Pro. Nó được thiết kế để giải quyết các vấn đề phức tạp bằng cách suy nghĩ kỹ về các phản hồi của mình trước khi đưa ra câu trả lời. Nó sử dụng các phương pháp như học tăng cường (nơi mô hình học hỏi từ phản hồi) và chain-of-thought prompting (một cách tiếp cận từng bước để giải quyết vấn đề).

Một trong những tính năng chính của nó là cửa sổ ngữ cảnh khổng lồ, có thể chứa 1 triệu token (khoảng một triệu từ hoặc bộ phận của từ) và dự kiến sẽ tăng lên 2 triệu. Điều này có nghĩa là mô hình có thể tiếp nhận rất nhiều thông tin cùng một lúc, dẫn đến kết quả chi tiết và chính xác hơn.

Ngoài việc xử lý ngôn ngữ, Gemini 2.5 có thể được sử dụng cho các tác vụ thị giác máy tính sau:

  • Phát hiện đối tượng: Đây là quá trình xác định và định vị các đối tượng trong một hình ảnh. Nó có thể được sử dụng trong các ứng dụng như giám sát hoặc xe tự lái.
  • Tạo chú thích ảnh: Tác vụ này liên quan đến việc tạo ra một văn bản mô tả cho một hình ảnh. Nó làm cho nội dung trực quan trở nên dễ tiếp cận và dễ hiểu hơn.
  • Nhận dạng ký tự quang học: Công nghệ này chuyển đổi văn bản được tìm thấy trong hình ảnh thành văn bản có thể chỉnh sửa, có thể đọc được bằng máy. Nó rất hữu ích để số hóa tài liệu và tự động hóa việc nhập dữ liệu.

Đánh giá và so sánh Google Gemini 2.5 với các mô hình khác

Hiện nay, có một số mô hình đa phương thức (multimodal) trong lĩnh vực AI, vì vậy điều quan trọng là phải hiểu Gemini 2.5 Pro so sánh với chúng như thế nào. Dựa trên kết quả đánh giá chuẩn (benchmarking) được chia sẻ bởi Google DeepMind, Gemini 2.5 Pro cho thấy hiệu suất ấn tượng trên một loạt các tác vụ. 

Ví dụ: trong một bài kiểm tra có tên là Humanity's Last Exam, mô phỏng một kỳ thi đầy thách thức bao gồm nhiều môn học và kiểm tra khả năng suy luận nâng cao và kiến thức tổng quát, Gemini 2.5 Pro đạt khoảng 18,8%, vượt trội hơn các mô hình như o3-mini của OpenAI, đạt khoảng 14%. 

__wf_reserved_inherit
Hình 2. Tổng quan về hiệu suất benchmark của Gemini 2.5 Pro.

Nó cũng hoạt động rất tốt trong các thử thách về toán học và lập trình, thường ngang bằng hoặc vượt trội so với các mô hình như OpenAI GPT-4.5, Claude 3.7 Sonnet, Grok 3 Beta và DeepSeek R1, thể hiện khả năng xử lý các tác vụ phức tạp và xử lý lượng lớn dữ liệu.

Thực hành với Gemini 2.5: Cách sử dụng Google Gemini API

Gemini 2.5 Pro có sẵn trên nhiều nền tảng. Bạn có thể thử nghiệm nó trong Google AI Studio và truy cập nó thông qua ứng dụng Gemini dành cho người dùng Gemini Advanced. Trong thông báo ra mắt, Google DeepMind cũng đề cập rằng mô hình này sẽ sớm được hỗ trợ trên Vertex AI. Các điểm truy cập này giúp các nhà phát triển dễ dàng sử dụng Gemini 2.5 Pro cho các ứng dụng AI thực tế. 

Tuy nhiên, nếu bạn muốn sử dụng Google Gemini API và bắt đầu chỉ trong vài phút mà không cần thiết lập phức tạp và đang tìm cách hiểu rõ hơn về khả năng computer vision (thị giác máy tính) của nó, bạn có thể xem Ultralytics notebook giới thiệu các tác vụ như object detection (phát hiện đối tượng) và image captioning (chú thích ảnh) bằng Gemini 2.5 Pro. Hãy cùng xem chi tiết những gì bạn có thể mong đợi trong notebook.

Thiết lập inferencing (suy luận) với Google Gemini 2.5 notebook

Để bắt đầu với Ultralytics notebook và sử dụng Google Gemini 2.5, trước tiên bạn cần tạo API key thông qua Google AI Studio. Key này cho phép bạn truy cập vào Gemini API để bạn có thể sử dụng mô hình.

Khi bạn đã có API key, hãy đảm bảo môi trường của bạn đã cài đặt các thư viện cần thiết - bao gồm các package từ Ultralytics và bộ công cụ AI của Google. Bước này được trình bày rõ ràng trong notebook, vì vậy bạn có thể dễ dàng làm theo hướng dẫn để thiết lập không gian làm việc của mình.

Sau khi mọi thứ đã được cấu hình, bạn có thể kết nối với Gemini API bằng cách nhập khóa API của mình (như hình bên dưới), thao tác này sẽ tạo ra một liên kết giữa không gian làm việc của bạn và mô hình. Sau đó, bạn sẽ sẵn sàng gửi hình ảnh và lời nhắc văn bản đến Gemini 2.5.

Về cơ bản, bạn có thể cung cấp một hình ảnh và một hướng dẫn đơn giản (ví dụ: “phát hiện các đối tượng trong hình ảnh này” hoặc “mô tả những gì bạn thấy”) cho mô hình và nó sẽ trả về các kết quả bạn cần. Quy trình đơn giản này giúp bạn dễ dàng bắt đầu khám phá các khả năng thị giác máy tính của Gemini 2.5.

Phát hiện đối tượng với Google Gemini 2.5

Một trong những ví dụ chính trong notebook là phát hiện đối tượng bằng Gemini 2.5 Pro. Trong ví dụ này, bạn cung cấp cho mô hình một hình ảnh và một lời nhắc đơn giản để phát hiện các đối tượng. 

Mô hình xử lý hình ảnh và trả về một tập hợp các tọa độ và nhãn cho mỗi đối tượng mà nó tìm thấy; các tọa độ này được cung cấp ở dạng chuẩn hóa. Các hàm từ gói Ultralytics Python sau đó được sử dụng để chuyển đổi các giá trị chuẩn hóa này để phù hợp với kích thước thực tế của hình ảnh và vẽ các hộp giới hạn rõ ràng xung quanh mỗi đối tượng, như được hiển thị bên dưới.

__wf_reserved_inherit
Hình 3. Sử dụng Google Gemini 2.5 để phát hiện đối tượng.

Chú thích hình ảnh bằng Gemini 2.5

Một ví dụ thú vị khác trong notebook là chú thích hình ảnh bằng Gemini 2.5 Pro. Trong ví dụ này, bạn cung cấp cho mô hình một hình ảnh và một lời nhắc yêu cầu nó tạo một chú thích chi tiết mô tả những gì có trong hình ảnh. 

Sau đó, mô hình sẽ phân tích nội dung trực quan và trả về một đoạn mô tả, thường được định dạng thành nhiều câu, nắm bắt cả nội dung và ngữ cảnh của hình ảnh. Tính năng này hữu ích để cải thiện khả năng tiếp cận, tóm tắt thông tin trực quan và thậm chí tăng cường khả năng kể chuyện sáng tạo.

Nâng cao độ chính xác của OCR bằng các mô hình Google Gemini

Một tác vụ thị giác máy tính sử dụng khả năng đọc văn bản trong hình ảnh của Gemini 2.5 Pro là OCR. Trong notebook, bạn có thể cung cấp cho mô hình một hình ảnh chứa văn bản cùng với một lệnh để trích xuất văn bản đó. Mô hình xử lý hình ảnh và trả về cả văn bản được phát hiện và tọa độ nơi văn bản đó được định vị, như được hiển thị bên dưới.

Các hàm từ gói Ultralytics Python sau đó được sử dụng để chuyển đổi các tọa độ được chuẩn hóa này thành kích thước thực tế của hình ảnh và vẽ các hộp giới hạn xung quanh các vùng văn bản. Đầu ra được chú thích này làm rõ vị trí của văn bản, rất hữu ích cho việc số hóa tài liệu, tự động hóa nhập dữ liệu và cải thiện khả năng truy cập.

__wf_reserved_inherit
Hình 4. Trích xuất dữ liệu văn bản trong hình ảnh bằng Google Gemini 2.5.

Các ứng dụng thực tế của Google Gemini 2.5

Bây giờ chúng ta đã xem qua cách Google Gemini 2.5 Pro có thể được sử dụng cho các tác vụ thị giác máy tính khác nhau, hãy khám phá một số ứng dụng thực tế nơi những khả năng này có thể được sử dụng.

Ví dụ, khả năng phát hiện đối tượng của Gemini 2.5 Pro có thể giúp tự động gắn nhãn và sắp xếp các tập hợp hình ảnh lớn, giúp các tác vụ như tạo tập dữ liệu hoặc quản lý nội dung nhanh hơn nhiều. Nó cũng có thể được sử dụng để phân tích hình ảnh trong các lĩnh vực như bán lẻ và nông nghiệp - ví dụ: phát hiện sản phẩm trên kệ hoặc xác định các dấu hiệu căng thẳng của cây trồng trong ảnh chụp trang trại.

__wf_reserved_inherit
Hình 5. Gemini 2.5 Pro phân tích sức khỏe của một cái cây.

Trong khi đó, tính năng tạo chú thích ảnh của mô hình có thể giúp người dùng khiếm thị hiểu nội dung của một bức ảnh. Ví dụ: nếu bạn có một bức ảnh về một con phố đông đúc, mô hình có thể tạo ra một chú thích mô tả chi tiết cảnh đó, đề cập đến các loại xe, hoạt động của người đi bộ và thậm chí cả thời gian trong ngày dựa trên các dấu hiệu ánh sáng. 

Ngoài ra, chức năng OCR của Gemini 2.5 có thể được sử dụng trong nhiều ứng dụng khác nhau. Ví dụ: bạn có thể số hóa các tài liệu in bằng cách quét các trang hoặc biên lai. Khả năng này rất lý tưởng để tự động hóa các tác vụ nhập dữ liệu, xử lý biểu mẫu hoặc thậm chí đọc văn bản từ danh thiếp và biển báo. 

Nhìn chung, Google Gemini 2.5 Pro mở ra cánh cửa cho một loạt các ứng dụng AI thực tế.

Những điều cần nhớ

Không chỉ dừng lại ở việc tạo và phân tích văn bản, Google Gemini 2.5 Pro còn có thể được sử dụng cho các tác vụ thị giác máy tính như object detection (phát hiện đối tượng), image captioning (tạo chú thích ảnh) và OCR. Với context window (cửa sổ ngữ cảnh) lớn và khả năng suy luận nâng cao, nó tạo ra các kết quả chi tiết, nhận biết ngữ cảnh, hoạt động tốt trong các tình huống thực tế. 

Khi các mô hình AI tiếp tục phát triển, các công cụ như Gemini 2.5 Pro đang giúp giải quyết các vấn đề phức tạp trong nhiều ngành công nghiệp dễ dàng hơn. Có khả năng chúng ta sẽ thấy việc áp dụng AI rộng rãi hơn khi nhiều tổ chức tìm kiếm các giải pháp đa phương thức linh hoạt, có thể xử lý một loạt các tác vụ, từ hiểu biết về hình ảnh đến xử lý ngôn ngữ.

Hãy trở thành một phần của cộng đồng của chúng tôi và tìm hiểu về các dự án AI tiên tiến trên GitHub repository của chúng tôi. Xem các ứng dụng của Vision AI trong nông nghiệp và vai trò của AI trong sản xuất trên các trang giải pháp của chúng tôi. Khám phá các gói cấp phép của chúng tôi và xây dựng các giải pháp computer vision (thị giác máy tính) ngay hôm nay!

Hãy cùng nhau xây dựng tương lai
của AI!

Bắt đầu hành trình của bạn với tương lai của học máy

Bắt đầu miễn phí
Đã sao chép liên kết vào clipboard