Thực hành với Google Gemini 2.5 cho các tác vụ thị giác máy tính

31 tháng 3, 2025
Xem cách bạn có thể thực hành với Google Gemini 2.5 cho các tác vụ thị giác máy tính như phát hiện đối tượng, tạo chú thích ảnh và OCR cho các giải pháp AI Thị giác.

31 tháng 3, 2025
Xem cách bạn có thể thực hành với Google Gemini 2.5 cho các tác vụ thị giác máy tính như phát hiện đối tượng, tạo chú thích ảnh và OCR cho các giải pháp AI Thị giác.
Những tiến bộ trong lĩnh vực AI đang diễn ra rất nhanh chóng, với những đổi mới liên tục xuất hiện trên các phương tiện truyền thông gần như mỗi ngày. Một đột phá gần đây là Gemini 2.5, mô hình đa phương thức mới nhất từ Google DeepMind, ra mắt vào ngày 26 tháng 3. Trong khi các Mô hình Ngôn ngữ Lớn (LLM) truyền thống có thể học từ lượng lớn dữ liệu để tạo ra văn bản giống như con người, thì Gemini 2.5 còn vượt xa hơn thế.
Nó được thiết kế như một “mô hình tư duy” có thể xử lý hình ảnh, âm thanh và video. Nó có khả năng suy luận và kỹ năng lập trình được nâng cao. Điều thú vị là nó cũng hoạt động đặc biệt tốt đối với các tác vụ thị giác máy tính, nơi máy móc diễn giải và phân tích dữ liệu trực quan, chẳng hạn như phát hiện đối tượng, tạo chú thích ảnh và nhận dạng ký tự quang học (OCR).
Trong bài viết này, chúng ta sẽ cùng nhau xem qua một trong những notebook của Ultralytics có thể giúp bạn thực hành các khả năng thị giác máy tính của Gemini 2.5. Chúng ta cũng sẽ xem xét kỹ hơn các tính năng chính của Gemini 2.5 và giới thiệu cách nó có thể được sử dụng để xây dựng các giải pháp thị giác máy tính cho các ứng dụng thực tế. Hãy bắt đầu nào!
Phiên bản đầu tiên trong dòng mô hình Gemini 2.5 vừa được phát hành là bản thử nghiệm của Gemini 2.5 Pro. Nó được thiết kế để giải quyết các vấn đề phức tạp bằng cách suy nghĩ kỹ về các phản hồi của mình trước khi đưa ra câu trả lời. Nó sử dụng các phương pháp như học tăng cường (nơi mô hình học hỏi từ phản hồi) và chain-of-thought prompting (một cách tiếp cận từng bước để giải quyết vấn đề).
Một trong những tính năng chính của nó là cửa sổ ngữ cảnh khổng lồ, có thể chứa 1 triệu token (khoảng một triệu từ hoặc bộ phận của từ) và dự kiến sẽ tăng lên 2 triệu. Điều này có nghĩa là mô hình có thể tiếp nhận rất nhiều thông tin cùng một lúc, dẫn đến kết quả chi tiết và chính xác hơn.
Ngoài việc xử lý ngôn ngữ, Gemini 2.5 có thể được sử dụng cho các tác vụ thị giác máy tính sau:
Hiện nay, có một số mô hình đa phương thức (multimodal) trong lĩnh vực AI, vì vậy điều quan trọng là phải hiểu Gemini 2.5 Pro so sánh với chúng như thế nào. Dựa trên kết quả đánh giá chuẩn (benchmarking) được chia sẻ bởi Google DeepMind, Gemini 2.5 Pro cho thấy hiệu suất ấn tượng trên một loạt các tác vụ.
Ví dụ: trong một bài kiểm tra có tên là Humanity's Last Exam, mô phỏng một kỳ thi đầy thách thức bao gồm nhiều môn học và kiểm tra khả năng suy luận nâng cao và kiến thức tổng quát, Gemini 2.5 Pro đạt khoảng 18,8%, vượt trội hơn các mô hình như o3-mini của OpenAI, đạt khoảng 14%.
Nó cũng hoạt động rất tốt trong các thử thách về toán học và lập trình, thường ngang bằng hoặc vượt trội so với các mô hình như OpenAI GPT-4.5, Claude 3.7 Sonnet, Grok 3 Beta và DeepSeek R1, thể hiện khả năng xử lý các tác vụ phức tạp và xử lý lượng lớn dữ liệu.
Gemini 2.5 Pro có sẵn trên nhiều nền tảng. Bạn có thể thử nghiệm nó trong Google AI Studio và truy cập nó thông qua ứng dụng Gemini dành cho người dùng Gemini Advanced. Trong thông báo ra mắt, Google DeepMind cũng đề cập rằng mô hình này sẽ sớm được hỗ trợ trên Vertex AI. Các điểm truy cập này giúp các nhà phát triển dễ dàng sử dụng Gemini 2.5 Pro cho các ứng dụng AI thực tế.
Tuy nhiên, nếu bạn muốn sử dụng Google Gemini API và bắt đầu chỉ trong vài phút mà không cần thiết lập phức tạp và đang tìm cách hiểu rõ hơn về khả năng computer vision (thị giác máy tính) của nó, bạn có thể xem Ultralytics notebook giới thiệu các tác vụ như object detection (phát hiện đối tượng) và image captioning (chú thích ảnh) bằng Gemini 2.5 Pro. Hãy cùng xem chi tiết những gì bạn có thể mong đợi trong notebook.
Để bắt đầu với Ultralytics notebook và sử dụng Google Gemini 2.5, trước tiên bạn cần tạo API key thông qua Google AI Studio. Key này cho phép bạn truy cập vào Gemini API để bạn có thể sử dụng mô hình.
Khi bạn đã có API key, hãy đảm bảo môi trường của bạn đã cài đặt các thư viện cần thiết - bao gồm các package từ Ultralytics và bộ công cụ AI của Google. Bước này được trình bày rõ ràng trong notebook, vì vậy bạn có thể dễ dàng làm theo hướng dẫn để thiết lập không gian làm việc của mình.
Sau khi mọi thứ đã được cấu hình, bạn có thể kết nối với Gemini API bằng cách nhập khóa API của mình (như hình bên dưới), thao tác này sẽ tạo ra một liên kết giữa không gian làm việc của bạn và mô hình. Sau đó, bạn sẽ sẵn sàng gửi hình ảnh và lời nhắc văn bản đến Gemini 2.5.
Về cơ bản, bạn có thể cung cấp một hình ảnh và một hướng dẫn đơn giản (ví dụ: “phát hiện các đối tượng trong hình ảnh này” hoặc “mô tả những gì bạn thấy”) cho mô hình và nó sẽ trả về các kết quả bạn cần. Quy trình đơn giản này giúp bạn dễ dàng bắt đầu khám phá các khả năng thị giác máy tính của Gemini 2.5.
Một trong những ví dụ chính trong notebook là phát hiện đối tượng bằng Gemini 2.5 Pro. Trong ví dụ này, bạn cung cấp cho mô hình một hình ảnh và một lời nhắc đơn giản để phát hiện các đối tượng.
Mô hình xử lý hình ảnh và trả về một tập hợp các tọa độ và nhãn cho mỗi đối tượng mà nó tìm thấy; các tọa độ này được cung cấp ở dạng chuẩn hóa. Các hàm từ gói Ultralytics Python sau đó được sử dụng để chuyển đổi các giá trị chuẩn hóa này để phù hợp với kích thước thực tế của hình ảnh và vẽ các hộp giới hạn rõ ràng xung quanh mỗi đối tượng, như được hiển thị bên dưới.
Một ví dụ thú vị khác trong notebook là chú thích hình ảnh bằng Gemini 2.5 Pro. Trong ví dụ này, bạn cung cấp cho mô hình một hình ảnh và một lời nhắc yêu cầu nó tạo một chú thích chi tiết mô tả những gì có trong hình ảnh.
Sau đó, mô hình sẽ phân tích nội dung trực quan và trả về một đoạn mô tả, thường được định dạng thành nhiều câu, nắm bắt cả nội dung và ngữ cảnh của hình ảnh. Tính năng này hữu ích để cải thiện khả năng tiếp cận, tóm tắt thông tin trực quan và thậm chí tăng cường khả năng kể chuyện sáng tạo.
Một tác vụ thị giác máy tính sử dụng khả năng đọc văn bản trong hình ảnh của Gemini 2.5 Pro là OCR. Trong notebook, bạn có thể cung cấp cho mô hình một hình ảnh chứa văn bản cùng với một lệnh để trích xuất văn bản đó. Mô hình xử lý hình ảnh và trả về cả văn bản được phát hiện và tọa độ nơi văn bản đó được định vị, như được hiển thị bên dưới.
Các hàm từ gói Ultralytics Python sau đó được sử dụng để chuyển đổi các tọa độ được chuẩn hóa này thành kích thước thực tế của hình ảnh và vẽ các hộp giới hạn xung quanh các vùng văn bản. Đầu ra được chú thích này làm rõ vị trí của văn bản, rất hữu ích cho việc số hóa tài liệu, tự động hóa nhập dữ liệu và cải thiện khả năng truy cập.
Bây giờ chúng ta đã xem qua cách Google Gemini 2.5 Pro có thể được sử dụng cho các tác vụ thị giác máy tính khác nhau, hãy khám phá một số ứng dụng thực tế nơi những khả năng này có thể được sử dụng.
Ví dụ, khả năng phát hiện đối tượng của Gemini 2.5 Pro có thể giúp tự động gắn nhãn và sắp xếp các tập hợp hình ảnh lớn, giúp các tác vụ như tạo tập dữ liệu hoặc quản lý nội dung nhanh hơn nhiều. Nó cũng có thể được sử dụng để phân tích hình ảnh trong các lĩnh vực như bán lẻ và nông nghiệp - ví dụ: phát hiện sản phẩm trên kệ hoặc xác định các dấu hiệu căng thẳng của cây trồng trong ảnh chụp trang trại.
Trong khi đó, tính năng tạo chú thích ảnh của mô hình có thể giúp người dùng khiếm thị hiểu nội dung của một bức ảnh. Ví dụ: nếu bạn có một bức ảnh về một con phố đông đúc, mô hình có thể tạo ra một chú thích mô tả chi tiết cảnh đó, đề cập đến các loại xe, hoạt động của người đi bộ và thậm chí cả thời gian trong ngày dựa trên các dấu hiệu ánh sáng.
Ngoài ra, chức năng OCR của Gemini 2.5 có thể được sử dụng trong nhiều ứng dụng khác nhau. Ví dụ: bạn có thể số hóa các tài liệu in bằng cách quét các trang hoặc biên lai. Khả năng này rất lý tưởng để tự động hóa các tác vụ nhập dữ liệu, xử lý biểu mẫu hoặc thậm chí đọc văn bản từ danh thiếp và biển báo.
Nhìn chung, Google Gemini 2.5 Pro mở ra cánh cửa cho một loạt các ứng dụng AI thực tế.
Không chỉ dừng lại ở việc tạo và phân tích văn bản, Google Gemini 2.5 Pro còn có thể được sử dụng cho các tác vụ thị giác máy tính như object detection (phát hiện đối tượng), image captioning (tạo chú thích ảnh) và OCR. Với context window (cửa sổ ngữ cảnh) lớn và khả năng suy luận nâng cao, nó tạo ra các kết quả chi tiết, nhận biết ngữ cảnh, hoạt động tốt trong các tình huống thực tế.
Khi các mô hình AI tiếp tục phát triển, các công cụ như Gemini 2.5 Pro đang giúp giải quyết các vấn đề phức tạp trong nhiều ngành công nghiệp dễ dàng hơn. Có khả năng chúng ta sẽ thấy việc áp dụng AI rộng rãi hơn khi nhiều tổ chức tìm kiếm các giải pháp đa phương thức linh hoạt, có thể xử lý một loạt các tác vụ, từ hiểu biết về hình ảnh đến xử lý ngôn ngữ.
Hãy trở thành một phần của cộng đồng của chúng tôi và tìm hiểu về các dự án AI tiên tiến trên GitHub repository của chúng tôi. Xem các ứng dụng của Vision AI trong nông nghiệp và vai trò của AI trong sản xuất trên các trang giải pháp của chúng tôi. Khám phá các gói cấp phép của chúng tôi và xây dựng các giải pháp computer vision (thị giác máy tính) ngay hôm nay!