Bằng cách nhấp vào “Chấp nhận tất cả cookie”, bạn đồng ý lưu trữ cookie trên thiết bị của mình để cải thiện khả năng điều hướng trang web, phân tích việc sử dụng trang web và hỗ trợ các nỗ lực tiếp thị của chúng tôi. Thông tin thêm
Cài đặt Cookie
Bằng cách nhấp vào “Chấp nhận tất cả cookie”, bạn đồng ý lưu trữ cookie trên thiết bị của mình để cải thiện khả năng điều hướng trang web, phân tích việc sử dụng trang web và hỗ trợ các nỗ lực tiếp thị của chúng tôi. Thông tin thêm
Xem cách bạn có thể thực hành sử dụng Google Gemini 2.5 cho các tác vụ về thị giác máy tính như phát hiện đối tượng, chú thích hình ảnh và OCR cho các giải pháp AI về thị giác.
Những tiến bộ của AI đang diễn ra nhanh chóng, với những cải tiến mới được đưa tin gần như hàng ngày. Một trong những đột phá gần đây là Gemini 2.5, mô hình đa phương thức mới nhất từ Google DeepMind, ra mắt vào ngày 26 tháng 3. Trong khi các Mô hình ngôn ngữ lớn (LLM) truyền thống có thể học từ lượng dữ liệu khổng lồ để tạo ra văn bản giống con người, Gemini 2.5 còn vượt xa hơn thế.
Nó được thiết kế như một "mô hình tư duy" có thể xử lý hình ảnh, âm thanh và video. Nó có các kỹ năng lập luận và mã hóa nâng cao. Điều thú vị là nó cũng hoạt động cực kỳ tốt đối với các tác vụ thị giác máy tính , trong đó máy móc diễn giải và phân tích dữ liệu trực quan, chẳng hạn như phát hiện đối tượng, chú thích hình ảnh và nhận dạng ký tự quang học (OCR).
Hình 1. Ví dụ về việc sử dụng Gemini 2.5 để hiểu nội dung của hình ảnh.
Trong bài viết này, chúng tôi sẽ hướng dẫn bạn một trong những sổ tay của Ultralytics có thể giúp bạn thực hành với các khả năng về thị giác máy tính của Gemini 2.5. Chúng tôi cũng sẽ xem xét kỹ hơn các tính năng chính của Gemini 2.5 và giới thiệu cách sử dụng để xây dựng các giải pháp thị giác máy tính cho các ứng dụng trong thế giới thực. Hãy bắt đầu nào!
Tổng quan về Gemini 2.5: các tính năng và khả năng
Phiên bản đầu tiên trong loạt mô hình Gemini 2.5 vừa được phát hành là bản phát hành thử nghiệm của Gemini 2.5 Pro. Nó được thiết kế để xử lý các vấn đề phức tạp bằng cách suy nghĩ về các phản hồi của nó trước khi đưa ra câu trả lời. Nó sử dụng các phương pháp như học tăng cường (trong đó mô hình học từ phản hồi) và nhắc nhở chuỗi suy nghĩ (một cách tiếp cận từng bước để giải quyết vấn đề).
Một trong những tính năng chính của nó là cửa sổ ngữ cảnh lớn, có thể chứa 1 triệu mã thông báo (khoảng một triệu từ hoặc phần từ) và dự kiến sẽ tăng lên 2 triệu. Điều này có nghĩa là mô hình có thể tiếp nhận nhiều thông tin cùng một lúc, dẫn đến kết quả chi tiết và chính xác hơn.
Ngoài khả năng xử lý ngôn ngữ, Gemini 2.5 có thể được sử dụng cho các tác vụ thị giác máy tính sau:
Phát hiện đối tượng : Đây là quá trình xác định và định vị các đối tượng trong một hình ảnh. Nó có thể được sử dụng trong các ứng dụng như giám sát hoặc xe tự lái.
Chú thích hình ảnh : Nhiệm vụ này liên quan đến việc tạo văn bản mô tả cho hình ảnh. Nó làm cho nội dung trực quan dễ tiếp cận và dễ hiểu hơn.
Nhận dạng ký tự quang học : Công nghệ này chuyển đổi văn bản tìm thấy trong hình ảnh thành văn bản có thể chỉnh sửa và đọc được bằng máy. Công nghệ này hữu ích cho việc số hóa tài liệu và tự động nhập dữ liệu.
Đánh giá chuẩn và so sánh Google Gemini 2.5 với các mô hình khác
Có một số mô hình đa phương thức có sẵn trong không gian AI hiện nay, vì vậy điều quan trọng là phải hiểu Gemini 2.5 Pro so sánh với chúng như thế nào. Dựa trên kết quả đánh giá chuẩn được chia sẻ bởi DeepMind của Google, Gemini 2.5 Pro cho thấy hiệu suất ấn tượng trên nhiều tác vụ.
Ví dụ, trong bài kiểm tra có tên Humanity's Last Exam, mô phỏng một bài kiểm tra đầy thử thách bao gồm nhiều môn học và kiểm tra khả năng lý luận nâng cao cũng như kiến thức chung, Gemini 2.5 Pro đạt khoảng 18,8%, vượt trội hơn các mô hình như o3-mini của OpenAI, đạt khoảng 14%.
Hình 2. Tổng quan về hiệu suất chuẩn của Gemini 2.5 Pro.
Nó cũng hoạt động rất tốt trong các thử thách toán học và mã hóa, thường ngang bằng hoặc vượt trội hơn hiệu suất của các mô hình như OpenAI GPT-4.5, Claude 3.7 Sonnet, Grok 3 Beta và DeepSeek R1, chứng minh khả năng xử lý các tác vụ phức tạp và lượng dữ liệu lớn.
Thực hành với Gemini 2.5: Cách sử dụng Google Gemini API
Gemini 2.5 Pro có sẵn trên nhiều nền tảng. Bạn có thể thử nghiệm nó trong Google AI Studio và truy cập nó thông qua ứng dụng Gemini dành cho người dùng Gemini Advanced. Trong thông báo ra mắt, Google DeepMind cũng đề cập rằng mô hình này sẽ sớm được hỗ trợ trên Vertex AI. Các điểm truy cập này giúp các nhà phát triển dễ dàng sử dụng Gemini 2.5 Pro cho các ứng dụng AI trong thế giới thực.
Tuy nhiên, nếu bạn muốn sử dụng Google Gemini API và bắt đầu chỉ trong vài phút mà không cần thiết lập phức tạp và muốn hiểu rõ hơn về khả năng thị giác máy tính của nó, bạn có thể xem sổ tay Ultralytics giới thiệu các tác vụ như phát hiện đối tượng và chú thích hình ảnh bằng Gemini 2.5 Pro. Hãy cùng xem xét chi tiết những gì bạn có thể mong đợi trong sổ tay này.
Thiết lập suy luận với sổ tay Google Gemini 2.5
Để bắt đầu sử dụng sổ tay Ultralytics và sử dụng Google Gemini 2.5, trước tiên bạn cần tạo khóa API thông qua Google AI Studio . Khóa này cho phép bạn truy cập vào API Gemini để bạn có thể sử dụng mô hình.
Sau khi có khóa API, hãy đảm bảo môi trường của bạn đã cài đặt các thư viện cần thiết - bao gồm các gói từ Ultralytics và bộ công cụ AI của Google. Bước này được nêu rõ trong sổ tay, vì vậy bạn có thể dễ dàng làm theo hướng dẫn để thiết lập không gian làm việc của mình.
Với mọi thứ đã được cấu hình, bạn có thể kết nối với Gemini API bằng cách nhập khóa API của mình (như hiển thị bên dưới), tạo liên kết giữa không gian làm việc và mô hình của bạn. Sau đó, bạn sẽ sẵn sàng gửi hình ảnh và lời nhắc văn bản đến Gemini 2.5.
Về cơ bản, bạn có thể cung cấp một hình ảnh và một hướng dẫn đơn giản (như "phát hiện các đối tượng trong hình ảnh này" hoặc "mô tả những gì bạn nhìn thấy") cho mô hình và nó sẽ trả về kết quả bạn cần. Quy trình đơn giản này giúp bạn dễ dàng bắt đầu khám phá các khả năng thị giác máy tính của Gemini 2.5.
Phát hiện đối tượng với Google Gemini 2.5
Một trong những ví dụ chính trong sổ tay là phát hiện đối tượng bằng Gemini 2.5 Pro. Trong ví dụ này, bạn cung cấp cho mô hình một hình ảnh và lời nhắc đơn giản để phát hiện đối tượng.
Mô hình xử lý hình ảnh và trả về một tập hợp các tọa độ và nhãn cho mỗi đối tượng mà nó tìm thấy; các tọa độ này được đưa ra ở dạng chuẩn hóa. Các hàm từ gói Ultralytics Python sau đó được sử dụng để chuyển đổi các giá trị chuẩn hóa này để khớp với kích thước thực tế của hình ảnh và vẽ các hộp giới hạn rõ ràng xung quanh mỗi đối tượng, như được hiển thị bên dưới.
Hình 3. Sử dụng Google Gemini 2.5 để phát hiện đối tượng.
Chú thích hình ảnh bằng Gemini 2.5
Một ví dụ thú vị khác trong sổ tay là chú thích hình ảnh bằng Gemini 2.5 Pro. Trong ví dụ này, bạn cung cấp cho mô hình một hình ảnh và lời nhắc yêu cầu mô hình tạo chú thích chi tiết mô tả nội dung trong hình ảnh.
Sau đó, mô hình phân tích nội dung trực quan và trả về một câu chuyện, thường được định dạng thành nhiều câu, nắm bắt cả nội dung và bối cảnh của hình ảnh. Tính năng này hữu ích để cải thiện khả năng truy cập, tóm tắt thông tin trực quan và thậm chí nâng cao khả năng kể chuyện sáng tạo.
Nâng cao độ chính xác của OCR với các mô hình Google Gemini
Một tác vụ thị giác máy tính sử dụng khả năng đọc văn bản trong hình ảnh của Gemini 2.5 Pro là OCR. Trong sổ tay, bạn có thể cung cấp cho mô hình một hình ảnh có chứa văn bản cùng với lời nhắc trích xuất văn bản đó. Mô hình xử lý hình ảnh và trả về cả văn bản được phát hiện và tọa độ nơi văn bản được đặt, như được hiển thị bên dưới.
Sau đó, các hàm từ gói Ultralytics Python được sử dụng để chuyển đổi các tọa độ chuẩn hóa này thành các kích thước thực của hình ảnh và vẽ các hộp giới hạn xung quanh các vùng văn bản. Đầu ra có chú thích này giúp làm rõ vị trí của văn bản, hữu ích cho việc số hóa tài liệu, tự động hóa nhập dữ liệu và cải thiện khả năng truy cập.
Hình 4. Trích xuất dữ liệu văn bản trong hình ảnh bằng Google Gemini 2.5.
Ứng dụng thực tế của Google Gemini 2.5
Bây giờ chúng ta đã tìm hiểu cách sử dụng Google Gemini 2.5 Pro cho nhiều tác vụ thị giác máy tính khác nhau, hãy cùng khám phá một số ứng dụng thực tế có thể sử dụng những khả năng này.
Ví dụ, khả năng phát hiện đối tượng của Gemini 2.5 Pro có thể giúp tự động dán nhãn và sắp xếp các tập hợp hình ảnh lớn, giúp các tác vụ như tạo tập dữ liệu hoặc quản lý nội dung nhanh hơn nhiều. Nó cũng có thể được sử dụng để phân tích hình ảnh trong các lĩnh vực như bán lẻ và nông nghiệp - ví dụ, phát hiện sản phẩm trên kệ hoặc xác định dấu hiệu căng thẳng của cây trồng trong ảnh trang trại.
Hình 5. Gemini 2.5 Pro đang phân tích sức khỏe của cây.
Trong khi đó, tính năng chú thích hình ảnh của mô hình có thể giúp người dùng khiếm thị hiểu được những gì có trong hình ảnh. Ví dụ, nếu bạn có ảnh chụp một con phố đông đúc, mô hình có thể tạo chú thích mô tả chi tiết cảnh đó, đề cập đến các loại phương tiện, hoạt động của người đi bộ và thậm chí cả thời gian trong ngày dựa trên tín hiệu đèn.
Ngoài ra, chức năng OCR của Gemini 2.5 có thể được sử dụng trong nhiều ứng dụng khác nhau. Ví dụ, bạn có thể số hóa các tài liệu đã in bằng cách quét các trang hoặc biên lai. Khả năng này lý tưởng để tự động hóa các tác vụ nhập dữ liệu, xử lý biểu mẫu hoặc thậm chí đọc văn bản từ danh thiếp và biển báo.
Nhìn chung, Google Gemini 2.5 Pro mở ra cánh cửa cho nhiều ứng dụng AI thực tế.
Những điểm chính
Ngoài việc tạo và phân tích văn bản, Google Gemini 2.5 Pro có thể được sử dụng cho các tác vụ thị giác máy tính như phát hiện đối tượng, chú thích hình ảnh và OCR. Với cửa sổ ngữ cảnh lớn và khả năng lập luận nâng cao, nó tạo ra các kết quả chi tiết, nhận biết ngữ cảnh hoạt động tốt trong các tình huống thực tế.
Khi các mô hình AI tiếp tục phát triển, các công cụ như Gemini 2.5 Pro giúp giải quyết các vấn đề phức tạp trong nhiều ngành dễ dàng hơn. Có khả năng chúng ta sẽ thấy AI được áp dụng rộng rãi hơn nữa khi nhiều tổ chức tìm kiếm các giải pháp linh hoạt, đa phương thức có thể xử lý nhiều tác vụ khác nhau, từ hiểu trực quan đến xử lý ngôn ngữ.