Gặp gỡ YOLO26: AI tầm nhìn thế hệ tiếp theo.
Ultralytics
Thị giác AI

Kết nối xử lý ngôn ngữ tự nhiên và thị giác máy tính

Tìm hiểu cách xử lý ngôn ngữ tự nhiên (NLP) và thị giác máy tính (CV) có thể hợp tác để chuyển đổi các ngành công nghiệp với các hệ thống AI đa phương thức thông minh hơn.

ABAbirami Vina
4 min read
Kết nối xử lý ngôn ngữ tự nhiên và thị giác máy tính

Xử lý ngôn ngữ tự nhiên (NLP)thị giác máy tính (CV) là hai nhánh riêng biệt của trí tuệ nhân tạo (AI) đã trở nên rất phổ biến trong những năm gần đây. Nhờ những tiến bộ trong AI, hai nhánh này hiện đang kết nối với nhau chặt chẽ hơn bao giờ hết.

Một ví dụ tuyệt vời về điều này là chú thích ảnh tự động. Thị giác máy tính có thể được sử dụng để phân tích và hiểu nội dung của một hình ảnh, trong khi xử lý ngôn ngữ tự nhiên có thể được sử dụng để tạo chú thích mô tả hình ảnh đó. Chú thích ảnh tự động thường được sử dụng trên các nền tảng mạng xã hội để cải thiện khả năng truy cập và trong các hệ thống quản lý nội dung để giúp tổ chức và gắn thẻ ảnh một cách hiệu quả.

Những đổi mới trong NLP và Vision AI đã dẫn đến nhiều trường hợp sử dụng như vậy trong hàng loạt ngành công nghiệp. Trong bài viết này, chúng ta sẽ xem xét kỹ hơn về NLP và thị giác máy tính và thảo luận về cách cả hai hoạt động. Chúng ta cũng sẽ khám phá các ứng dụng thú vị sử dụng cả hai công nghệ này song hành. Hãy cùng bắt đầu!

Link to this sectionHiểu về NLP và Vision AI#

NLP tập trung vào sự tương tác giữa máy tính và ngôn ngữ con người. Nó cho phép máy móc hiểu, diễn giải và tạo văn bản hoặc lời nói theo cách có ý nghĩa. Nó có thể được sử dụng để thực hiện các tác vụ như dịch thuật, phân tích cảm xúc hoặc tóm tắt.

Trong khi đó, thị giác máy tính giúp máy móc phân tích và làm việc với hình ảnh và video. Nó có thể được sử dụng cho các tác vụ như phát hiện đối tượng trong ảnh, nhận diện khuôn mặt, theo dõi đối tượng hoặc phân loại hình ảnh. Công nghệ Vision AI cho phép máy móc hiểu và tương tác tốt hơn với thế giới trực quan.

Ví dụ về phân loại hình ảnh

Hình 1. Một ví dụ về phân loại hình ảnh.

Khi được tích hợp với thị giác máy tính, NLP có thể thêm ý nghĩa cho dữ liệu trực quan bằng cách kết hợp văn bản và hình ảnh, cho phép hiểu sâu sắc hơn. Như người ta thường nói, "một bức ảnh hơn ngàn lời nói", và khi kết hợp với văn bản, nó thậm chí còn mạnh mẽ hơn, mang lại những thông tin chi tiết phong phú hơn.

Link to this sectionCác ví dụ về NLP và thị giác máy tính làm việc cùng nhau#

Bạn có thể đã thấy NLP và thị giác máy tính làm việc cùng nhau trong các công cụ hàng ngày mà không hề nhận ra, chẳng hạn như khi điện thoại của bạn dịch văn bản từ một bức ảnh.

Trên thực tế, Google Translate sử dụng cả xử lý ngôn ngữ tự nhiên và thị giác máy tính để dịch văn bản từ hình ảnh. Khi bạn chụp ảnh một biển báo đường phố bằng ngôn ngữ khác, thị giác máy tính sẽ xác định và trích xuất văn bản, trong khi NLP dịch nó sang ngôn ngữ ưu tiên của bạn.

NLP và CV làm việc cùng nhau để làm cho quy trình trở nên trôi chảy và hiệu quả, cho phép người dùng hiểu và tương tác với thông tin trên các ngôn ngữ trong thời gian thực. Sự tích hợp liền mạch các công nghệ này phá vỡ các rào cản giao tiếp.

Tính năng Google Translate dịch văn bản từ hình ảnh

Hình 2. Tính năng Google Translate.

Dưới đây là một số ứng dụng khác mà NLP và thị giác máy tính làm việc cùng nhau:

  • Xe tự lái: CV có thể được sử dụng để phát hiện biển báo giao thông, làn đường và chướng ngại vật, trong khi NLP có thể xử lý các lệnh bằng giọng nói hoặc văn bản trên biển báo giao thông.
  • Trình đọc tài liệu: Vision AI có thể nhận dạng văn bản từ các tài liệu được quét hoặc chữ viết tay, và xử lý ngôn ngữ tự nhiên có thể diễn giải và tóm tắt thông tin đó.
  • Tìm kiếm trực quan trong ứng dụng mua sắm: Thị giác máy tính có thể xác định các sản phẩm trong ảnh, trong khi NLP xử lý các thuật ngữ tìm kiếm để cải thiện các đề xuất.
  • Công cụ giáo dục: CV có thể nhận dạng các ghi chú viết tay hoặc dữ liệu đầu vào trực quan, và NLP có thể cung cấp các giải thích hoặc phản hồi dựa trên nội dung.

Link to this sectionCác khái niệm chính liên kết thị giác máy tính và NLP#

Bây giờ chúng ta đã thấy thị giác máy tính và xử lý ngôn ngữ tự nhiên được sử dụng như thế nào, hãy cùng khám phá cách chúng kết hợp với nhau để kích hoạt AI đa phương thức.

AI đa phương thức kết hợp khả năng hiểu hình ảnh từ thị giác máy tính với khả năng hiểu ngôn ngữ từ NLP để xử lý và kết nối thông tin giữa văn bản và hình ảnh. Ví dụ, trong chăm sóc sức khỏe, AI đa phương thức có thể giúp phân tích X-ray và tạo ra bản tóm tắt văn bản rõ ràng về các vấn đề tiềm ẩn, giúp các bác sĩ đưa ra quyết định nhanh hơn và chính xác hơn.

Link to this sectionHiểu ngôn ngữ tự nhiên (NLU)#

Hiểu ngôn ngữ tự nhiên là một tập hợp con đặc biệt của NLP tập trung vào việc diễn giải và trích xuất ý nghĩa từ văn bản bằng cách phân tích ý định, ngữ cảnh, ngữ nghĩa, tông giọng và cấu trúc. Trong khi NLP xử lý văn bản thô, NLU cho phép máy móc hiểu ngôn ngữ con người một cách hiệu quả hơn. Ví dụ, phân tích cú pháp là một kỹ thuật NLU giúp chuyển đổi văn bản viết thành định dạng có cấu trúc mà máy móc có thể hiểu được.

Sơ đồ mối quan hệ giữa NLP và NLU

Hình 3. Mối quan hệ giữa NLP và NLU.

NLU hoạt động với thị giác máy tính khi dữ liệu trực quan chứa văn bản cần được hiểu. Thị giác máy tính, sử dụng các công nghệ như nhận dạng ký tự quang học (OCR), trích xuất văn bản từ hình ảnh, tài liệu hoặc video. Nó có thể bao gồm các tác vụ như quét biên lai, đọc văn bản trên biển báo hoặc số hóa các ghi chú viết tay.

Sau đó, NLU xử lý văn bản đã trích xuất để hiểu ý nghĩa, ngữ cảnh và ý định của nó. Sự kết hợp này giúp các hệ thống có thể thực hiện nhiều việc hơn là chỉ nhận dạng văn bản. Chúng có thể phân loại các khoản chi tiêu từ biên lai hoặc phân tích tông giọng và cảm xúc. Cùng nhau, thị giác máy tính và NLU biến văn bản trực quan thành thông tin có ý nghĩa và có thể hành động được.

Link to this sectionKỹ thuật nhắc lệnh (Prompt engineering)#

Kỹ thuật nhắc lệnh là quá trình thiết kế các câu lệnh đầu vào rõ ràng, chính xác và chi tiết để hướng dẫn các hệ thống AI tạo sinh, chẳng hạn như các mô hình ngôn ngữ lớn (LLM) và mô hình ngôn ngữ-thị giác (VLM), tạo ra các đầu ra mong muốn. Các câu lệnh này đóng vai trò như các hướng dẫn giúp mô hình AI hiểu được ý định của người dùng.

Kỹ thuật nhắc lệnh hiệu quả đòi hỏi phải hiểu khả năng của mô hình và tạo ra các dữ liệu đầu vào tối đa hóa khả năng tạo ra các phản hồi chính xác, sáng tạo hoặc sâu sắc. Điều này đặc biệt quan trọng đối với các mô hình AI làm việc với cả văn bản và hình ảnh.

Hãy lấy mô hình DALL·E của OpenAI làm ví dụ. Nếu bạn yêu cầu nó tạo ra “một hình ảnh chân thực về một phi hành gia đang cưỡi ngựa”, nó có thể tạo ra chính xác điều đó dựa trên mô tả của bạn. Kỹ năng này cực kỳ hữu ích trong các lĩnh vực như thiết kế đồ họa, nơi các chuyên gia có thể nhanh chóng biến ý tưởng văn bản thành các bản mẫu trực quan, giúp tiết kiệm thời gian và tăng năng suất.

Hình ảnh được tạo bằng DALL-E của OpenAI

Hình 4. Một hình ảnh được tạo bằng DALL-E của OpenAI.

Bạn có thể tự hỏi điều này liên quan đến thị giác máy tính như thế nào - đây không phải là AI tạo sinh sao? Cả hai thực sự có mối liên hệ chặt chẽ. AI tạo sinh xây dựng dựa trên nền tảng của thị giác máy tính để tạo ra các đầu ra trực quan hoàn toàn mới.

Các mô hình AI tạo sinh tạo ra hình ảnh từ các câu lệnh văn bản được huấn luyện trên các tập dữ liệu lớn về hình ảnh kết hợp với mô tả văn bản. Điều này cho phép chúng tìm hiểu mối quan hệ giữa ngôn ngữ và các khái niệm trực quan như đối tượng, kết cấu và mối quan hệ không gian.

Các mô hình này không diễn giải dữ liệu trực quan theo cách các hệ thống thị giác máy tính truyền thống thực hiện, chẳng hạn như nhận dạng đối tượng trong hình ảnh thực tế. Thay vào đó, chúng sử dụng sự hiểu biết đã học được về các khái niệm này để tạo ra hình ảnh mới dựa trên các câu lệnh. Bằng cách kết hợp kiến thức này với các câu lệnh được xây dựng tốt, AI tạo sinh có thể tạo ra các hình ảnh thực tế và chi tiết phù hợp với đầu vào của người dùng.

Link to this sectionTrả lời câu hỏi (QA)#

Các hệ thống trả lời câu hỏi được thiết kế để hiểu các câu hỏi bằng ngôn ngữ tự nhiên và cung cấp các câu trả lời chính xác, phù hợp. Chúng sử dụng các kỹ thuật như truy xuất thông tin, hiểu ngữ nghĩa và học sâu để diễn giải và phản hồi các truy vấn.

Các mô hình tiên tiến như GPT-4o của OpenAI có thể xử lý trả lời câu hỏi trực quan (VQA), nghĩa là chúng có thể phân tích và trả lời các câu hỏi về hình ảnh. Tuy nhiên, GPT-4o không trực tiếp thực hiện các tác vụ thị giác máy tính. Thay vào đó, nó sử dụng bộ mã hóa hình ảnh chuyên dụng để xử lý hình ảnh, trích xuất tính năng và kết hợp chúng với khả năng hiểu ngôn ngữ của nó để cung cấp câu trả lời.

Khả năng trả lời câu hỏi bằng hình ảnh của ChatGPT

Hình 5. Khả năng trả lời câu hỏi trực quan của ChatGPT. Hình ảnh do tác giả cung cấp.

Các hệ thống khác có thể tiến xa hơn bằng cách tích hợp hoàn toàn khả năng thị giác máy tính. Các hệ thống này có thể trực tiếp phân tích hình ảnh hoặc video để xác định đối tượng, cảnh hoặc văn bản. Khi kết hợp với xử lý ngôn ngữ tự nhiên, chúng có thể xử lý các câu hỏi phức tạp hơn về nội dung trực quan. Ví dụ, chúng có thể trả lời, “Có những đối tượng nào trong ảnh này?” hoặc “Ai đang ở trong đoạn phim này?” bằng cách phát hiện và diễn giải các yếu tố trực quan.

Link to this sectionHọc không mẫu (Zero-Shot Learning - ZSL)#

Học không mẫu (ZSL) là một phương pháp học máy cho phép các mô hình AI xử lý các tác vụ mới, chưa từng thấy mà không cần được huấn luyện cụ thể trên chúng. Nó thực hiện điều này bằng cách sử dụng thông tin bổ sung, như mô tả hoặc mối quan hệ ngữ nghĩa, để kết nối những gì mô hình đã biết (các lớp đã thấy) với các danh mục mới, chưa từng thấy.

Trong xử lý ngôn ngữ tự nhiên, ZSL giúp các mô hình hiểu và làm việc với các chủ đề mà chúng chưa được huấn luyện bằng cách dựa vào mối quan hệ giữa các từ và khái niệm. Tương tự, trong thị giác máy tính, ZSL cho phép các mô hình nhận dạng đối tượng hoặc cảnh chưa từng gặp trước đây bằng cách liên kết các đặc điểm trực quan, như cánh hoặc lông, với các khái niệm đã biết, chẳng hạn như các loài chim.

ZSL kết nối NLP và CV bằng cách kết hợp hiểu ngôn ngữ với nhận dạng trực quan, làm cho nó đặc biệt hữu ích cho các tác vụ liên quan đến cả hai. Ví dụ, trong trả lời câu hỏi trực quan, một mô hình có thể phân tích hình ảnh trong khi hiểu một câu hỏi liên quan để cung cấp câu trả lời chính xác. Nó cũng hữu ích cho các tác vụ như chú thích ảnh.

Link to this sectionCác điểm chính cần lưu ý#

Việc kết hợp xử lý ngôn ngữ tự nhiên và thị giác máy tính đã dẫn đến các hệ thống AI có thể hiểu cả văn bản và hình ảnh. Sự kết hợp này đang được sử dụng trong nhiều ngành công nghiệp, từ việc giúp xe tự lái đọc biển báo giao thông đến cải thiện chẩn đoán y tế và làm cho mạng xã hội an toàn hơn. Khi các công nghệ này trở nên tốt hơn, chúng sẽ tiếp tục làm cho cuộc sống dễ dàng hơn và mở ra những cơ hội mới trong hàng loạt lĩnh vực. Để tìm hiểu thêm, hãy truy cập kho lưu trữ GitHub của chúng tôi và tham gia cùng cộng đồng của chúng tôi. Khám phá các ứng dụng AI trong xe tự láinông nghiệp trên các trang giải pháp của chúng tôi. 🚀

Explore solutions

Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm

Hãy cùng nhau xây dựng tương lai của AI!

Bắt đầu hành trình của bạn với tương lai của machine learning