Thuật ngữ

Tiếp địa

Khám phá cách nền tảng AI liên kết các khái niệm trừu tượng với dữ liệu thực tế, nâng cao ngữ cảnh, độ chính xác và độ tin cậy trong các ứng dụng động.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Nền tảng trong trí tuệ nhân tạo đề cập đến quá trình thiết yếu của việc kết nối thông tin trừu tượng, như ngôn ngữ hoặc ký hiệu, với dữ liệu cảm giác cụ thể, thực tế, chẳng hạn như hình ảnh hoặc âm thanh. Nó cho phép các hệ thống AI xây dựng sự hiểu biết có ý nghĩa về thế giới bằng cách liên kết các khái niệm mà chúng xử lý nội bộ (ví dụ: các từ trong mô tả văn bản) với những thứ chúng cảm nhận thông qua các cảm biến (ví dụ: các đối tượng trong nguồn cấp dữ liệu camera). Khả năng này là cơ bản để tạo ra AI có thể tương tác thông minh và theo ngữ cảnh với môi trường của nó, vượt ra ngoài nhận dạng mẫu đơn giản để đạt được một hình thức hiểu gần hơn với cách con người liên kết các từ với các đối tượng và hành động. Nền tảng đặc biệt quan trọng đối với các mô hình đa phương thức xử lý nhiều loại dữ liệu cùng một lúc, thu hẹp khoảng cách giữa các phương thức thông tin khác nhau như văn bản và thị giác.

Sự liên quan và các khái niệm chính

Việc nối đất đặc biệt quan trọng đối với các mô hình ngôn ngữ thị giác (VLM), chẳng hạn như mô hình YOLO -World , nhằm mục đích thu hẹp khoảng cách giữa nhận thức thị giác và hiểu ngôn ngữ tự nhiên (NLU) . Không giống như phát hiện đối tượng truyền thống, thường xác định các đối tượng thuộc về một tập hợp các danh mục được xác định trước (như 'ô tô', 'người', 'chó'), việc nối đất cho phép các mô hình định vị các đối tượng dựa trên các mô tả văn bản dạng tự do. Ví dụ, thay vì chỉ phát hiện "người" và "xe đạp", một VLM nối đất có thể phản hồi truy vấn "tìm người đội mũ bảo hiểm màu đỏ đi xe đạp màu xanh" bằng cách định vị cụ thể cấu hình đối tượng đó trong một khung hình ảnh hoặc video. Điều này liên quan đến việc liên kết các khái niệm văn bản ("người", "mũ bảo hiểm màu đỏ", "đi xe đạp", "xe đạp màu xanh") với các pixel tương ứng và các mối quan hệ không gian trong dữ liệu trực quan. Khả năng kết nối ngôn ngữ với các chi tiết trực quan cụ thể này giúp tăng cường sự hiểu biết theo ngữ cảnh và có liên quan chặt chẽ đến những tiến bộ trong tìm kiếm ngữ nghĩa , trong đó ý nghĩa, không chỉ là từ khóa, thúc đẩy việc truy xuất thông tin.

Ứng dụng thực tế của nối đất

Nền tảng cho phép các ứng dụng AI tương tác và tinh vi hơn trên nhiều lĩnh vực khác nhau:

  • Robot tương tác : Robot có thể hiểu và thực hiện các lệnh được đưa ra bằng ngôn ngữ tự nhiên liên quan đến các vật thể cụ thể trong môi trường của chúng, chẳng hạn như "nhấc hộp màu xanh lá cây bên cạnh cửa sổ". Điều này đòi hỏi phải liên kết các từ "hộp màu xanh lá cây" và "cửa sổ" với các vật thể thực tế mà cảm biến của robot nhận biết được. Khám phá thêm về vai trò của AI trong robot và xem các ví dụ từ các công ty như Boston Dynamics .
  • Hệ thống tự động nâng cao : Xe tự lái có thể diễn giải tốt hơn các tình huống giao thông phức tạp được mô tả bằng văn bản hoặc giọng nói, chẳng hạn như "hãy chú ý đến xe tải giao hàng đỗ phía trước". Điều này liên quan đến việc mô tả dựa trên phương tiện cụ thể được xác định bởi hệ thống thị giác máy tính (CV) của xe. Tìm hiểu về các công nghệ được các công ty như Waymo sử dụng.
  • Phân tích hình ảnh y khoa chi tiết : Các bác sĩ X quang có thể sử dụng truy vấn văn bản để xác định các bất thường hoặc vùng quan tâm cụ thể trong các lần quét y khoa (như X-quang hoặc MRI), chẳng hạn như "làm nổi bật tổn thương được mô tả trong ghi chú của bệnh nhân". Điều này cải thiện hiệu quả và độ chính xác của chẩn đoán. Xem các công trình liên quan về việc sử dụng YOLO để phát hiện khối u và nghiên cứu được công bố trên các tạp chí như Radiology: Artificial Intelligence .
  • Truy xuất hình ảnh/video dựa trên nội dung : Người dùng có thể tìm kiếm trong cơ sở dữ liệu hình ảnh rộng lớn bằng các truy vấn ngôn ngữ tự nhiên có tính cụ thể cao, như "tìm ảnh hoàng hôn trên núi có mây", vượt ra ngoài các thẻ hoặc từ khóa đơn giản.

Các khía cạnh kỹ thuật

Việc đạt được sự tiếp đất hiệu quả thường dựa vào các kỹ thuật học sâu (DL) tiên tiến. Các cơ chế chú ý , đặc biệt là sự chú ý liên phương thức, giúp các mô hình tập trung vào các phần có liên quan của cả đầu vào văn bản (ví dụ: các từ cụ thể trong lời nhắc) và đầu vào cảm giác (ví dụ: các vùng cụ thể trong hình ảnh). Các mạng biến áp , được sử dụng rộng rãi trong xử lý ngôn ngữ tự nhiên (NLP) , thường được điều chỉnh cho các tác vụ đa phương thức liên quan đến tiếp đất, như được thấy trong các mô hình như CLIP . Việc đào tạo các mô hình này đòi hỏi các tập dữ liệu có chú thích lớn, chất lượng cao với các chú thích liên kết rõ ràng giữa văn bản và các thành phần trực quan, làm nổi bật tầm quan trọng của các hoạt động gắn nhãn dữ liệu tốt, thường được quản lý thông qua các nền tảng như Ultralytics HUB . Các kỹ thuật như học tương phản cũng được sử dụng để dạy các mô hình liên kết các cặp văn bản và hình ảnh tương ứng một cách hiệu quả, thường sử dụng các khuôn khổ như PyTorch hoặc TensorFlow .

Sự khác biệt từ các khái niệm liên quan

  • Phát hiện đối tượng : Phát hiện đối tượng tiêu chuẩn xác định các trường hợp của các lớp đối tượng được xác định trước (ví dụ: 'mèo', 'xe hơi') và vẽ các hộp giới hạn xung quanh chúng. Tuy nhiên, Grounding định vị các đối tượng dựa trên các mô tả ngôn ngữ tự nhiên phức tạp, có từ vựng mở, không giới hạn ở các danh mục cố định.
  • Phân đoạn ngữ nghĩa : Nhiệm vụ này gán nhãn lớp cho mọi pixel trong hình ảnh (ví dụ: gắn nhãn tất cả các pixel thuộc về 'đường', 'bầu trời', 'tòa nhà'). Phân đoạn tập trung vào việc liên kết cụm từ ngôn ngữ cụ thể với một vùng hoặc trường hợp đối tượng cụ thể trong hình ảnh, thay vì phân loại mọi pixel. Nó liên quan chặt chẽ hơn đến phân đoạn biểu thức tham chiếu, một loại phân đoạn trường hợp .

Thách thức

Phát triển khả năng tiếp đất mạnh mẽ phải đối mặt với một số thách thức. Xử lý tính mơ hồ và tính biến thiên vốn có của ngôn ngữ tự nhiên là rất khó. Việc tạo ra các tập dữ liệu có chú thích chính xác, quy mô lớn cần thiết đòi hỏi nhiều công sức và chi phí. Các nguồn lực tính toán cần thiết để đào tạo các mô hình đa phương thức phức tạp, thường liên quan đến đào tạo phân tán hoặc đào tạo đám mây , có thể rất lớn. Đảm bảo các mô hình có thể thực hiện tiếp đất hiệu quả để suy luận theo thời gian thực cũng là một rào cản đáng kể đối với việc triển khai thực tế. Nghiên cứu vẫn tiếp tục trong các lĩnh vực như học không có lần thử và học ít lần thử để cải thiện khả năng khái quát hóa đối với các mô tả đối tượng chưa thấy và giảm sự phụ thuộc vào dữ liệu, với công việc đang diễn ra thường được tìm thấy trên các nền tảng như arXiv .

Nền tảng vẫn là ranh giới quan trọng trong AI, thúc đẩy các hệ thống hướng tới sự hiểu biết sâu sắc hơn, có thể hành động hơn về thế giới, phản ánh chặt chẽ hơn nhận thức của con người và cho phép tương tác tự nhiên hơn giữa con người và AI.

Đọc tất cả