Điểm qua những đổi mới AI thú vị từ quý đầu năm 2024. Chúng ta sẽ đề cập đến những đột phá như Sora AI của OpenAI, chip não của Neuralink và các LLM mới nhất.

Điểm qua những đổi mới AI thú vị từ quý đầu năm 2024. Chúng ta sẽ đề cập đến những đột phá như Sora AI của OpenAI, chip não của Neuralink và các LLM mới nhất.
Cộng đồng AI dường như xuất hiện trên các tiêu đề hàng ngày. Vài tháng đầu năm 2024 thật thú vị và chứa đầy những đổi mới AI mới. Từ các mô hình ngôn ngữ lớn mạnh mẽ mới đến cấy ghép não người, năm 2024 đang hình thành nên những điều tuyệt vời.
Chúng ta đang thấy AI chuyển đổi các ngành công nghiệp, làm cho thông tin dễ tiếp cận hơn và thậm chí thực hiện những bước đầu tiên hướng tới việc hợp nhất tâm trí của chúng ta với máy móc. Hãy cùng tua lại quý đầu tiên của năm 2024 và xem xét kỹ hơn những tiến bộ đạt được trong AI chỉ trong vài tháng.
Các mô hình ngôn ngữ lớn (LLM), được thiết kế để hiểu, tạo và thao tác ngôn ngữ của con người dựa trên lượng lớn dữ liệu văn bản, đã chiếm vị trí trung tâm trong quý đầu tiên của năm 2024. Nhiều công ty công nghệ lớn đã phát hành các mô hình LLM của riêng họ, mỗi mô hình có những khả năng riêng. Thành công đáng kinh ngạc của các LLM trước đây như GPT-3 đã truyền cảm hứng cho xu hướng này. Dưới đây là một số bản phát hành LLM đáng chú ý nhất từ đầu năm 2024.
Anthropic đã phát hành Claude 3 vào ngày 14 tháng 3 năm 2024. Mô hình Claude 3 có ba phiên bản: Opus, Sonnet và Haiku, mỗi phiên bản phục vụ các thị trường và mục đích khác nhau. Haiku, mô hình nhanh nhất, được tối ưu hóa cho các phản hồi nhanh chóng, cơ bản. Sonnet cân bằng giữa tốc độ và trí thông minh và nhắm mục tiêu vào các ứng dụng doanh nghiệp. Opus, phiên bản tiên tiến nhất, mang lại trí thông minh và khả năng lý luận vô song và lý tưởng cho các tác vụ phức tạp và đạt được các tiêu chuẩn hàng đầu.
Claude 3 tự hào có nhiều tính năng và cải tiến nâng cao:
Databricks DBRX là một LLM mục đích chung, mã nguồn mở được Databricks phát hành vào ngày 27 tháng 3 năm 2024. DBRX thực sự hoạt động tốt trong nhiều tiêu chuẩn đánh giá khác nhau, bao gồm hiểu ngôn ngữ, lập trình và toán học. Nó vượt trội so với các mô hình đã được thiết lập khác trong khi nhỏ hơn khoảng 40% so với các mô hình tương tự.
DBRX được đào tạo bằng cách sử dụng dự đoán token tiếp theo với kiến trúc mixture-of-experts (MoE) chi tiết, và đó là lý do tại sao chúng ta có thể thấy những cải tiến đáng kể trong hiệu suất đào tạo và suy luận. Kiến trúc của nó cho phép mô hình dự đoán từ tiếp theo trong một chuỗi chính xác hơn bằng cách tham khảo một tập hợp đa dạng các mô hình con chuyên biệt ("các chuyên gia"). Các mô hình con này giỏi xử lý các loại thông tin hoặc tác vụ khác nhau.
Google đã giới thiệu Gemini 1.5, một mô hình AI đa phương thức, tiết kiệm điện toán, có thể phân tích dữ liệu văn bản, video và âm thanh mở rộng, vào ngày 15 tháng 2 năm 2024. Mô hình mới nhất tiên tiến hơn về hiệu suất, hiệu quả và khả năng. Một tính năng chính của Gemini 1.5 là bước đột phá trong việc hiểu ngữ cảnh dài. Mô hình này có khả năng xử lý nhất quán tới 1 triệu token. Khả năng 1.5 của Gemini cũng nhờ vào kiến trúc dựa trên MoE mới.
Dưới đây là một số tính năng thú vị nhất của Gemini 1.5:
Quý đầu tiên của năm 2024 đã hé lộ các mô hình AI tạo sinh có thể tạo ra hình ảnh chân thực đến mức chúng đã gây ra các cuộc tranh luận về tương lai của mạng xã hội và sự tiến bộ của AI. Hãy cùng đi sâu vào các mô hình đang khuấy động cuộc trò chuyện.
OpenAI, nhà sáng tạo của ChatGPT, đã công bố một mô hình deep learning chuyển văn bản thành video hiện đại có tên là Sora vào ngày 15 tháng 2 năm 2024. Sora là một trình tạo video từ văn bản có khả năng tạo ra các video dài một phút với chất lượng hình ảnh cao dựa trên các lời nhắc văn bản của người dùng.
Ví dụ: hãy xem lời nhắc sau.
“Một thế giới thủ công giấy được kết xuất tuyệt đẹp về một rạn san hô, đầy ắp cá đầy màu sắc và sinh vật biển.”
Và đây là một khung hình từ video đầu ra.
Kiến trúc của Sora giúp điều này trở nên khả thi bằng cách kết hợp các mô hình khuếch tán để tạo kết cấu và các mô hình biến đổi để tạo sự mạch lạc về cấu trúc. Cho đến nay, quyền truy cập vào Sora đã được trao cho các red teamer và một nhóm nghệ sĩ thị giác, nhà thiết kế và nhà làm phim được chọn để hiểu những rủi ro và nhận phản hồi.
Stability AI đã công bố sự ra mắt của Stable Diffusion 3, một mô hình tạo hình ảnh từ văn bản, vào ngày 22 tháng 2 năm 2024. Mô hình này kết hợp kiến trúc biến đổi khuếch tán và khớp dòng chảy. Họ vẫn chưa phát hành một bài báo kỹ thuật, nhưng có một vài tính năng chính cần chú ý.
Mô hình Stable Diffusion mới nhất mang lại hiệu suất, chất lượng hình ảnh và độ chính xác được cải thiện trong việc tạo hình ảnh với nhiều đối tượng. Stable Diffusion 3 cũng sẽ cung cấp nhiều mô hình khác nhau, từ 800 triệu đến 8 tỷ tham số. Điều này cho phép người dùng lựa chọn dựa trên nhu cầu cụ thể của họ về khả năng mở rộng và chi tiết.
Vào ngày 23 tháng 1 năm 2024, Google đã ra mắt Lumiere, một mô hình khuếch tán chuyển văn bản thành video. Lumiere sử dụng một kiến trúc có tên là Space-Time-U-Net, hay viết tắt là STUNet. Nó giúp Lumiere hiểu vị trí của mọi vật và cách chúng di chuyển trong video. Bằng cách đó, nó có thể tạo ra các video mượt mà và sống động như thật.
Với khả năng tạo 80 khung hình trên mỗi video, Lumiere đang vượt qua các ranh giới và thiết lập các tiêu chuẩn mới về chất lượng video trong lĩnh vực AI. Dưới đây là một số tính năng của Lumiere:
Đầu năm 2024 cũng mang đến nhiều đổi mới AI có cảm giác như bước ra từ một bộ phim khoa học viễn tưởng. Những điều mà trước đây chúng ta cho là không thể thì giờ đang được thực hiện. Tương lai dường như không còn xa vời với những khám phá sau.
Neuralink của Elon Musk đã cấy ghép thành công chip não không dây vào một người vào ngày 29 tháng 1 năm 2024. Đây là một bước tiến lớn hướng tới việc kết nối não người với máy tính. Elon Musk chia sẻ rằng sản phẩm đầu tiên của Neuralink, có tên là ‘Telepathy,’ đang trong quá trình phát triển.
Mục tiêu là cho phép người dùng, đặc biệt là những người bị mất chức năng chi, điều khiển các thiết bị một cách dễ dàng thông qua suy nghĩ của họ. Các ứng dụng tiềm năng không chỉ dừng lại ở sự tiện lợi. Elon Musk hình dung một tương lai nơi những người bị liệt có thể giao tiếp dễ dàng.
Vào ngày 18 tháng 1 năm 2024, Walt Disney Imagineering đã công bố Sàn HoloTile. Nó được mệnh danh là mặt đất máy chạy bộ đa hướng, đa người đầu tiên trên thế giới.
Nó có thể di chuyển dưới bất kỳ người hoặc vật thể nào như thần giao cách cảm để có trải nghiệm thực tế ảo và tăng cường sống động. Bạn có thể đi bộ theo bất kỳ hướng nào và tránh va chạm khi ở trên đó. Sàn HoloTile của Disney cũng có thể được đặt trên các sân khấu để nhảy và di chuyển theo những cách sáng tạo.
Vào ngày 2 tháng 2 năm 2024, tai nghe Vision Pro rất được mong đợi của Apple đã có mặt trên thị trường. Nó có một loạt các tính năng và ứng dụng được thiết kế để xác định lại trải nghiệm thực tế ảo và tăng cường. Tai nghe Vision Pro phục vụ cho nhiều đối tượng khác nhau bằng cách kết hợp giải trí, năng suất và điện toán không gian. Apple tự hào thông báo rằng hơn 600 ứng dụng, từ các công cụ năng suất đến các dịch vụ trò chơi và giải trí, đã được tối ưu hóa cho Vision Pro khi ra mắt.
Vào ngày 12 tháng 3 năm 2024, Cognition đã phát hành một trợ lý kỹ sư phần mềm có tên là Devin. Devin là nỗ lực đầu tiên trên thế giới về một kỹ sư phần mềm AI tự trị. Không giống như các trợ lý viết mã truyền thống đưa ra gợi ý hoặc hoàn thành các tác vụ cụ thể, Devin được thiết kế để xử lý toàn bộ các dự án phát triển phần mềm từ ý tưởng ban đầu đến khi hoàn thành.
Nó có thể học các công nghệ mới, xây dựng và triển khai các ứng dụng hoàn chỉnh, tìm và sửa lỗi, huấn luyện các mô hình riêng, đóng góp vào mã nguồn mở và cơ sở mã sản xuất, và thậm chí đảm nhận các công việc phát triển thực tế từ các trang web như Upwork.
Devin được đánh giá trên SWE-bench, một chuẩn đánh giá đầy thách thức, yêu cầu các agent giải quyết các vấn đề GitHub thực tế được tìm thấy trong các dự án mã nguồn mở như Django và scikit-learn. Nó đã giải quyết chính xác 13,86% các vấn đề từ đầu đến cuối, so với mức 1,96% của các công nghệ tiên tiến trước đó.
Đã có rất nhiều điều xảy ra nên không thể đề cập hết trong bài viết này. Nhưng, đây là một vài đề cử đáng chú ý khác.
Đầu năm 2024 chứng kiến những tiến bộ đột phá trong lĩnh vực AI và nhiều cột mốc công nghệ quan trọng. Nhưng đây chỉ là sự khởi đầu cho những gì AI có thể làm. Nếu bạn muốn tìm hiểu thêm về những phát triển AI mới nhất, Ultralytics sẽ giúp bạn.
Hãy xem kho lưu trữ GitHub của chúng tôi để xem những đóng góp mới nhất của chúng tôi trong lĩnh vực thị giác máy tính và AI. Bạn cũng có thể xem các trang giải pháp của chúng tôi để xem AI đang được sử dụng như thế nào trong các ngành như sản xuất và chăm sóc sức khỏe.