Năm 2024 bắt đầu với làn sóng AI sáng tạo

Abirami Vina

6 phút đọc

Ngày 12 tháng 4 năm 2024

Cùng nhìn lại những đổi mới thú vị về AI trong quý đầu tiên của năm 2024. Chúng tôi sẽ đề cập đến những đột phá như Sora AI của OpenAI, chip não của Neuralink và các LLM mới nhất.

Cộng đồng AI dường như trở thành tiêu đề gần như hàng ngày. Vài tháng đầu năm 2024 thật thú vị và tràn ngập những cải tiến AI mới. Từ các mô hình ngôn ngữ lớn mới mạnh mẽ đến cấy ghép não người, năm 2024 đang định hình nên những điều tuyệt vời.

Chúng ta đang chứng kiến AI chuyển đổi các ngành công nghiệp, giúp thông tin dễ tiếp cận hơn và thậm chí thực hiện những bước đầu tiên hướng tới việc hợp nhất trí óc của chúng ta với máy móc. Hãy cùng quay lại quý đầu tiên của năm 2024 và xem xét kỹ hơn những tiến bộ đạt được trong AI chỉ trong vài tháng.

LLM đang là xu hướng

Các mô hình ngôn ngữ lớn (LLM), được thiết kế để hiểu, tạo và thao tác ngôn ngữ của con người dựa trên lượng lớn dữ liệu văn bản, đã trở thành tâm điểm chú ý trong quý đầu tiên của năm 2024. Nhiều công ty công nghệ lớn đã phát hành các mô hình LLM của riêng họ, mỗi mô hình có các khả năng riêng biệt. Thành công đáng kinh ngạc của các LLM trước đây như GPT-3 đã truyền cảm hứng cho xu hướng này. Sau đây là một số bản phát hành LLM đáng chú ý nhất từ đầu năm 2024.

Claude 3 của Anthropic

Anthropic đã phát hành Claude 3 vào ngày 14 tháng 3 năm 2024. Mô hình Claude 3 có ba phiên bản: Opus, Sonnet và Haiku, mỗi phiên bản phục vụ các thị trường và mục đích khác nhau. Haiku, mô hình nhanh nhất, được tối ưu hóa cho các phản hồi cơ bản, nhanh chóng. Sonnet cân bằng tốc độ với trí thông minh và nhắm mục tiêu vào các ứng dụng doanh nghiệp. Opus, phiên bản tiên tiến nhất, cung cấp trí thông minh và lý luận vô song và lý tưởng cho các nhiệm vụ phức tạp và đạt được các điểm chuẩn hàng đầu.

Claude 3 tự hào có nhiều tính năng và cải tiến tiên tiến:

  • Nâng cao khả năng hội thoại đa ngôn ngữ: Cải thiện khả năng sử dụng các ngôn ngữ bao gồm tiếng Tây Ban Nha, tiếng Nhật và tiếng Pháp.
  • Tính năng thị giác nâng cao: Có khả năng xử lý nhiều định dạng hình ảnh khác nhau.
  • Giảm thiểu từ chối: Thể hiện sự hiểu biết nhiều hơn với ít lời từ chối không cần thiết hơn, cho thấy khả năng nắm bắt ngữ cảnh được cải thiện.
  • Cửa sổ ngữ cảnh mở rộng: Cung cấp cửa sổ ngữ cảnh 200K nhưng có khả năng xử lý hơn 1 triệu mã thông báo dựa trên nhu cầu của khách hàng.
__wf_reserved_thừa kế
Hình 1. Claude 3 có nhận thức về ngữ cảnh tốt hơn so với các phiên bản trước.

DBRX của Databricks

Databricks DBRX là LLM mở, đa năng do Databricks phát hành vào ngày 27 tháng 3 năm 2024. DBRX thực sự tốt trong nhiều chuẩn mực khác nhau, bao gồm hiểu ngôn ngữ, lập trình và toán học. Nó vượt trội hơn các mô hình đã thiết lập khác trong khi nhỏ hơn khoảng 40% so với các mô hình tương tự.

__wf_reserved_thừa kế
Hình 2. So sánh DBRX với các mô hình khác.

DBRX được đào tạo bằng cách sử dụng dự đoán mã thông báo tiếp theo với kiến trúc hỗn hợp chuyên gia (MoE) chi tiết, và đó là lý do tại sao chúng ta có thể thấy những cải tiến đáng kể trong hiệu suất đào tạo và suy luận. Kiến trúc của nó cho phép mô hình dự đoán từ tiếp theo trong một chuỗi chính xác hơn bằng cách tham khảo một tập hợp đa dạng các mô hình con chuyên biệt (các "chuyên gia"). Các mô hình con này xử lý tốt các loại thông tin hoặc nhiệm vụ khác nhau.

Gemini 1.5 của Google

Google đã giới thiệu Gemini 1.5, một mô hình AI đa phương thức, hiệu quả về mặt tính toán có thể phân tích dữ liệu văn bản, video và âm thanh mở rộng, vào ngày 15 tháng 2 năm 2024. Mô hình mới nhất tiên tiến hơn về hiệu suất, hiệu quả và khả năng. Một tính năng chính của Gemini 1.5 là đột phá trong việc hiểu ngữ cảnh dài. Mô hình có khả năng xử lý tới 1 triệu mã thông báo một cách nhất quán. Khả năng của Gemini 1.5 cũng là nhờ vào kiến trúc dựa trên MoE mới.

__wf_reserved_thừa kế
Hình 3. So sánh độ dài ngữ cảnh của các LLM phổ biến

Sau đây là một số tính năng thú vị nhất của Gemini 1.5 :

  • Xử lý dữ liệu được cải thiện: Cho phép tải trực tiếp các tệp PDF lớn, kho lưu trữ mã hoặc video dài dưới dạng lời nhắc. Mô hình có thể lý luận trên nhiều phương thức và xuất văn bản.
  • Tải nhiều tệp lên và truy vấn: Nhà phát triển hiện có thể tải nhiều tệp lên và đặt câu hỏi.
  • Có thể sử dụng cho nhiều tác vụ khác nhau: Được tối ưu hóa để mở rộng quy mô trên nhiều tác vụ khác nhau và cho thấy sự cải thiện trong các lĩnh vực như toán học, khoa học, lý luận, đa ngôn ngữ, hiểu biết về video và mã​

Hình ảnh tuyệt đẹp từ AI

Quý đầu tiên của năm 2024 đã công bố các mô hình AI tạo ra hình ảnh chân thực đến mức làm dấy lên các cuộc tranh luận về tương lai của phương tiện truyền thông xã hội và sự tiến bộ của AI. Hãy cùng tìm hiểu các mô hình đang khuấy động cuộc trò chuyện.

Sora của OpenAI 

OpenAI, đơn vị sáng tạo ra ChatGPT, đã công bố một mô hình học sâu chuyển văn bản thành video tiên tiến có tên là Sora vào ngày 15 tháng 2 năm 2024. Sora là trình tạo văn bản thành video có khả năng tạo video dài một phút với chất lượng hình ảnh cao dựa trên lời nhắc văn bản của người dùng. 

Ví dụ, hãy xem lời nhắc sau. 

“Một thế giới giấy thủ công tuyệt đẹp về rạn san hô, tràn ngập những loài cá đầy màu sắc và sinh vật biển.” 

Và đây là một khung hình từ video đầu ra. 

__wf_reserved_thừa kế
Hình 4. Một khung hình từ video được tạo bởi Sora.

Kiến trúc của Sora giúp điều này trở nên khả thi bằng cách kết hợp các mô hình khuếch tán để tạo kết cấu và các mô hình biến đổi để tạo sự gắn kết về mặt cấu trúc. Cho đến nay, Sora đã được trao cho các thành viên nhóm đỏ và một nhóm nghệ sĩ thị giác, nhà thiết kế và nhà làm phim được chọn để hiểu các rủi ro và nhận phản hồi. 

Sự khuếch tán ổn định của AI 3 

Stability AI đã công bố sự ra mắt của Stable Diffusion 3 , một mô hình tạo văn bản thành hình ảnh, vào ngày 22 tháng 2 năm 2024. Mô hình này kết hợp kiến trúc máy biến áp khuếch tán và khớp dòng chảy. Họ vẫn chưa phát hành một bài báo kỹ thuật, nhưng có một vài tính năng chính cần chú ý.

__wf_reserved_thừa kế
Hình 5. Hình ảnh đầu ra dựa trên lời nhắc: “Tác phẩm nghệ thuật anime hoành tráng về một phù thủy trên đỉnh núi vào ban đêm đang niệm một câu thần chú vũ trụ lên bầu trời đêm với dòng chữ "Stable Diffusion 3" được tạo thành từ năng lượng đầy màu sắc”

Phiên bản mới nhất của Stable Diffusion cung cấp hiệu suất, chất lượng hình ảnh và độ chính xác được cải thiện khi tạo hình ảnh với nhiều chủ thể. Stable Diffusion 3 cũng sẽ cung cấp nhiều mô hình khác nhau từ 800 triệu đến 8 tỷ tham số. Nó sẽ cho phép người dùng lựa chọn dựa trên nhu cầu cụ thể của họ về khả năng mở rộng và chi tiết.

Lumiere của Google 

Vào ngày 23 tháng 1 năm 2024, Google đã ra mắt Lumiere , một mô hình khuếch tán văn bản thành video. Lumiere sử dụng một kiến trúc có tên là Space-Time-U-Net, hay viết tắt là STUNet. Nó giúp Lumiere hiểu được vị trí của mọi thứ và cách chúng di chuyển trong video. Bằng cách đó, nó có thể tạo ra các video mượt mà và sống động.

__wf_reserved_thừa kế
Hình 6. Một khung hình từ video được tạo dựa trên lời nhắc: “Panda chơi ukulele tại nhà”.

Với khả năng tạo ra 80 khung hình cho mỗi video, Lumiere đang đẩy mạnh ranh giới và thiết lập các tiêu chuẩn mới về chất lượng video trong không gian AI. Sau đây là một số tính năng của Lumiere:

  • Chuyển hình ảnh thành video: Bắt đầu từ một hình ảnh và lời nhắc, Lumiere có thể chuyển đổi hình ảnh thành video.
  • Tạo kiểu cách: Lumiere có thể tạo video theo các phong cách cụ thể bằng cách sử dụng một hình ảnh tham chiếu duy nhất.
  • Cinemagraph: Lumiere có thể làm động các vùng cụ thể trong ảnh để tạo ra các cảnh động, chẳng hạn như một vật thể cụ thể di chuyển trong khi phần còn lại của cảnh vẫn tĩnh.
  • Chỉnh sửa video: Có thể chỉnh sửa một số phần của video, chẳng hạn như thay đổi trang phục của người trong video hoặc thay đổi chi tiết nền.

Tương lai dường như đã ở đây

Đầu năm 2024 cũng mang đến nhiều cải tiến về AI giống như trong phim khoa học viễn tưởng. Những thứ mà trước đây chúng ta cho là không thể thì giờ đây đang được thực hiện. Tương lai không còn quá xa vời với những khám phá sau đây.

Neuralink của Elon Musk

Neuralink của Elon Musk đã cấy ghép thành công chip não không dây vào người vào ngày 29 tháng 1 năm 2024. Đây là một bước tiến lớn hướng tới việc kết nối não người với máy tính. Elon Musk chia sẻ rằng sản phẩm đầu tiên của Neuralink có tên là 'Telepathy' đang trong quá trình phát triển. 

__wf_reserved_thừa kế
Hình 7. Cấy ghép Neuralink

Mục tiêu là cho phép người dùng, đặc biệt là những người mất chức năng chi, điều khiển thiết bị dễ dàng thông qua suy nghĩ của họ. Các ứng dụng tiềm năng mở rộng ra ngoài sự tiện lợi. Elon Musk hình dung ra một tương lai nơi những người bị liệt có thể giao tiếp dễ dàng.

Sàn HoloTile của Disney 

Vào ngày 18 tháng 1 năm 2024, Walt Disney Imagineering đã ra mắt Sàn HoloTile. Nó được mệnh danh là sân chạy bộ đa hướng, nhiều người chơi đầu tiên trên thế giới. 

__wf_reserved_thừa kế
Hình 8. Nhà thiết kế của Disney Lanny Smoot tạo dáng bên sản phẩm mới nhất của mình, sàn HoloTile.

Nó có thể di chuyển dưới bất kỳ người hoặc vật thể nào như telekinesis để có trải nghiệm thực tế ảo và thực tế tăng cường nhập vai. Bạn có thể đi theo bất kỳ hướng nào và tránh va chạm khi ở trên đó. Sàn HoloTile của Disney cũng có thể được đặt trên sân khấu kịch để nhảy múa và di chuyển theo những cách sáng tạo.

Vision Pro của Apple

Vào ngày 2 tháng 2 năm 2024, tai nghe Vision Pro rất được mong đợi của Apple đã ra mắt thị trường. Nó có một loạt các tính năng và ứng dụng được thiết kế để định nghĩa lại trải nghiệm thực tế ảo và thực tế tăng cường. Tai nghe Vision Pro phục vụ cho nhiều đối tượng khác nhau bằng cách kết hợp giải trí, năng suất và điện toán không gian. Apple tự hào thông báo rằng hơn 600 ứng dụng, từ các công cụ năng suất đến các dịch vụ chơi game và giải trí, đã được tối ưu hóa cho Vision Pro khi ra mắt.

Devin của Nhận thức

Vào ngày 12 tháng 3 năm 2024, Cognition đã phát hành một trợ lý kỹ thuật phần mềm có tên là Devin. Devin là nỗ lực đầu tiên trên thế giới về một kỹ sư phần mềm AI tự động. Không giống như các trợ lý mã hóa truyền thống đưa ra gợi ý hoặc hoàn thành các nhiệm vụ cụ thể, Devin được thiết kế để xử lý toàn bộ các dự án phát triển phần mềm từ khái niệm ban đầu đến khi hoàn thành. 

Nó có thể học các công nghệ mới, xây dựng và triển khai các ứng dụng hoàn chỉnh, tìm và sửa lỗi, đào tạo các mô hình riêng, đóng góp vào cơ sở mã nguồn mở và sản xuất, thậm chí đảm nhận các công việc phát triển thực tế từ các trang web như Upwork. 

__wf_reserved_thừa kế
Hình 9. So sánh Devin với các mô hình khác.

Devin đã được đánh giá trên SWE-bench, một chuẩn mực đầy thách thức yêu cầu các tác nhân giải quyết các vấn đề GitHub thực tế được tìm thấy trong các dự án nguồn mở như Django và scikit-learn. Nó đã giải quyết đúng 13,86% các vấn đề từ đầu đến cuối, so với mức hiện đại trước đó là 1,96%.

Những đề cập đáng chú ý

Có quá nhiều điều xảy ra đến nỗi không thể đề cập hết trong bài viết này. Nhưng sau đây là một số đề cập đáng trân trọng hơn. 

  • LATTE3D của NVIDIA, được công bố vào ngày 21 tháng 3 năm 2024, là mô hình AI chuyển văn bản thành 3D có khả năng tạo ra các hình ảnh 3D ngay lập tức từ các lời nhắc văn bản.
  • Công cụ chuyển văn bản thành video mới của Midjourney, được CEO David Holz giới thiệu, đã bắt đầu chạy thử vào tháng 1 và dự kiến sẽ sớm ra mắt.
  • Thúc đẩy cuộc cách mạng PC AI, Lenovo đã phát hành ThinkBook 13x với công nghệ E Ink Prism và máy tính xách tay AI hiệu suất cao vào ngày 8 tháng 1 năm 2024.

Hãy cùng chúng tôi cập nhật xu hướng AI!

Đầu năm 2024 chứng kiến những tiến bộ đột phá trong AI và nhiều cột mốc công nghệ quan trọng. Nhưng đây chỉ là khởi đầu cho những gì AI có thể làm. Nếu bạn muốn tìm hiểu thêm về những phát triển AI mới nhất, Ultralytics sẽ giúp bạn.

Hãy xem kho lưu trữ GitHub của chúng tôi để xem những đóng góp mới nhất của chúng tôi về thị giác máy tính và AI. Bạn cũng có thể xem các trang giải pháp của chúng tôi để xem AI đang được sử dụng như thế nào trong các ngành công nghiệp như sản xuấtchăm sóc sức khỏe

Hãy cùng xây dựng tương lai
của AI cùng nhau!

Bắt đầu hành trình của bạn với tương lai của máy học

Bắt đầu miễn phí
Liên kết đã được sao chép vào clipboard