Năm 2024 khởi đầu với làn sóng AI tạo sinh
Nhìn lại những đổi mới AI thú vị từ quý đầu tiên của năm 2024. Chúng tôi sẽ đề cập đến các bước đột phá như Sora AI của OpenAI, chip não bộ của Neuralink và các LLM mới nhất.

Cộng đồng AI dường như xuất hiện trên các tiêu đề báo chí gần như mỗi ngày. Những tháng đầu năm 2024 đã vô cùng sôi động và tràn ngập những đổi mới AI mới. Từ các large language model mạnh mẽ mới cho đến các thiết bị cấy ghép não người, năm 2024 đang định hình trở nên đầy kinh ngạc.
Chúng ta đang chứng kiến AI chuyển đổi các ngành công nghiệp, làm cho thông tin trở nên dễ tiếp cận hơn và thậm chí là thực hiện những bước đầu tiên trong việc hợp nhất tâm trí con người với máy móc. Hãy cùng nhìn lại quý đầu tiên của năm 2024 và xem xét kỹ hơn những tiến bộ đã đạt được trong lĩnh vực AI chỉ trong vài tháng ngắn ngủi.
Link to this sectionLLMs đang trở thành xu hướng#
Các large language model (LLMs), được thiết kế để hiểu, tạo và thao tác ngôn ngữ con người dựa trên lượng lớn dữ liệu văn bản, đã chiếm vị trí trung tâm trong quý đầu tiên của năm 2024. Nhiều công ty công nghệ lớn đã phát hành các model LLM của riêng họ, mỗi model đều có những khả năng độc đáo. Thành công đáng kinh ngạc của các LLM trước đó như GPT-3 đã truyền cảm hứng cho xu hướng này. Dưới đây là một số bản phát hành LLM đáng chú ý nhất từ đầu năm 2024.
Link to this sectionClaude 3 của Anthropic#
Anthropic đã phát hành Claude 3 vào ngày 14 tháng 3 năm 2024. Model Claude 3 có ba phiên bản: Opus, Sonnet và Haiku, mỗi phiên bản phục vụ các thị trường và mục đích khác nhau. Haiku, model nhanh nhất, được tối ưu hóa cho các phản hồi cơ bản, tốc độ nhanh. Sonnet cân bằng giữa tốc độ và trí thông minh, hướng tới các ứng dụng doanh nghiệp. Opus, phiên bản tiên tiến nhất, mang lại trí thông minh và khả năng suy luận vượt trội, lý tưởng cho các tác vụ phức tạp và đạt được các benchmark hàng đầu.
Claude 3 tự hào với nhiều tính năng và cải tiến tiên tiến:
- Hội thoại đa ngôn ngữ nâng cao: Cải thiện khả năng trong các ngôn ngữ bao gồm tiếng Tây Ban Nha, tiếng Nhật và tiếng Pháp.
- Tính năng Vision nâng cao: Có khả năng xử lý nhiều định dạng hình ảnh khác nhau.
- Giảm thiểu sự từ chối: Thể hiện sự hiểu biết tốt hơn với ít phản hồi từ chối không cần thiết hơn, cho thấy khả năng nắm bắt ngữ cảnh đã được cải thiện.
- Cửa sổ ngữ cảnh mở rộng: Cung cấp cửa sổ ngữ cảnh 200K, nhưng có khả năng xử lý đầu vào lên tới hơn 1 triệu token tùy theo nhu cầu của khách hàng.

Fig 1. Claude 3 có nhận thức ngữ cảnh tốt hơn các phiên bản trước.
Link to this sectionDBRX của Databricks#
Databricks DBRX là một LLM mã nguồn mở, đa năng do Databricks phát hành vào ngày 27 tháng 3 năm 2024. DBRX hoạt động thực sự hiệu quả trong nhiều benchmark khác nhau, bao gồm hiểu ngôn ngữ, lập trình và toán học. Nó vượt qua các model lâu đời khác trong khi có kích thước nhỏ hơn khoảng 40% so với các model tương tự.

Fig 2. So sánh DBRX với các model khác.
DBRX được train bằng cách dự đoán next-token với kiến trúc mixture-of-experts (MoE) tinh vi, và đó là lý do chúng ta có thể thấy những cải thiện đáng kể về hiệu suất training và inference. Kiến trúc của nó cho phép model dự đoán từ tiếp theo trong một chuỗi chính xác hơn bằng cách tham khảo một tập hợp đa dạng các submodel chuyên biệt ("các chuyên gia"). Những submodel này giỏi xử lý các loại thông tin hoặc tác vụ khác nhau.
Link to this sectionGemini 1.5 của Google#
Google đã giới thiệu Gemini 1.5, một model AI đa phương thức hiệu quả về tính toán có khả năng phân tích lượng lớn dữ liệu văn bản, video và âm thanh vào ngày 15 tháng 2 năm 2024. Model mới nhất này tiến bộ hơn về hiệu suất, hiệu quả và khả năng. Một tính năng chính của Gemini 1.5 là bước đột phá trong việc hiểu ngữ cảnh dài. Model có khả năng xử lý nhất quán lên tới 1 triệu token. Khả năng của Gemini 1.5 cũng nhờ vào kiến trúc dựa trên MoE mới.

Fig 3. So sánh độ dài ngữ cảnh của các LLM phổ biến
Dưới đây là một số tính năng thú vị nhất của Gemini 1.5:
- Cải thiện xử lý dữ liệu: Cho phép tải trực tiếp các tệp PDF lớn, kho lưu trữ mã nguồn (code repository) hoặc video dài dưới dạng prompt. Model có thể suy luận giữa các phương thức (modalities) và xuất ra văn bản.
- Tải lên và truy vấn nhiều tệp: Các developer hiện có thể tải lên nhiều tệp cùng lúc và đặt câu hỏi.
- Có thể sử dụng cho nhiều tác vụ khác nhau: Nó được tối ưu hóa để mở rộng quy mô trên nhiều tác vụ đa dạng và cho thấy những cải thiện trong các lĩnh vực như toán học, khoa học, suy luận, đa ngôn ngữ, hiểu video và mã nguồn.
Link to this sectionHình ảnh tuyệt đẹp từ AI#
Quý đầu tiên của năm 2024 đã trình làng các model generative AI có khả năng tạo ra hình ảnh chân thực đến mức chúng gây ra những cuộc tranh luận về tương lai của phương tiện truyền thông xã hội và sự tiến bộ của AI. Hãy cùng đi sâu vào các model đang khuấy động cuộc thảo luận này.
Link to this sectionSora của OpenAI#
OpenAI, cha đẻ của ChatGPT, đã công bố một model deep learning text-to-video tiên tiến có tên là Sora vào ngày 15 tháng 2 năm 2024. Sora là một trình tạo text-to-video có khả năng tạo ra các video dài một phút với chất lượng hình ảnh cao dựa trên prompt văn bản của người dùng.
Ví dụ, hãy xem prompt sau đây.
“Một thế giới thủ công bằng giấy được render tuyệt đẹp về một rạn san hô, tràn ngập cá và sinh vật biển đầy màu sắc.”
Và, đây là một frame từ video đầu ra.

Fig 4. Một frame từ video được tạo bởi Sora.
Kiến trúc của Sora làm được điều này bằng cách kết hợp các diffusion model để tạo texture và Transformer model để đảm bảo tính nhất quán về cấu trúc. Cho đến nay, quyền truy cập vào Sora đã được cung cấp cho các red teamer và một nhóm chọn lọc các nghệ sĩ thị giác, nhà thiết kế và nhà làm phim để hiểu các rủi ro và nhận phản hồi.
Link to this sectionStable Diffusion 3 của Stability AI#
Stability AI đã công bố sự ra mắt của Stable Diffusion 3, một model tạo ảnh từ văn bản, vào ngày 22 tháng 2 năm 2024. Model này kết hợp kiến trúc diffusion transformer và flow matching. Họ vẫn chưa công bố tài liệu kỹ thuật, nhưng có một vài tính năng chính đáng chú ý.

Fig 5. Hình ảnh đầu ra dựa trên prompt: “Tác phẩm nghệ thuật anime sử thi về một pháp sư trên đỉnh núi vào ban đêm đang niệm phép thuật vũ trụ lên bầu trời tối có dòng chữ "Stable Diffusion 3" được tạo ra từ năng lượng đầy màu sắc” (Nguồn)
Model mới nhất của Stable Diffusion mang lại hiệu suất, chất lượng hình ảnh và độ chính xác được cải thiện khi tạo ra hình ảnh có nhiều chủ thể. Stable Diffusion 3 cũng sẽ cung cấp nhiều loại model với số lượng tham số từ 800 triệu đến 8 tỷ. Nó sẽ cho phép người dùng lựa chọn dựa trên nhu cầu cụ thể về khả năng mở rộng và độ chi tiết.
Link to this sectionLumiere của Google#
Vào ngày 23 tháng 1 năm 2024, Google đã ra mắt Lumiere, một model diffusion text-to-video. Lumiere sử dụng một kiến trúc gọi là Space-Time-U-Net, viết tắt là STUNet. Nó giúp Lumiere hiểu được vị trí của các vật thể và cách chúng di chuyển trong video. Bằng cách đó, nó có thể tạo ra các video mượt mà và sống động như thật.

Fig 6. Một frame từ video được tạo dựa trên prompt: “Gấu trúc chơi ukulele tại nhà.”
Với khả năng tạo ra 80 khung hình (frames) mỗi video, Lumiere đang vượt qua các giới hạn và thiết lập các tiêu chuẩn mới về chất lượng video trong lĩnh vực AI. Dưới đây là một số tính năng của Lumiere:
- Image-to-Video: Bắt đầu từ một hình ảnh và một prompt, Lumiere có thể chuyển đổi hình ảnh thành video.
- Tạo kiểu cách (Stylized Generation): Lumiere có thể tạo video theo các phong cách cụ thể bằng cách sử dụng một hình ảnh tham chiếu duy nhất.
- Cinemagraphs: Lumiere có thể làm chuyển động các vùng cụ thể trong một hình ảnh để tạo ra các cảnh động, chẳng hạn như một vật thể cụ thể di chuyển trong khi phần còn lại của cảnh vẫn tĩnh.
- Video Inpainting: Nó có thể sửa đổi các phần của video, chẳng hạn như thay đổi trang phục của những người trong video hoặc thay đổi chi tiết nền.
Link to this sectionTương lai dường như đang ở ngay đây#
Sự khởi đầu của năm 2024 cũng đã mang đến nhiều đổi mới AI mang lại cảm giác như bước ra từ một bộ phim khoa học viễn tưởng. Những điều mà trước đây chúng ta cho là bất khả thi thì giờ đây đang được thực hiện. Tương lai dường như không còn xa với những khám phá sau đây.
Link to this sectionNeuralink của Elon Musk#
Dự án Neuralink của Elon Musk đã cấy thành công chip não không dây của họ vào con người vào ngày 29 tháng 1 năm 2024. Đây là một bước tiến lớn trong việc kết nối não người với máy tính. Elon Musk chia sẻ rằng sản phẩm đầu tiên của Neuralink, có tên là ‘Telepathy’, đang được triển khai.

Fig 7. Thiết bị cấy ghép Neuralink
Mục tiêu là cho phép người dùng, đặc biệt là những người đã mất chức năng chi, điều khiển các thiết bị một cách dễ dàng thông qua suy nghĩ của họ. Các ứng dụng tiềm năng vượt xa sự tiện lợi. Elon Musk hình dung một tương lai nơi những người bị liệt có thể giao tiếp dễ dàng.
Link to this sectionHoloTile Floor của Disney#
Vào ngày 18 tháng 1 năm 2024, Walt Disney Imagineering đã ra mắt HoloTile Floor. Nó được mệnh danh là sàn máy chạy bộ đa hướng cho nhiều người đầu tiên trên thế giới.

Fig 8. Disney Imagineer Lanny Smoot tạo dáng trên sự đổi mới mới nhất của ông, sàn HoloTile.
Nó có thể di chuyển dưới bất kỳ người hoặc vật thể nào như thần giao cách cảm cho trải nghiệm thực tế ảo và thực tế tăng cường sống động. Bạn có thể đi bộ theo bất kỳ hướng nào và tránh va chạm khi đang trên đó. HoloTile Floor của Disney cũng có thể được lắp đặt trên các sân khấu kịch để nhảy múa và di chuyển theo những cách sáng tạo.
Link to this sectionVision Pro của Apple#
Vào ngày 2 tháng 2 năm 2024, tai nghe Vision Pro được chờ đợi từ lâu của Apple đã ra mắt thị trường. Nó sở hữu một loạt các tính năng và ứng dụng được thiết kế để định nghĩa lại trải nghiệm thực tế ảo và thực tế tăng cường. Tai nghe Vision Pro phục vụ nhiều đối tượng bằng cách kết hợp giải trí, năng suất và điện toán không gian (spatial computing). Apple tự hào thông báo rằng hơn 600 ứng dụng, từ các công cụ năng suất đến các dịch vụ trò chơi và giải trí, đã được tối ưu hóa cho Vision Pro khi ra mắt.
Link to this sectionDevin của Cognition#
Vào ngày 12 tháng 3 năm 2024, Cognition đã phát hành một trợ lý kỹ thuật phần mềm có tên là Devin. Devin là nỗ lực đầu tiên trên thế giới về một kỹ sư phần mềm AI tự động. Không giống như các trợ lý lập trình truyền thống đưa ra gợi ý hoặc hoàn thành các tác vụ cụ thể, Devin được thiết kế để xử lý toàn bộ các dự án phát triển phần mềm từ ý tưởng ban đầu đến khi hoàn thành.
Nó có thể học các công nghệ mới, xây dựng và triển khai (deploy) toàn bộ ứng dụng, tìm và sửa lỗi, train các model của riêng mình, đóng góp vào các codebase mã nguồn mở và sản xuất, và thậm chí đảm nhận các công việc phát triển thực tế từ các trang web như Upwork.

Fig 9. So sánh Devin với các model khác.
Devin đã được đánh giá trên SWE-bench, một benchmark đầy thử thách yêu cầu các agent giải quyết các issue GitHub thực tế được tìm thấy trong các dự án mã nguồn mở như Django và scikit-learn. Nó đã giải quyết chính xác 13,86% các issue end-to-end, so với mức state-of-the-art trước đó là 1,96%.
Link to this sectionCác đề cập danh dự#
Đã có quá nhiều thứ xảy ra đến mức không thể bao quát tất cả trong bài viết này. Tuy nhiên, dưới đây là một số đề cập danh dự khác.
- LATTE3D của NVIDIA, được công bố vào ngày 21 tháng 3 năm 2024, là một model AI text-to-3D tạo ra các mô hình 3D từ các prompt văn bản ngay lập tức.
- Trình tạo text-to-video mới của Midjourney, được CEO David Holz hé lộ, đã bắt đầu training vào tháng 1 và dự kiến sẽ sớm ra mắt.
- Thúc đẩy cuộc cách mạng AI PC, Lenovo đã phát hành ThinkBook 13x với công nghệ E Ink Prism và các máy tính xách tay AI hiệu suất cao vào ngày 8 tháng 1 năm 2024.
Link to this sectionCập nhật các xu hướng AI cùng chúng tôi!#
Sự khởi đầu của năm 2024 đã chứng kiến những tiến bộ đột phá trong AI và nhiều cột mốc công nghệ quan trọng. Nhưng đây chỉ là sự khởi đầu của những gì AI có thể làm. Nếu bạn muốn tìm hiểu thêm về các phát triển AI mới nhất, Ultralytics luôn sẵn sàng hỗ trợ bạn.
Hãy xem GitHub repository của chúng tôi để biết những đóng góp mới nhất về computer vision và AI. Bạn cũng có thể xem các trang giải pháp của chúng tôi để biết AI đang được sử dụng như thế nào trong các ngành công nghiệp như manufacturing và healthcare.






