xAI ra mắt Grok 2.0 với khả năng tích hợp FLUX.1
Tìm hiểu về Grok 2.0 từ xAI của Elon Musk và khả năng tích hợp với FLUX.1. Khám phá chi tiết về các tính năng, điểm chuẩn, so sánh mô hình và cách dùng thử.

Vào ngày 14 tháng 8, công ty AI của Elon Musk, xAI, đã thông báo phát hành Grok 2.0, một chatbot được tích hợp với FLUX.1, một model tạo ảnh của Black Forest Labs, trên X (trước đây là Twitter). FLUX.1 là một model tiên tiến có khả năng tạo ra các hình ảnh cực kỳ chân thực, bao gồm cả những hình ảnh có thể bị coi là nhạy cảm hoặc có khả năng gây hiểu lầm.
Không giống như nhiều trình tạo ảnh phổ biến chặn hoặc lọc một số loại nội dung nhất định như hình ảnh bạo lực, khiêu dâm hoặc lừa đảo, FLUX.1 có ít hạn chế hơn. Một số người coi đây là thắng lợi cho quyền tự do ngôn luận, trong khi những người khác ấn tượng bởi khả năng tiên tiến của nó. Tuy nhiên, cũng có những lo ngại về các tác động đạo đức và khả năng lạm dụng công nghệ mạnh mẽ này. Hãy cùng đi sâu vào tìm hiểu Grok 2.0 mang lại những gì, điều gì làm nên sự khác biệt của FLUX.1 và cách bạn có thể tự mình trải nghiệm các công cụ sáng tạo này.
Link to this sectionTìm hiểu về FLUX.1: Một trình tạo ảnh AI#
FLUX.1 là một trình tạo ảnh AI mã nguồn mở tiên tiến được Black Forest Labs ra mắt vào ngày 1 tháng 8 năm 2024. Black Forest Labs là một startup được thành lập bởi các kỹ sư cũ của Stability AI, những người nổi tiếng với công trình về các model Stable Diffusion được sử dụng rộng rãi. FLUX.1 được thiết kế để cạnh tranh trực tiếp với những cái tên đã thành danh như MidJourney và DALL-E 3, mang đến một đẳng cấp mới về chất lượng và sự linh hoạt cho hình ảnh do AI tạo ra. Ví dụ, FLUX.1 xử lý rất tốt các chi tiết phức tạp mà nhiều model khác gặp khó khăn, như tạo hình bàn tay người trông thật hoặc văn bản dễ đọc trên các biển hiệu.
Black Forest Labs đang cung cấp ba biến thể khác nhau của FLUX.1 có thể được sử dụng cho các ứng dụng khác nhau. Dưới đây là thông tin chi tiết về các biến thể này:
- FLUX.1 [pro]: Model hàng đầu dành cho mục đích thương mại và được thiết kế để cung cấp kết quả đầu ra chất lượng cao nhất.
- FLUX.1 [dev]: Phiên bản mã nguồn mở có sẵn cho mục đích phi thương mại. Nó rất lý tưởng cho nghiên cứu và phát triển.
- FLUX.1 [schnell]: Một model được tối ưu hóa tốc độ theo giấy phép Apache 2.0, hoàn hảo cho các dự án cá nhân và phát triển cục bộ nơi cần tạo ảnh nhanh.

Hình 1. Hiểu về các biến thể của FLUX.1
Link to this sectionFLUX.1 hoạt động như thế nào?#
FLUX.1 sử dụng kiến trúc model lai kết hợp giữa các kỹ thuật Transformer và diffusion với quy mô 12 tỷ tham số (các phần có thể điều chỉnh của mạng thần kinh giúp nó học từ dữ liệu). Transformer là một loại mạng thần kinh có thể hiểu các chuỗi như văn bản và hình ảnh bằng cách nhận dạng các mẫu và mối quan hệ trong dữ liệu. Các model diffusion hoạt động bằng cách bắt đầu với nhiễu ngẫu nhiên và tinh chỉnh từng bước cho đến khi một hình ảnh rõ ràng được hình thành. Bằng cách kết hợp hai cách tiếp cận này, FLUX.1 có thể sử dụng thế mạnh của cả hai kiến trúc để tạo ra các hình ảnh chất lượng cao phù hợp với các gợi ý văn bản được đưa ra.
FLUX.1 cũng sử dụng các kỹ thuật tiên tiến như rotary positional embeddings và flow matching. Rotary positional embeddings giúp model hiểu thứ tự và vị trí của các yếu tố trong văn bản và hình ảnh để đảm bảo mọi thứ đều nhất quán. Flow matching là một kỹ thuật được sử dụng trong các model tạo sinh để giúp quá trình tạo hình ảnh từ nhiễu ngẫu nhiên trở nên mượt mà và hiệu quả hơn.
Link to this sectionĐánh giá hiệu năng FLUX.1#
Khi so sánh FLUX.1 với các model phổ biến khác như MidJourney v6.0, DALL·E 3 (HD) và SD3-Ultra, FLUX.1 thiết lập một chuẩn mực mới trong việc tạo ảnh AI. Nó vượt trội ở các lĩnh vực chính như chất lượng hình ảnh, khả năng tuân thủ theo gợi ý, sự đa dạng của kết quả đầu ra, cũng như hỗ trợ nhiều kích thước và tỷ lệ khung hình khác nhau. Các model FLUX.1 [pro] và [dev] nổi bật nhờ việc tạo ra các hình ảnh chất lượng cao bám sát mong muốn của người dùng, và các model này thường vượt xa những model khác trong việc cung cấp kết quả rõ ràng và chính xác. Mặt khác, FLUX.1 [schnell] là một trong những model tiên tiến nhất để tạo ảnh nhanh và hoạt động tốt hơn các model phức tạp hơn như MidJourney.
![So sánh giữa Midjourney v6 và FLUX.1 [pro]](https://cdn.ul.run/i/d1775fce1582892ce55c91ec4b8497ba.avif)
Hình 2. So sánh Midjourney v6 và FLUX.1[pro]
Link to this sectionGrok 2.0: Sản phẩm mới nhất từ xAI của Elon Musk#
Grok 2.0 là model ngôn ngữ lớn mới nhất được phát triển bởi công ty AI của Elon Musk, xAI. Được phát hành vào tháng 8 năm 2024, Grok 2.0 khả dụng cho người dùng X Premium và Premium+ trên nền tảng X (trước đây là Twitter). Ngoài ra, nó sẽ sớm khả dụng cho các nhà phát triển và doanh nghiệp thông qua một API doanh nghiệp.

Hình 3. Một ví dụ về Grok 2.0 giải thích một meme.
Grok 2.0 được xây dựng trên kiến trúc Transformer, và so với phiên bản trước, Grok 1.5, nó nhạy bén hơn trong việc tuân theo các chỉ dẫn, lập luận qua các vấn đề và cung cấp thông tin chính xác. Chatbot này đã được kiểm thử với các model AI hàng đầu khác và cho thấy kết quả ấn tượng. Grok 2.0 vượt trội hơn các model phổ biến như GPT-4 Turbo, Claude 3.5 Sonnet và Llama 3 405B trong các bài kiểm tra liên quan đến các câu hỏi khoa học cấp độ sau đại học, kiến thức tổng quát và các bài toán phức tạp. Grok 2.0 cũng giỏi trong các tác vụ yêu cầu hiểu biết thị giác và đạt điểm cao trong suy luận toán học bằng hình ảnh và trả lời câu hỏi dựa trên tài liệu.
Link to this sectionKết nối giữa Grok 2.0 và FLUX.1#
FLUX.1 đã được tích hợp vào Grok 2.0 để cung cấp sự kết hợp liền mạch giữa việc tạo văn bản và hình ảnh. Mặc dù việc kết hợp các công nghệ khác nhau là phổ biến hiện nay để cải thiện chức năng và trải nghiệm người dùng, nhưng sự tích hợp cụ thể này đã nhận được rất nhiều sự chú ý.
Một mặt, việc tích hợp FLUX.1 được một số người khen ngợi vì đã thêm yếu tố "vui vẻ" vào Grok 2.0. Người dùng có thể thử nghiệm tạo ra các hình ảnh sáng tạo và đôi khi là gây sốc - những thứ vốn bị hạn chế hoặc kiểm duyệt gắt gao bởi các công cụ AI khác. Ví dụ, người dùng đã chia sẻ trên X những hình ảnh mô tả các nhân vật công chúng trong các tình huống không phù hợp hoặc gây tranh cãi, cho rằng nó hỗ trợ quan điểm về tự do ngôn luận.
Mặt khác, các nhà phê bình lập luận rằng việc FLUX.1 thiếu các hướng dẫn đạo đức rõ ràng có thể dẫn đến các vấn đề đạo đức và xã hội nghiêm trọng như thông tin sai lệch và deepfake. Một số người lo ngại rằng việc kết hợp khả năng tạo văn bản và hình ảnh mạnh mẽ, không bị kiểm duyệt trên một trong những nền tảng truyền thông xã hội có ảnh hưởng nhất có thể làm gia tăng sự lan truyền thông tin sai lệch.
Link to this sectionGrok 2.0 và cách tiếp cận không hạn chế#
Vấn đề không chỉ nằm ở việc tạo ảnh. Bản thân Grok 2.0 cũng ít bị hạn chế hơn so với các công cụ AI khác mà chúng ta đã quen thuộc gần đây, như ChatGPT. Việc thiếu kiểm duyệt này giúp model có thể vượt qua các ranh giới theo những cách mà một số người thấy thú vị và những người khác lại thấy đáng lo ngại.
Ví dụ, Grok 2.0 đã được quan sát thấy tạo ra nội dung văn bản có thể dễ dàng bị hiểu là tin giả hoặc gây hiểu lầm. Một sự cố gần đây liên quan đến việc Grok 2.0 tạo ra một câu chuyện sai sự thật về cầu thủ NBA Klay Thompson cho rằng anh ta đang trong một "cuộc phá hoại bằng gạch". Chatbot AI đã hiểu sai thuật ngữ bóng rổ "throwing bricks", vốn chỉ đơn giản là các cú ném hụt. Thay vào đó, Grok 2.0 đã hiểu theo nghĩa đen và bịa ra một câu chuyện về việc Thompson thực hiện hành vi phá hoại bằng gạch thật. Bài đăng nhanh chóng lan truyền trên X, với một số người dùng thậm chí còn thêm các tài khoản nạn nhân giả để tiếp tay cho thông tin sai lệch.

Hình 4. Bài đăng trên X được viết bởi Grok 2.
Bất chấp những lo ngại này, một số người dùng đánh giá cao lập trường "tự do ngôn luận" của Grok 2.0. Họ cho rằng nó cho phép các cuộc đối thoại mở hơn và tự do sáng tạo hơn so với các model AI được kiểm duyệt gắt gao. Họ coi Grok 2.0 là sự phản bác đối với cái mà họ coi là "AI woke", "woke" AI quá thận trọng, làm hạn chế thảo luận về các chủ đề nhạy cảm. Đối với những người dùng này, Grok 2.0 cung cấp một nền tảng cảm thấy ít bị ràng buộc bởi các quy chuẩn xã hội.
Link to this sectionHãy tự mình trải nghiệm FLUX.1 và Grok 2.0#
Có một vài tùy chọn khác nhau để thử nghiệm FLUX.1 và Grok 2.0. FLUX.1 có thể được truy cập trực tiếp thông qua các nền tảng AI như Hugging Face, Replicate và Fal.ai. Trong khi đó, Grok 2.0 chỉ khả dụng cho những người đăng ký X Premium và Premium+.
Link to this sectionCác điểm chính cần lưu ý#
FLUX.1 và Grok 2.0 đang vượt qua các ranh giới của AI và khơi dậy những cuộc trò chuyện sâu sắc. FLUX.1 đã thiết lập một tiêu chuẩn mới trong hình ảnh do AI tạo ra với khả năng tạo ra những bức tranh cực kỳ chi tiết và chân thực. Grok 2.0 đang sử dụng FLUX.1 để nâng cao khả năng của mình vượt xa các tương tác dựa trên văn bản. Một mặt, những người đam mê rất vui mừng với sự tự do sáng tạo và khám phá không kiểm duyệt mà các công cụ này mang lại. Mặt khác, các nhà phê bình đang gióng lên hồi chuông cảnh báo về rủi ro của thông tin sai lệch, deepfake và các tác động đạo đức của những khả năng không được kiểm soát như vậy trên một nền tảng có ảnh hưởng như X. Khi FLUX.1 và Grok 2.0 phát triển, chúng đứng ở trung tâm của cuộc tranh luận về tự do, sự sáng tạo và trách nhiệm trong kỷ nguyên số - một cuộc tranh luận có khả năng định hình tương lai của AI trong nhiều năm tới.
Để tìm hiểu thêm về Ultralytics, hãy xem kho lưu trữ GitHub của chúng tôi, tham gia cộng đồng của chúng tôi và khám phá các giải pháp AI mới nhất của chúng tôi trong các ngành như chăm sóc sức khỏe và sản xuất! 🚀






