Google DeepMind vừa công bố Genie 2, mô hình AI tiên tiến có khả năng tạo ra các thế giới 3D tương tác trong thời gian thực.
Đây là một bước tiến lớn trong lĩnh vực World Models, nơi các thuật toán AI được sử dụng để mô phỏng môi trường, mở ra những khả năng ứng dụng đầy hứa hẹn trong việc phát triển AI và thiết kế sáng tạo.
Từ 2D đến 3D: Bước nhảy vọt của Genie 2
Genie 2 được phát triển dựa trên phiên bản trước đó, vốn chỉ giới hạn trong việc tạo ra các thế giới 2D. Với khả năng mới, Genie 2 không chỉ tạo ra các khung hình 3D mà còn duy trì tính nhất quán của môi trường trong khoảng thời gian dài hơn. Điều này bao gồm việc mô hình hóa các yếu tố vật lý như nước, khói và hiệu ứng động lực học. Đặc biệt, Genie 2 có thể hiển thị môi trường từ nhiều góc nhìn khác nhau, bao gồm:- Góc nhìn thứ nhất
- Góc nhìn thứ ba
- Góc nhìn isometric (từ trên xuống)
Sức mạnh và giới hạn của Genie 2
Một trong những điểm nổi bật của Genie 2 là khả năng ghi nhớ và tái hiện lại các phần của cảnh đã rời khỏi tầm nhìn của người chơi. Đây là một cải tiến lớn so với các mô hình trước đây, chẳng hạn như Oasis, vốn gặp khó khăn trong việc duy trì bố cục của các môi trường phức tạp như các cấp độ Minecraft.https://congngheviet.com/google-messages-bo-sung-cong-cu-phat-hien-lua-dao-nang-cao/
Tuy nhiên, Genie 2 cũng có giới hạn. DeepMind cho biết mô hình có thể duy trì các thế giới “nhất quán” trong tối đa 60 giây, nhưng hầu hết các ví dụ mà công ty chia sẻ chỉ kéo dài từ 10 đến 20 giây. Khi thời gian duy trì tăng lên, chất lượng hình ảnh có xu hướng giảm dần và xuất hiện các lỗi hiển thị (artifacts).
Ứng dụng hiện tại và tương lai
Hiện tại, DeepMind không có kế hoạch phát hành Genie 2 ra công chúng. Công ty xem đây như một công cụ để:- Huấn luyện và đánh giá các AI khác, bao gồm cả thuật toán SIMA của chính họ.
- Hỗ trợ nghệ sĩ và nhà thiết kế trong việc tạo nguyên mẫu và thử nghiệm ý tưởng nhanh chóng.