Nội dung bài viết
Mới đây Google đã giới thiệu thêm một model AI khác có thể tự tạo ra vô số video game dạng 2D. Genie AI đang được quảng cáo là một model được training với các dữ liệu về video game. Nó sử dụng thuật phân tích dự đoán để tạo ra các level của một tựa game và cũng có thể tự mình điều khiển một nhân vật trong game, cũng như xác định chuyển động của nhân vật đó.
Cũng vào đầu tháng này OpenAI cũng đã giới thiệu một model AI có tên Sora, có thể tạo ra các video siêu thực có thời lượng lên đến một phút.
Sơ lược về Genie
AI Genie là một model trí tuệ nhân tạo (AI) được phát triển bởi nhóm Open-Endedness thuộc công ty Google DeepMind. Dự án nghiên cứu này hứa hẹn tiềm năng to lớn cho tương lai của ngành giải trí, phát triển trò chơi và thậm chí cả lĩnh vực robot 1.
Genie được training độc quyền trên bộ dữ liệu khổng lồ gồm 200.000 giờ video, chủ yếu là các trò chơi nền tảng 2D xuất hiện trên internet. Nó có khả năng tạo ra vô số thế giới 2D có thể điều khiển được chỉ với lời nhắc bằng hình ảnh.
Genie có thể tự tạo ra các video game duy nhất và hiện vẫn chưa được mở cửa để mọi người sử dụng, chỉ tồn tại dưới dạng một model đang được nghiên cứu 1.
Nguyên tắc hoạt động của Genie AI
Bộ mã hóa video (Video Tokenizer): Hãy tưởng tượng Genie như một đầu bếp lành nghề đang chuẩn bị một món ăn phức tạp. Giống như cách đầu bếp phân tách nguyên liệu thành các phần nhỏ hơn để dễ dàng thao tác, công đoạn Token hóa Video xử lý khối dữ liệu video khổng lồ thành các đơn vị nhỏ gọn được gọi là “token”. Các token này đóng vai trò như những khối xây dựng cơ bản giúp Genie hiểu thế giới hình ảnh.
Model động lực học (autoregressive dynamics): Quá trình của Mô hình Động lực học – quá trình kết hợp mọi thứ lại với nhau. Tương tự như cách một đầu bếp dự đoán hương vị sẽ tương tác dựa trên các nguyên liệu được chọn, mô hình này dự đoán khung hình tiếp theo trong chuỗi video. Nó tính đến trạng thái hiện tại của thế giới trò chơi, bao gồm hành động của người chơi và tạo ra kết quả hình ảnh tiếp theo cho phù hợp. Quá trình dự đoán liên tục này cuối cùng tạo ra một trải nghiệm chơi game tương tác và hấp dẫn.
Model hành động tiềm tàng (latent action model): sau khi “chặt nhỏ” dữ liệu video thành các token, Mô hình Hành động Latent sẽ đảm nhận quá trình tiếp theo. Giống như một chuyên gia ẩm thực dày dạn kinh nghiệm, nó tỉ mỉ phân tích sự chuyển đổi giữa các khung hình liên tiếp trong video. Quá trình phân tích này cho phép nó xác định tám hành động cơ bản – “gia vị” thiết yếu của Genie. Các hành động này có thể bao gồm nhảy, chạy, tương tác với các vật thể trong môi trường trò chơi.
Google còn tuyên bố là : Genie AI mang tính tổng quát và không bị giới hạn ở 2D. Chúng tôi cũng training Genie trên các data về robotic (RT-1) mà không cần dựa vào các hành động, qua đó chứng minh rằng chúng tôi cũng có thể học một trình mô phỏng mà có thể điều khiển được. Chúng tôi nghĩ rằng đây là một bước tiến đầy hứa hẹn hướng tới các model chung về AGI trên thế giới.”
Genie AI là một bước tiến đáng chú ý trong việc sáng tạo nội dung và trải nghiệm giải trí mới. Tuy vậy hiện tại, Genie vẫn đang trong quá trình phát triển và vẫn còn nhiều giới hạn. Chúng ta hãy cùng chờ đón nó trong tương lai nhé!