Image Credits: MIT
Phần lớn các bài viết về robot hình người tập trung vào thiết kế phần cứng. Với tần suất các nhà phát triển sử dụng cụm từ “robot hình người đa dụng,” cần chú ý hơn đến phần đầu tiên. Sau nhiều thập kỷ phát triển các hệ thống chuyên dụng, bước chuyển sang các hệ thống tổng quát hơn sẽ là một bước nhảy lớn. Chúng ta vẫn chưa đạt đến đó.
Nỗ lực tạo ra một trí tuệ robot có thể tận dụng toàn bộ các chuyển động phức tạp mà thiết kế hình người mang lại đã là một chủ đề quan trọng cho các nhà nghiên cứu. Việc sử dụng trí tuệ tạo sinh (Generative AI) trong lĩnh vực robot cũng đã trở thành một đề tài nóng bỏng gần đây. Nghiên cứu mới từ MIT cho thấy cách thức mà yếu tố sau có thể ảnh hưởng sâu sắc đến yếu tố trước.
Một trong những thách thức lớn nhất trên con đường đến các hệ thống đa dụng là việc huấn luyện. Chúng ta có hiểu biết vững chắc về các phương pháp tốt nhất để huấn luyện con người thực hiện các công việc khác nhau. Các phương pháp tiếp cận đối với robot, dù hứa hẹn, vẫn còn phân mảnh. Có nhiều phương pháp triển vọng như học củng cố (reinforcement learning) và học bắt chước (imitation learning), nhưng các giải pháp tương lai có thể sẽ liên quan đến sự kết hợp của những phương pháp này, được bổ sung bởi các mô hình trí tuệ tạo sinh.
Một trong những trường hợp sử dụng chính mà nhóm MIT đề xuất là khả năng tổng hợp thông tin liên quan từ các tập dữ liệu nhỏ, đặc thù công việc. Phương pháp này được gọi là composition policy (PoCo). Các nhiệm vụ bao gồm các hành động hữu ích của robot như đóng đinh và lật đồ bằng spatula.
“[Các nhà nghiên cứu] huấn luyện một mô hình khuếch tán riêng biệt để học một chiến lược, hay chính sách, để hoàn thành một nhiệm vụ bằng cách sử dụng một tập dữ liệu cụ thể,” MIT cho biết. “Sau đó, họ kết hợp các chính sách đã học được bởi các mô hình khuếch tán thành một chính sách chung cho phép robot thực hiện nhiều nhiệm vụ trong các bối cảnh khác nhau.”
Theo MIT, việc tích hợp các mô hình khuếch tán cải thiện hiệu suất nhiệm vụ lên 20%. Điều này bao gồm khả năng thực hiện các nhiệm vụ đòi hỏi nhiều công cụ, cũng như học hỏi/thích nghi với các nhiệm vụ chưa quen thuộc. Hệ thống này có thể kết hợp thông tin liên quan từ các tập dữ liệu khác nhau thành một chuỗi hành động cần thiết để thực hiện một nhiệm vụ.
“Một trong những lợi ích của phương pháp này là chúng tôi có thể kết hợp các chính sách để đạt được những điểm mạnh của cả hai thế giới,” tác giả chính của bài báo, Lirui Wang, cho biết. “Ví dụ, một chính sách được huấn luyện trên dữ liệu thực tế có thể đạt được sự khéo léo hơn, trong khi một chính sách được huấn luyện trên mô phỏng có thể đạt được sự tổng quát hóa hơn.”
Mục tiêu của công việc cụ thể này là tạo ra các hệ thống trí tuệ cho phép robot hoán đổi các công cụ khác nhau để thực hiện các nhiệm vụ khác nhau. Sự lan rộng của các hệ thống đa dụng sẽ đưa ngành công nghiệp tiến một bước gần hơn đến giấc mơ mục đích chung.