Trong thế giới robot hình người, khả năng di chuyển hay cầm nắm vật thể đã tiến những bước dài. Tuy nhiên, sự thiếu hụt các biểu cảm khuôn mặt tinh tế và sự lệch tông trong cử động môi khi nói chuyện vẫn là rào cản lớn nhất khiến robot trông "giả tạo".
Để giải quyết vấn đề này, các nhà nghiên cứu tại Đại học Columbia (Mỹ) công bố phương pháp đột phá trên tạp chí Science, cho phép robot tự học cách giao tiếp như con người thực thụ.

Robot hình người của Đại học Columbia học cách mô phỏng biểu cảm và cử động môi qua video Youtube. (Nguồn: Columbia University)
Nhóm nghiên cứu chế tạo nguyên mẫu robot hình người sở hữu hệ thống cơ mặt phức tạp với 26 động cơ độc lập.
Để robot có thể làm chủ hệ thống này, các nhà khoa học không lập trình từng dòng code cho mỗi cử động. Thay vào đó, họ sử dụng mô hình ngôn ngữ Vision-to-Action (VLA), dạng trí tuệ nhân tạo (AI) cho phép chuyển đổi những gì robot nhìn thấy thành hành động thực tế.
Quy trình học tập của robot được chia làm hai giai đoạn then chốt. Đầu tiên, hệ thống tự quan sát hình ảnh phản chiếu qua gương để thiết lập bản đồ vận động của 26 động cơ mặt.
Sau đó, AI phân tích hàng nghìn giờ dữ liệu video trên YouTube để học cách phối hợp các cử chỉ phát âm và biểu cảm thực tế. Kết quả cho robot khả năng đồng bộ hóa chuyển động môi hoàn hảo với đa dạng ngôn ngữ.
Bước tiến này giúp robot vượt qua rào cản về sự thiếu tự nhiên trong chuyển động (Uncanny Valley), hiện tượng vốn thường gây cảm giác không thoải mái cho người đối diện khi tương tác với các thực thể nhân tạo có độ mô phỏng chưa hoàn thiện.
Sự đột phá không chỉ nằm ở phần cứng mà còn ở cách nó tương tác với các mô hình ngôn ngữ lớn (LLM).
Yuhang Hu, trưởng nhóm nghiên cứu, nhận định: "Khi khả năng đồng bộ môi được kết hợp với các AI đàm thoại như ChatGPT hay Gemini, mối liên kết giữa robot và con người sẽ đạt đến một chiều sâu hoàn toàn mới".
Ông Hu nói thêm: "Robot càng quan sát con người nhiều, nó càng giỏi trong việc bắt chước những cử chỉ tinh tế nhất, giúp chúng ta kết nối cảm xúc một cách tự nhiên".
Dù vẫn còn một số thách thức kỹ thuật nhỏ, như việc robot gặp khó khăn khi phát các âm cần sự phối hợp môi phức tạp (ví dụ âm "B" hoặc "W"), nhưng độ chính xác tổng thể đã đủ để gây kinh ngạc cho giới chuyên môn.

Các phương pháp huấn luyện khác nhau giúp robot hình người mô phỏng biểu cảm tự nhiên, tiến gần hơn tới khả năng giao tiếp giống con người. (Nguồn: Columbia University)
Giáo sư Hod Lipson, Giám đốc Phòng thí nghiệm Máy móc Sáng tạo của Columbia, tin rằng biểu cảm khuôn mặt là chìa khóa để robot tiến vào các lĩnh vực đời sống như giáo dục, y tế và chăm sóc người cao tuổi.
"Sẽ không có tương lai nào mà robot hình người lại thiếu đi khuôn mặt. Chúng cần phải cử động mắt và môi một cách chính xác, nếu không chúng sẽ mãi mãi chỉ là những cỗ máy kỳ dị", ông Lipson nhấn mạnh.
Nghiên cứu cho thấy hướng đi mới rằng thị trường robot không chỉ tập trung vào sức mạnh cơ bắp hay kỹ năng võ thuật, mà còn chú trọng vào "trí tuệ cảm xúc" và khả năng giao tiếp phi ngôn ngữ.
Tuy nhiên, các nhà khoa học cảnh báo về sự thận trọng cần thiết, bởi ranh giới giữa trợ lý robot thân thiện và một thực thể mô phỏng con người quá mức vẫn đang là chủ đề gây tranh luận về mặt đạo đức và tâm lý xã hội.





Bình luận