(VTC News) -

Các nhà nghiên cứu đang nỗ lực thiết kế robot hình người chân thực hơn bằng cách khớp chuyển động môi của robot với giọng nói.

Khuôn mặt robot biết nhép miệng được phát triển tại Đại học Columbia (Mỹ). (Ảnh: Cnet)

Hod Lipson, giáo sư kỹ thuật của Đại học Columbia (Mỹ), cho biết một lý do chính khiến robot "kỳ lạ" là chúng không cử động môi giống chúng ta khi nói chuyện. "Chúng tôi đang hướng tới việc giải quyết vấn đề này, vốn đã bị bỏ quên trong ngành robot học", ông nói.

Tuần trước, nhóm nghiên cứu của Hod Lipson công bố nghiên cứu đi sâu vào cách một thế hệ robot mới có thể nói chuyện thực tế hơn, trong bối cảnh sự quan tâm đang tăng cao đối với các robot được thiết kế để sử dụng tại nhà và nơi làm việc.

Hội chợ Điện tử tiêu dùng (CES) 2026 chứng kiến ​​một loạt robot được thiết kế để tương tác với con người.

Điểm nhấn chính trong số đó là các robot hình người với thân hình, khuôn mặt và làn da tổng hợp bắt chước da của chúng ta. Chẳng hạn, Realbotix giới thiệu robot phục vụ quầy thông tin hoặc hỗ trợ cảm xúc, trong khi Lovense trưng bày robot cho các mối quan hệ, tích hợp AI có khả năng ghi nhớ những cuộc trò chuyện thân mật.

Robot nam mới của công ty Realbotix có tên là David tại sự kiện CES 2026. (Ảnh: Cnet)

Tuy nhiên, chỉ một sai lệch rất nhỏ giữa cử động môi và lời nói cũng đủ tạo ranh giới giữa một cỗ máy có thể gợi cảm xúc và một hình nộm gây bất an. Vì vậy, nếu robot hình người xuất hiện trong đời sống hàng ngày, chúng cần giao tiếp tự nhiên hơn để tránh tạo cảm giác khó chịu cho con người.

Robot khớp môi

Để tạo ra robot có khuôn mặt người và nói chuyện giống chúng ta, môi của robot phải được đồng bộ hóa cẩn thận với âm thanh lời nói của nó. Nhóm nghiên cứu của Đại học Columbia phát triển một kỹ thuật giúp miệng robot chuyển động giống như miệng người bằng cách tập trung vào cách phát âm của ngôn ngữ.

Đầu tiên, nhóm chế tạo một khuôn mặt robot với miệng có thể nói chuyện và hát theo cách giảm thiểu hiệu ứng “thung lũng kỳ lạ” - thuật ngữ chỉ cảm giác giả tạo khi tiếp xúc với robot hình người.

Khuôn mặt robot, được làm bằng da silicon, có các đầu nối nam châm để thực hiện các chuyển động môi phức tạp. Điều này cho phép khuôn mặt tạo ra các hình dạng môi bao phủ 24 phụ âm và 16 nguyên âm.

Để khớp các chuyển động môi với lời nói, họ thiết kế một "quy trình học tập" thu thập dữ liệu hình ảnh từ các chuyển động môi. Mô hình AI sử dụng dữ liệu này để huấn luyện, sau đó tạo ra các điểm tham chiếu cho các lệnh vận động. Tiếp theo, một "bộ chuyển đổi hành động khuôn mặt" biến các lệnh vận động thành chuyển động miệng đồng bộ với âm thanh.

Trên khung lý thuyết này, robot có tên Emo ra đời và có thể "nói" nhiều thứ tiếng, bao gồm cả những ngôn ngữ không nằm trong quá trình huấn luyện, chẳng hạn như tiếng Pháp, tiếng Trung và tiếng Ả Rập. Điểm mấu chốt là khung lý thuyết này phân tích âm thanh của ngôn ngữ, chứ không phải ý nghĩa đằng sau âm thanh đó.

"Chúng tôi đã tránh được vấn đề đặc thù của từng ngôn ngữ bằng cách huấn luyện một mô hình chuyển đổi trực tiếp từ âm thanh sang chuyển động môi", Lipson nói.

Tại sao robot lại cần khuôn mặt và môi?

Con người đã làm việc cùng robot từ lâu nhưng chỉ là cỗ máy đúng nghĩa chứ không phải con người. Những cánh tay robot không có thân thể và trông rất máy móc trên dây chuyền lắp ráp hoặc chiếc đĩa cồng kềnh là robot hút bụi di chuyển quanh sàn nhà bếp của chúng ta.

Tuy nhiên, khi các mô hình ngôn ngữ AI đằng sau chatbot trở nên phổ biến hơn, các công ty công nghệ đang nỗ lực dạy robot cách giao tiếp với chúng ta bằng ngôn ngữ trong thời gian thực.

Lovense đã ra mắt một robot có kích thước người thật với tên gọi Emily tại CES 2026. (Ảnh: Cnet)

Có cả một lĩnh vực nghiên cứu gọi là tương tác người - robot, nghiên cứu cách robot nên cùng tồn tại với con người, cả về mặt vật lý và xã hội. Năm 2024, một nghiên cứu ở Berlin (Đức) với 157 người tham gia cho thấy khả năng thể hiện sự đồng cảm và cảm xúc thông qua giao tiếp bằng lời nói của robot là rất quan trọng để tương tác hiệu quả với con người.

Nghiên cứu khác năm 2024 ở Italia cho thấy rằng việc nói chuyện chủ động rất quan trọng cho sự hợp tác giữa con người và robot khi thực hiện các nhiệm vụ phức tạp như lắp ráp.

Khi robot ngày càng hiện diện trong gia đình và nơi làm việc, khả năng giao tiếp tự nhiên như giữa con người với nhau trở thành yêu cầu thiết yếu. Theo Hod Lipson, nghiên cứu về đồng bộ hóa cử động môi sẽ có giá trị với mọi robot hình người cần tương tác với con người.

Ông cho biết thêm, dù robot tương lai có thể giống con người gần như hoàn toàn, việc thiết kế cẩn thận - như quy định robot phải có đôi mắt màu xanh lam - sẽ giúp người dùng nhận biết rõ họ đang giao tiếp với máy móc, không phải người thật.