“หุ่นยนต์นำทางอัจฉริยะ”
นวัตกรรมโดย Google ฝึกจากโมเดลภาษาขนาดใหญ่อย่าง Gemini
1.5 Pro ตอบสนองความต้องการของมนุษย์อย่างเป็นธรรมชาติยิ่งขึ้น
Google
เปิดตัว “หุ่นยนต์นำทางอัจฉริยะ” ใช้ในสำนักงาน
ซึ่งพัฒนาโดยทีมวิจัยปัญญาประดิษฐ์ DeepMind หุ่นยนต์ได้รับการฝึกฝนด้วย
Gemini 1.5 Pro โมเดลภาษาขนาดใหญ่
ทำให้มีความสามารถในการเรียนรู้สภาพแวดล้อม เข้าใจภาษาธรรมชาติ
และปฏิบัติตามคำสั่งได้อย่างหลากหลาย
จากวิดีโอสาธิต
พนักงาน Google
สั่งการหุ่นยนต์ด้วยการพูดหรือวาดรูปบนกระดานไวท์บอร์ด
หุ่นยนต์ก็สามารถนำทางไปยังจุดต่างๆ ในสำนักงานได้อย่างแม่นยำ ตัวอย่างเช่น
เมื่อพนักงานขอให้หุ่นยนต์พาไปยังสถานที่สำหรับวาดรูป
หุ่นยนต์จะตอบรับและใช้เวลาคิดสักครู่ก่อนนำทางไปยังกระดานไวท์บอร์ดขนาดใหญ่
นอกจากนี้
หุ่นยนต์ยังสามารถอ่านและทำความเข้าใจแผนที่อย่างง่ายได้ด้วย ในอีกตัวอย่างหนึ่ง
เมื่อพนักงานสั่งให้หุ่นยนต์ปฏิบัติตามคำแนะนำบนกระดานไวท์บอร์ด
ซึ่งมีแผนที่แสดงเส้นทางไปยัง “พื้นที่สีน้ำเงิน”
หุ่นยนต์สามารถวิเคราะห์และเลือกเส้นทางที่เหมาะสมไปยังพื้นที่ทดสอบหุ่นยนต์ได้อย่างถูกต้อง
ความสามารถเหล่านี้เกิดจากกระบวนการฝึกฝนที่เรียกว่า
“Multimodal
Instruction Navigation with demonstration Tours (MINT)” ซึ่งทำให้หุ่นยนต์คุ้นเคยกับสภาพแวดล้อมโดยการเดินสำรวจรอบสำนักงานพร้อมรับฟังคำอธิบายจากมนุษย์
ร่วมกับเทคนิค Hierarchical Vision-Language-Action (VLA) ที่ช่วยเพิ่มความเข้าใจสภาพแวดล้อมและความสามารถในการให้เหตุผลแบบสามัญสำนึก
ผลการทดสอบเบื้องต้นแสดงให้เห็นว่าหุ่นยนต์นำทางนี้มีอัตราความสำเร็จสูงถึง
90% จากการโต้ตอบกับพนักงานมากกว่า 50 ครั้ง
งานวิจัยยังได้รับการตีพิมพ์ภายใต้หัวข้อ
Mobility
VLA: Multimodal Instruction Navigation with Long-Context VLMs and Topological
Graphs ซึ่งแสดงให้เห็นถึงศักยภาพของ Generative AI ในการพัฒนาหุ่นยนต์ให้ฉลาดและใช้งานง่ายยิ่งขึ้น
เปิดโอกาสให้สามารถนำไปประยุกต์ใช้ได้หลากหลายสถานการณ์ ไม่ว่าจะเป็นในสำนักงาน
โรงพยาบาล หรือสถานที่สาธารณะอื่นๆ
นวัตกรรมนี้นับเป็นก้าวสำคัญของ
Google
ในการผสานโมเดลภาษาขนาดใหญ่เข้ากับหุ่นยนต์
เพื่อสร้างผู้ช่วยอัจฉริยะที่สามารถเข้าใจและตอบสนองความต้องการของมนุษย์ได้อย่างเป็นธรรมชาติมากยิ่งขึ้น
ที่มา
:
กรุงเทพธุรกิจ
วันที่
19 กรกฎาคม 2567