話你知/視覺語言模型讓機械人看圖識字

要聞 2025.10.14 04:18:35

為什麼AI既「看圖」又能「閱讀」？這是視覺語言模型VLM的作用。VLM由視覺編碼器和語言編碼器組成，用於同時處理和理解圖像及文本輸入，當中結合「感知」與「推理」。VLM可根據自然語言查詢，在大型圖庫或視頻資料庫中快速定位內容，亦可生成詳細圖像字幕或描述、整合並理解來自圖像與視頻的視覺資訊。ChatGPT 4o、Gemini、DeepSeek-VL2便應用該模型。此外，電商平台的看圖識物以助使用者迅速找到所需商品，亦屬VLM的應用。

VLM使機械人具備從自然語言輸入到語義解析、任務分解與執行指令生成的能力，可應用於執行家務、自動分揀、協作搬運、機械人間語言協同、精密裝配及人機協同製造環境。