
為什麼AI既「看圖」又能「閱讀」?這是視覺語言模型VLM的作用。VLM由視覺編碼器和語言編碼器組成,用於同時處理和理解圖像及文本輸入,當中結合「感知」與「推理」。VLM可根據自然語言查詢,在大型圖庫或視頻資料庫中快速定位內容,亦可生成詳細圖像字幕或描述、整合並理解來自圖像與視頻的視覺資訊。ChatGPT 4o、Gemini、DeepSeek-VL2便應用該模型。此外,電商平台的看圖識物以助使用者迅速找到所需商品,亦屬VLM的應用。
VLM使機械人具備從自然語言輸入到語義解析、任務分解與執行指令生成的能力,可應用於執行家務、自動分揀、協作搬運、機械人間語言協同、精密裝配及人機協同製造環境。