人類能通過視覺線索輕松完成購物找零等日常推理,但現有AI模型在類似任務中表現欠佳。浙江大學的研究團隊將小學數學題轉化為多圖視覺基準,評估模型能否「看懂」數學,揭示其跨場景推理短板,為下一代通用智能模型發展提供方向。
「小明買了3個蘋果,每個5元,他付了20元,應該找回多少錢?」
這是典型的小學數學應用題。但在日常生活中,我們更常遇到的是它的視覺版本:看到貨架上的蘋果標價牌,數出購物籃里的蘋果數量,估算總價,再從收銀員手中接過找零,快速判斷對不對。
這個過程幾乎不需要語言,而是依靠視覺線索完成推理:看到、比較、計算、驗證。
語言讓我們能以符號方式進行邏輯、推理與知識的傳遞,但人類真正的理解往往并不止于語言。
人類更擅長通過視覺去「看見」數量、空間與比例,以具象的方式形成抽象的邏輯。

正是在這一理念啟發下,研究團隊提出了一個關鍵問題:
「能否將自然語言表述的數學應用題轉化為純視覺形式的多圖像問題,從而更真實地評估視覺語言模型(VLMs)的數學推理能力?」
視覺語言模型(VLMs)在圖像與文本的聯合建模上取得了顯著進展,其在視覺問答、多模態理解等任務中表現優異。
但當把數學推理引入視覺場景時,現有模型仍面臨明顯瓶頸,且現有視覺數學基準存在以下局限:
-
當前視覺數學基準大多聚焦在幾何題,任務范圍過窄,無法覆蓋實際應用題情形。
-
幾乎沒有對數學應用題的視覺化評估,因此無法衡量模型在真實數學理解任務中的能力。
-
很少涉及多圖像跨場景推理,這使得難以檢驗模型跨場景關聯能力。
在文本數學基準GSM8K上,許多模型的準確率已輕松突破 90%,甚至達到或超越人類水平;
然而,當題目被轉化為視覺形式后,研究團隊發現:多數頂級模型瞬間腰斬,與人類水平存在顯著差距。
面對這些問題,浙江大學的研究團隊提出了GSM8K-V——將廣泛使用的數學基準GSM8K系統性地映射為其視覺對應版本,構建出一個跨場景、多圖像的視覺數學推理基準。該基準旨在檢驗模型是否真正能「看得懂」數學,而不僅僅是「讀得懂」文字。
