10 月 29 日消息,蘋果公司發布了 Pico-Banana-400K,這是一個包含 40 萬張圖像的研究數據集,有趣的是,該數據集是利用谷歌的 Gemini-2.5 模型構建的。
據IT之家了解,蘋果的這個研究成果名為《Pico-Banana-400K:面向文本引導圖像編輯的大規模數據集》(Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing),該公司還發布了由此生成的包含 40 萬張圖像的完整數據集。該數據集采用非商業性研究許可(non-commercial research license)發布,意味著研究人員和學術機構可自由使用,但不得用于商業用途。
數月前,谷歌推出了 Gemini 2.5-Flash-Image 模型,也被稱為 Nanon-Banana,該模型在圖像編輯任務中表現出色,被廣泛認為是當前最先進的圖像編輯模型之一。盡管近年來多個模型在圖像生成與編輯方面取得顯著進展,蘋果的研究團隊指出:“盡管技術不斷進步,開放研究仍受限于缺乏大規模、高質量且可完全共享的圖像編輯數據集?,F有數據集往往依賴專有模型生成的合成數據,或僅包含有限的人工篩選子集。此外,這些數據集普遍存在領域偏移(domain shifts)、編輯類型分布不均以及質量控制不一致等問題,嚴重阻礙了魯棒圖像編輯模型的發展。”
為解決這一瓶頸,蘋果團隊著手構建一個更全面、更具代表性的圖像編輯數據集。
Pico-Banana-400K 的構建過程
研究團隊首先從 OpenImages 數據集中選取了大量真實照片,確保涵蓋人物、物體及含文字場景等多樣化內容。

然后,團隊設計了 35 種不同類型的圖像修改指令,并將其歸入八大類別,包括:
- 像素與光度調整(Pixel & Photometric):如添加膠片顆粒或復古濾鏡;
- 以人為中心的編輯(Human-Centric):例如將人物轉換為 Funko-Pop 風格的玩具形象;
- 場景構成與多主體編輯(Scene Composition & Multi-Subject):如改變天氣條件(晴天 / 雨天 / 雪天);
- 對象級語義修改(Object-Level Semantic):如移動物體位置或調整空間關系;
- 圖像縮放(Scale):如放大畫面(Zoom in)等。
接下來,研究人員會將一張原始圖像連同一條編輯指令輸入至 Nanon-Banana 模型進行圖像編輯。生成結果隨后交由 Gemini 2.5-Pro 模型進行自動評估,判斷其是否準確遵循指令并具備良好視覺質量。只有通過雙重驗證的結果才會被納入最終數據集。