近日,中國科學院合肥物質院智能所謝成軍研究員與張潔副研究員團隊的三項科研成果被計算機視覺領域頂級會議CVPR?2026接收。其中,面向高分辨率視覺語言理解的研究成果被主會接收并被推薦為Highlights論文,面向遙感全色銳化的研究成果被主會接收,面向農業害蟲細粒度識別的多模態研究成果被CVPR?2026?Findings接收。第一作者分別為碩士研究生胡濤、曹可、李薛恒。
在高分辨率視覺語言理解的研究成果方面,研究團隊提出了一種創新的高分辨率Agentic搜索推理框架SenseSearch。該方法在推理過程中統一集成了文本搜索、圖像搜索與圖像裁剪三類工具,使模型能夠圍繞問題進行多輪規劃、主動檢索外部知識,并聚焦圖像中的關鍵局部區域,從而提升對復雜視覺場景的理解能力。與此同時,進一步提出了BN-GSPO強化學習算法,以增強多工具調用過程中的訓練穩定性與推理魯棒性;并構建了首個面向高分辨率、知識密集型、搜索驅動任務的基準 HR-MMSearch,用于系統評估模型的搜索推理與細粒度視覺分析能力。實驗結果表明,SenseSearch在多項開放式搜索與高分辨率視覺理解基準上取得了領先性能:在HR-MMSearch上相較基線提升19.18%,為構建更強的Agentic視覺語言模型提供了一條有效路徑。
在面向遙感全色銳化方面,研究團隊提出了一種跨尺度全色銳化框架ScaleFormer,并構建了首個面向跨尺度全色銳化任務的大規模數據集PanScale及評測基準PanScale-Bench。該方法將跨分辨率泛化問題重新建模為跨序列長度泛化,通過尺度感知分塊和空間-序列解耦建模等關鍵設計,使模型能夠在不同尺度輸入下更穩定地完成空間細節注入與光譜信息保持。同時,相較于現有方法,該框架在處理大尺度圖像時還具備更好的計算效率,能夠有效緩解高分辨率推理中的計算與存儲壓力。實驗結果表明,ScaleFormer在多個跨尺度遙感圖像數據集上均取得了優于現有主流方法的性能表現,為遙感圖像融合從固定分辨率訓練走向面向真實場景的跨尺度泛化提供了新的研究思路。
在農業害蟲細粒度識別方面,研究團隊提出了一種創新的多模態害蟲學習框架PestVL-Net。該框架在視覺端引入RWKV架構與顯著性引導的自適應窗口劃分機制,以精準捕捉害蟲的細粒度外觀特征;在語言端則結合農業專家知識與多模態思維鏈(CoT)推理,引導大語言模型(MLLM)生成準確的文本語義描述。通過視覺與文本表征的深度融合,PestVL-Net有效克服了復雜害蟲特征的識別難題。在Li dataset及兩個全新構建的多物種數據集(QianFSD和AgriInsect)上,該模型分別取得了88.49%、86.72%和90.15%的最佳準確率,顯著超越現有基線模型,為現實農業中的精準害蟲管理提供了可靠的新方案。
上述研究工作得到了國家自然科金、安徽省自然科學基金、中央引導地方科技發展基金的支持。
據悉,CVPR?由IEEE(電氣電子工程師學會)和CVF(計算機視覺基金會)共同主辦,是中國計算機學會(CCF)推薦的A類國際學術會議。本屆CVPR?共收到投稿16092篇,經過全面嚴格的審查程序,最終錄用4090篇,錄取率約為25.42%。
論文鏈接:https://arxiv.org/abs/2512.24330
論文鏈接:https://arxiv.org/abs/2603.0054
論文鏈接:https://arxiv.org/abs/2604.17278

?圖1 SenseSearch訓練框架

圖2 SenseSearch智能體推理軌跡

????????圖3 PanScale數據集

圖4 ScaleFormer網絡架構

圖5 PestVL-Net網絡架構

圖6 PestVL-Net害蟲語義生成