你是否還在為復雜的文件和海量數據而苦惱?是否希望能夠自動從數據中挖掘出真正有價值的信息?
最近,來自人大與清華的研究團隊推出DeepAnalyze —— 你的專屬「數據科學家」。只需一個指令,它便能自動化分析你的數據、自主完成各類數據科學任務:
- 數據任務:支持自動化數據準備、數據分析、數據建模、數據可視化、數據洞察
- 數據研究:可在非結構化數據、半結構化數據、結構化數據中進行開放式深度研究,生成研究報告

DeepAnalyze是首個面向數據科學的Agentic LLM,無需任何workflow,僅憑一個LLM即可像數據科學家一樣,自主完成多種復雜的數據任務。
DeepAnalyze的論文、代碼、模型、數據均已開源,收獲1.1K+GitHub星標,歡迎大家體驗!
DeepAnalyze —— 你的專屬「數據科學家」
DeepAnalyze在環境中自主編排和優化各種操作,完成復雜的數據科學任務。
DeepAnalyze在真實環境中學習復雜任務
數據無處不在,而數據科學一直被視為人類智能的重要體現。從Kaggle比賽到日常的數據分析實踐,大量評測都在考察數據科學家在數據準備、分析、建模、可視化與洞察等方面的綜合能力。
當前的數據智能體(Data Agent)通常依賴人工設計的workflow,來驅動大模型完成特定的數據分析與可視化任務。雖然在各類單點任務上已取得了令人矚目的成果,但由于LLM的自主性仍然有限,它們距離理想的“全能自主數據科學家”依然存在明顯差距。
隨著大型語言模型智能水平的不斷提升,一個關鍵問題也愈發突出:如何讓LLM真正具備自主完成復雜數據科學任務的能力?

DeepAnalyze通過在真實環境中訓練,學會自主編排、自適應優化操作,最終完成復雜的數據科學任務。為實現此,DeepAnalyze提出課程學習式Agentic訓練范式(Curriculum-based Agentic Training ofDeepAnalyze)和面向數據的軌跡合成框架(Data-grounded Trajectory Synthesis)。
課程學習式Agentic訓練
數據科學任務本身具有高度復雜性,這讓基礎LLM在早期訓練階段往往難以順利完成任務。任務復雜性導致模型幾乎得不到正向獎勵信號(即“獎勵稀疏”問題),強化學習過程容易停滯,甚至出現訓練崩潰的情況。
為了解決這一難題,DeepAnalyze提出了「課程學習式 Agentic 訓練」。其模擬人類數據科學家的學習路徑,讓LLM在真實環境中從簡單到復雜、從單一任務到綜合任務逐步進階。通過這種漸進式訓練,模型的能力得以穩步提升,避免在復雜任務中因為“獎勵信號為零”而導致學習失敗。
訓練過程包括兩大階段:
- 單能力微調:
- 訓練LLM在代碼生成、結構化數據理解、邏輯推理等方面的基礎能力;
- 多能力Agentic訓練:
- 在真實任務環境中,讓LLM學會運用多種能力,像數據科學家一樣自主完成復雜任務。
面向數據的軌跡合成
在數據科學領域,缺乏完整的長鏈問題求解軌跡,這讓LLM在探索解題空間時缺乏有效指導,只能進行低效、盲目的“試錯式”探索,難以獲得有意義的中間監督信號。
為了解決這一難題,DeepAnalyze提出了「面向數據的軌跡合成」方法。其能夠自動合成50萬條數據科學推理與環境交互數據,為大模型在龐大的搜索空間中提供正確路徑的示范和引導。
數據合成包含兩個關鍵部分:
- 推理軌跡合成:
- 基于現有的 TableQA、結構化知識理解、數據科學代碼生成任務,構建帶有完整推理路徑的訓練數據;
- 交互軌跡合成:
- 構建多智能體系統,從結構化數據源(如Spider和BIRD)中自動合成數據科學交互軌跡,提供和真實環境的交互軌跡。
DeepAnalyze支持面向數據的深度研究
DeepAnalyze支持面向數據的深度研究,能夠自動生成具備分析師水準的研究報告。
在數據研究報告生成任務中,無論是內容深度還是報告結構,DeepAnalyze的表現都顯著優于現有的閉源LLM。