>  > 

评估大模型不看输出看「内在」,上交大新测试指标入选NeurIPS 2024