梦晨 发自 凹非寺量子位 | 公众号 QbitAI 测评大模型Agent能力,从未如此直观。 新旧两版Claude 3.5 Sonnet在《我的世界》里PK盖楼,差距不要太明显,引来大量围观。 如果让AI不断迭代,甚至能盖出一片建筑群。