在论文中,苹果的研究者发现,只要稍稍更改现有测试集里的数字或词,大语言模型的正确率就会显著下降。如果再加上一些新信息,比如多增加一个条件(把小明花100买苹果,拆成花100买苹果和梨),模型的性能则下降地更为明显。
作者:被删还记得当年刚来文档的时候,有人问我要不要接卡顿,又有人跟我说别接啊很难的这个,页面都卡没了不好定位。去年机缘巧合,卡顿这个事情又到我头上了,同事调侃说性能这个事情接手的都跑路了。但问题不大,咱没事不惹事,来事不怕事,遇事能抗事,是只顶顶好的 ...