Math Playground - 搜索 News

15 小时

「世界开源新王」Reflection 70B，才坐上王座没几天就被打假，跌落神坛了！甚至有人质疑，它莫不是套壳的 Sonnet 3.5？发布者 Matt Shumer 和 Sahil Chaudhary 经过一番挣扎，已经光速「滑跪」，po 出的复盘长文也是亮点满满。

18 小时

用Meta的开源Llama 3.1-70B，团队微调出了Reflection 70B。它的基准测试结果惊人，可以和Claude 3.5 Sonnet以及GPT-4这类顶级闭源模型一较高下，直接登顶「世界开源新王」！

15 天

上周中秋节就没有更新，想着都放假也没啥人看，自己顺便休息一下，把两周内容都放一起了。上周精选 Open AI 发布 o1 推理模型[2]这两周最大的新闻就是 OpenAI o1 ...

这个模型横扫了 MMLU、MATH、IFEval、GSM8K ... 3. 那些尝试了 Playground 并拥有早期访问权限的用户获得了与托管 API 截然不同的体验，我们需要弄清楚 ...

一些您可能无法访问的结果已被隐去。