「世界开源新王」Reflection 70B,才坐上王座没几天就被打假,跌落神坛了!甚至有人质疑,它莫不是套壳的 Sonnet 3.5?发布者 Matt Shumer 和 Sahil Chaudhary 经过一番挣扎,已经光速「滑跪」,po 出的复盘长文也是亮点满满。
用Meta的开源Llama 3.1-70B,团队微调出了Reflection 70B。它的基准测试结果惊人,可以和Claude 3.5 Sonnet以及GPT-4这类顶级闭源模型一较高下,直接登顶「世界开源新王」!
上周中秋节就没有更新,想着都放假也没啥人看,自己顺便休息一下,把两周内容都放一起了。上周精选 Open AI 发布 o1 推理模型[2]这两周最大的新闻就是 OpenAI o1 ...
这个模型横扫了 MMLU、MATH、IFEval、GSM8K ... 3. 那些尝试了 Playground 并拥有早期访问权限的用户获得了与托管 API 截然不同的体验,我们需要弄清楚 ...