第三方报告-gpt-4o-2024-11-20弱于2024-08-06

zhoutiancai 发表于昨天 08:23

<div class="quote"><blockquote>https://x.com/ArtificialAnlys/status/1859614633654616310</blockquote></div> 
 
<div class="quote"><blockquote>等等——新的 GPT-4o 是一个体积更小、智能程度更低的模型吗？ 
 
我们昨天完成了对 OpenAI 的 GPT-4o 版本的独立评估，并且测量到的评估分数始终比 8 月份发布的 GPT-4o 低得多。 
 
GPT-4o（11 月）与 GPT-4o（8 月）对比： 
➤人工分析质量指数从 77 降至 71 (now与 GPT-4o mini 相当） 
➤ GPQA Diamond 从 51% 降至 39%，MATH 从 78% 降至 69% 
➤速度从~80输出 token/s 提升至约 180 token/s 
➤价格不变 
 
我们的输出速度基准测试目前测量到 11 月 20 日模型的输出速度约为 180 个令牌/秒，而 8 月模型的输出速度约为 80 个令牌/秒。我们通常观察到 OpenAI 模型在发布当天的速度明显更快（可能是由于 OpenAI 在采用之前配置了容量），但之前没有看到 2 倍的速度差异。 
 
根据这些数据，我们得出结论，OpenAI 11 月 20 日的 GPT-4o 模型可能比 8 月发布的模型更小。 
 
鉴于 OpenAI 尚未降低 11 月 20 日版本的价格，我们建议开发人员不要在未进行仔细测试的情况下将工作负载从 8 月版本转移。</blockquote></div> 
 
OPENAI的报告是 11-20版本秒杀一切 
 
刚看了第三方的报告，比0806还要弱一些，怪不得没有涨价

01801l 发表于昨天 09:13

openai真是有毛病，从断层领先的智能，到为了省算力搞得模型越来越弱智

acm 发表于昨天 08:34

https://lmarena.ai/ 
大版本一样，为什么要降价？ 
1120前三，0806前十都进不了

zhoutiancai 发表于昨天 08:35

<div class="quote"><blockquote>我很抱歉告诉你，Sam，GPT-4o 出了点问题！从第一天开始（GPT3 在 Play 上推出时），我就一直很喜欢 GPT 模型，现在仍然如此，但有些东西不起作用，模型没有得到应有的改进，在某些情况下，它们明显变得更糟！ 
 
上述更新之后的一个最新示例是，模型应该更好地掌握上传的文件：我上传了 3 张彩票，询问它是否可以检查我的号码。该模型甚至无法识别图像中的抽奖日期等基本信息！更糟糕的是，它说它没有网络访问权限或查看图像的能力！请参见下面的一些屏幕截图，因为无法共享带有图像的聊天链接。我已经多次尝试过，但情况总是如此，模型甚至不知道自己的能力，更不用说能够完成简单的任务了。还有其他例子，但我就此打住。 
 
这不是批评，只是一些诚实的反馈！我喜欢你正在构建的东西，但我发现自己越来越多地使用其他模型，尤其是 Claude（尤其是在我从事分析数论工作时，它的准确性和卓越的编码技能）；考虑到我是如何通过你、GPT2 和 GPT3 了解 LLM 的，以及我多么支持 OpenAI 成为第一个实现 AGI 的，这有点令人难过。</blockquote></div> 
 
用GPT的降智，不能联网和识别图片，不少人都有这个现象

lewissue 发表于昨天 09:09

本帖最后由 lewissue 于 2024-11-22 09:12 编辑 
<div class="quote"><blockquote><a href="https://hostloc.com/forum.php?mod=redirect&goto=findpost&pid=16052253&ptid=1366371" target="_blank">acm 发表于 2024-11-22 08:34</a> 
https://lmarena.ai/ 
大版本一样，为什么要降价？ 
1120前三，0806前十都进不了</blockquote></div> 
 
这就是openai arena，你看这个站还有0903，不是内部渠道哪来的0903？openai搁着自卖自夸。 
而且它给的模型标的是chatgpt-4o-1120，和gpt-4o-1120都不一定是一个模型 
 
0903已成绝响，以后的4o在降本增效的哈耶克主义伟大道路上越走越远。

页: [1]

主机论坛's Archiver

第三方报告-gpt-4o-2024-11-20弱于2024-08-06