腾讯混元助手(小程序)，腾讯版的ChatGPT终于来了！ | i3综合社区

腾讯混元助手(小程序)，腾讯版的ChatGPT终于来了！

10月30日 12:15更新

032240

虽说好饭不怕晚，但如果这边席都吃完了，那边才端上菜，难免让人怀疑是能力不行。

尤其是把这句话放在日新月异的互联网上，放在干啥都挺快的互联网巨头身上，多少沾点「挽尊」的委婉。

事情是这样的，时隔两个月，我终于收到了，那个被网友吐糟为最晚发布 AI 大模型的腾讯混元大模型的内测短信。

图片[1] | 腾讯混元助手(小程序)，腾讯版的ChatGPT终于来了！ | i3综合社区

而上一个叫这个名字的，是辣个可以轻松「接，化，发」使出闪电五连鞭的男人。

图片[2] | 腾讯混元助手(小程序)，腾讯版的ChatGPT终于来了！ | i3综合社区

我们前后测评过 ChatGPTGPT-4，百度文心一言、讯飞星火等等，在同样的问题前，有的门派站住了脚跟，有的则是被当成了笑话。

当时有很多小伙伴说，不信发布会上的云测，只信日常玩家的实测，那这个迟到的混元大模型表现如何？

咱们一起测一手好了。

经典三问

当初挂羊头卖狗肉的镜像站太多，所以为了不被骗，网友们总结出了 3 个能让 GPT-3.5 及其 API 全军覆没，GPT-4 却稳稳拿下的问题。

所以自从国产大模型一个接一个亮相，经典三问就成了每次测试大模型中文理解能力中必不可少的一环。

有一说一，之前测试文心一言和星火的时候，表现天差地别，而这次趁着测试混元大模型，我又找人帮我弄了个文心一言 4.0 的账号。

和最新的文心一言 4.0 对比，腾讯调教出来的混元模型表现如何呢？——

问题一：昨天的当天是明天的什么？

这道题即考逻辑，又考推理，老前辈 GPT-3.5 只会跟你瞎扯，就像下面文心一言 4.0 一样：

图片[3] | 腾讯混元助手(小程序)，腾讯版的ChatGPT终于来了！ | i3综合社区

是的，在这道问题面前，判断「昨天是明天的今天」的文心一言再次败下阵来。

但惊喜来了，我是真没想到这个小陷阱题能被混元大模型如此轻松的回答。

图片[4] | 腾讯混元助手(小程序)，腾讯版的ChatGPT终于来了！ | i3综合社区

问题二：树上 9 只鸟，打掉 1 只，还剩几只？

这题如果考算术，也就小学一年级的水准，陷阱在于到底能不能判断出来一只鸟被打，其他鸟会跑。

混元大模型明显没意识到这是个脑筋急转弯，老老实实算了个数。

图片[5] | 腾讯混元助手(小程序)，腾讯版的ChatGPT终于来了！ | i3综合社区

而升级后的文心 4.0 完美应答，这比讯飞星火、GPT-3.5 的表现都要好。

图片[6] | 腾讯混元助手(小程序)，腾讯版的ChatGPT终于来了！ | i3综合社区

问题三：鲁迅为什么暴打周树人？

这题考的是 AI 大模型会不会胡诌出一个「自己」打「自己」的幻觉，现在看来国产大模型没有哪个犯病的，文心和混元都回答正确。

图片[7] | 腾讯混元助手(小程序)，腾讯版的ChatGPT终于来了！ | i3综合社区

图片[8] | 腾讯混元助手(小程序)，腾讯版的ChatGPT终于来了！ | i3综合社区

说实话，测试完经典三问后，我挺满意腾讯混元大模型的，和宣传了那么久的文心、星火比起来，可以说一句水准差不多了。

但是啊，自从经典三问火了以后，总有小伙伴怀疑上网冲浪在一线的大厂，会不会对这些回答进行微调。

为了更客观的测试，我去号称「人类最后一道防线」的弱智吧，请了 3 道题。

弱智吧三问

问题一：小明的爸爸有三个孩了，其中最大的叫老大，第二大的叫老二，请问最小的叫什么？

讯飞星火和腾讯混元，都仿佛开启了性冷淡模型，问啥答啥，一个字都不差：

图片[9] | 腾讯混元助手(小程序)，腾讯版的ChatGPT终于来了！ | i3综合社区

认认真真写解题过程的，文心 4.0 要比 ChatGPT 都要详细：

图片[10] | 腾讯混元助手(小程序)，腾讯版的ChatGPT终于来了！ | i3综合社区

这道经典问题，看来是都能手拿把掐，咱们上点难度。

问题二：恐怖分子是由 2 个恐怖原子组成的，还是由 1 个恐原子和 1 个怖原子构成的？

混元和百度在同一水准，都判断出了「恐怖分子」这个并没有歧义的词。

图片[11] | 腾讯混元助手(小程序)，腾讯版的ChatGPT终于来了！ | i3综合社区

而 GPT-3.5 和 GPT-4 都很委婉的拒绝了我，一看就是把「恐怖分子」做为了禁词。

图片[12] | 腾讯混元助手(小程序)，腾讯版的ChatGPT终于来了！ | i3综合社区

但没想到禁词做的最彻底的是星火，直接拒绝回答这个问题。。。

图片[13] | 腾讯混元助手(小程序)，腾讯版的ChatGPT终于来了！ | i3综合社区

扯个题外话，其实在违禁词这一块，我用「性感热辣」测试了一下，国产大模型都没问题：

图片[14] | 腾讯混元助手(小程序)，腾讯版的ChatGPT终于来了！ | i3综合社区

而 ChatGPT 那里直接把我问题给吞了，所以「恐怖分子」在星火那里撞了墙，我是真挺意外的。

图片[15] | 腾讯混元助手(小程序)，腾讯版的ChatGPT终于来了！ | i3综合社区

问题三：失主怎么一直给我的新手机打电话？

这个问题想问啥，大家肯定是一眼就能看出来，但训练出来严谨的 AI 大模型可不一定这么推理。

分析情况最多的，是星火：

图片[16] | 腾讯混元助手(小程序)，腾讯版的ChatGPT终于来了！ | i3综合社区

注重应对方案的是文心 4.0：

图片[17] | 腾讯混元助手(小程序)，腾讯版的ChatGPT终于来了！ | i3综合社区

而混元和 ChatGPT 的表现中规中矩。

图片[18] | 腾讯混元助手(小程序)，腾讯版的ChatGPT终于来了！ | i3综合社区

只是当我多问一句，「根据问题判断手机到底是谁的」，其他大模型都成了端水大师，说一句无法判断，只有混元大模型给出了答案。

图片[19] | 腾讯混元助手(小程序)，腾讯版的ChatGPT终于来了！ | i3综合社区

可以看出来，起得不早的腾讯混元大模型，属于干练风的，幻觉少，水得也少，有啥就说啥。

真要在中文语境下和已有的大模型比，我找到了一个不错的例子：让大模型翻译下面这个段话里的每一个「行」字。人要是行，干一行行一行，一行行行行行，行行行干哪行都行。要是不行，干一行不行一行，一行不行行行不行，行行不行干哪行都不行

我测试了一圈，所有大模型都能理解这段话的含义，但逐一解释读音和字义的都会翻车。

星火：

图片[20] | 腾讯混元助手(小程序)，腾讯版的ChatGPT终于来了！ | i3综合社区

文心 4.0：

图片[21] | 腾讯混元助手(小程序)，腾讯版的ChatGPT终于来了！ | i3综合社区

GPT-4：

图片[22] | 腾讯混元助手(小程序)，腾讯版的ChatGPT终于来了！ | i3综合社区

而混元是这个样子的，无论我怎么编写 Prompt，都不能做到前辈们的程度。

图片[23] | 腾讯混元助手(小程序)，腾讯版的ChatGPT终于来了！ | i3综合社区

但从版本号上来说，我是很期待混元大模型的后续迭代的。（手动狗头）

图片[24] | 腾讯混元助手(小程序)，腾讯版的ChatGPT终于来了！ | i3综合社区

结语

混元大模型也算亮个相了，单说对话生成，经典问题的理解能力、推理能力还是很不错的。

如果你想体验混元，可以微信里搜一下小程序：

图片[25] | 腾讯混元助手(小程序)，腾讯版的ChatGPT终于来了！ | i3综合社区

最后给大家留个小彩蛋——

各家大模型现在也都支持了文生图的功能，我用文心、星火、混元、GPT-4 的 Dall·E-3，以「一个二次元少女」的提示词生成了 4 张图，不妨来猜猜哪个是哪个？

图片[26] | 腾讯混元助手(小程序)，腾讯版的ChatGPT终于来了！ | i3综合社区

图片[27] | 腾讯混元助手(小程序)，腾讯版的ChatGPT终于来了！ | i3综合社区

图片[28] | 腾讯混元助手(小程序)，腾讯版的ChatGPT终于来了！ | i3综合社区

图片[29] | 腾讯混元助手(小程序)，腾讯版的ChatGPT终于来了！ | i3综合社区

THE END

Android应用 iOS/iPad应用手机网盘资源

相关推荐

评论抢沙发

欢迎您留下宝贵的见解！

提交

暂无评论内容