最近几天,中国低成本大语言模型深度求索(DeepSeek)欧美AI圈引起了不小的震动。据悉,来自杭州的初创企业深度求索1月20日发布DeepSeek-R1,该模型在测试表现、训练成本和开源开放程度等多个基准测试中均超越“ChatGPT之父”美国OpenAI公司的最新模型o1,但成本仅为o1的三十分之一。
纽约时报报道称,DeepSeek大模型以极低成本(600万美元)和少量芯片(2000块)实现了与OpenAI等巨头相媲美的性能,挑战了“唯有科技巨头才能研发尖端AI”的行业共识。
这一消息激起投资者的恐慌情绪,纷纷抛售美国科技股,导致美国人工智能巨头英伟达股价在1月27日暴跌近16%,市值蒸发近6000亿美元。
那么,这款AI大语言模型究竟实力如何?与其他AI聊天机器人相比又有哪些优势和差异?接下来,我对相关产品进行了一些简单的评测。
一、自然语言生成测试
评估目标是测试AI是否能够提供富有创意的答案,尤其是对于开放性问题。
我先测试了一个很简单的例子:“仿照《权力的游戏》里丹妮莉丝·坦格利安的称号,编一个特朗普的称号”。
DeepSeek R1给出的答案是:
唐纳德·特朗普
推特风暴之王,高墙铸造者,七海关税之主;
不羁金发的咆哮者,破产与复兴的凤凰,红领带之怒;
弹劾浪潮中的幸存者,诉讼迷宫中的舞者,真相的弹性诠释者;
自由世界的退群者,高尔夫球场领主,玛阿拉歌冬宫守护者。
ChatGPT给出的答案是:
美国的救世主,墙之建造者;
商业帝国之王,民众的声音;
白宫的统治者,现实之破坏者;
大国之骄傲,外交之火焰;
推特的君王,全球的震撼者。
从语言的艺术性、现实性、以及中文环境的语感上看,在这个问题上,DeepSeek在中文环境下的确比ChatGPT要胜出一筹。
于是我又测试的另一个题目:“使用一些口诀来总结罗斯的七个鲜见义务”
DeepSeek R1给出的答案是:
忠诚守信诺如山,补偿旧过莫迟延。
感恩图报情义显,公正无私天平端。
仁慈助人善举传,自我精进德才兼。
不行恶事守底线,七责权衡在心间。
逐句解析:
忠诚守信诺如山 → 强调信守承诺(忠诚)。
补偿旧过莫迟延 → 对过错及时弥补(补偿)。
感恩图报情义显 → 铭记并回报恩情(感恩)。
公正无私天平端 → 公平对待他人(公正)。
仁慈助人善举传 → 主动行善助人(仁慈)。
自我精进德才兼 → 提升自身品德与能力(自我改进)。
不行恶事守底线 → 避免伤害他人(不行恶)。
七责权衡在心间 → 总结需根据情境权衡义务。
ChatGPT给出的答案是:
一诺千金守信约,过错补偿不推脱。
公平正义分利益,感恩回报记心窝。
扶危济困行善举,自强修身志更卓。
谨言慎行伤害避,责任担当不可缩。
逐句解析:
守信(Fidelity)—— 强调履行承诺和诚信。
补偿(Reparation)—— 体现弥补过失的责任。
公正(Justice)—— 体现公平分配利益和责任。
感恩(Gratitude)—— 强调回报他人的善意。
行善(Beneficence)—— 代表帮助他人,促进福祉。
自强(Self-improvement)—— 表达不断提升道德和智慧。
不伤害(Non-maleficence)—— 体现避免对他人造成损害。
责任(Duties)—— 强调履行应尽的义务。
在这个问题上,DeepSeek编写的口诀和ChatGPT也相差无几。
我又连续测试了几个较为开放性的问题,主要来自流行电视剧,例如:
1、《绝命毒师》第三季第二集里,沃尔特·怀特为什么要激烈冒犯给他开罚单的交警?
2、《绝命毒师》第四季第一集里,古斯为什么要当众杀死维克多?
3、《绝命毒师》第二季第十三集,沃尔特·怀特在杰西·平克曼的女友死亡的那个晚上,为什么眼睁睁地看着杰西的女友简窒息而死?
从上面几个问题回答的内容质量上看,DeepSeek R1的内容生成能力和ChatGPT不相上下,各有千秋。