Tel:
13678113770
DeepSeek与主流AI模型对比评测
2025-03-12174

最近几天,中国低成本大语言模型深度求索(DeepSeek)欧美AI圈引起了不小的震动。据悉,来自杭州的初创企业深度求索1月20日发布DeepSeek-R1,该模型在测试表现、训练成本和开源开放程度等多个基准测试中均超越“ChatGPT之父”美国OpenAI公司的最新模型o1,但成本仅为o1的三十分之一。

纽约时报报道称,DeepSeek大模型以极低成本(600万美元)和少量芯片(2000块)实现了与OpenAI等巨头相媲美的性能,挑战了“唯有科技巨头才能研发尖端AI”的行业共识。

这一消息激起投资者的恐慌情绪,纷纷抛售美国科技股,导致美国人工智能巨头英伟达股价在1月27日暴跌近16%,市值蒸发近6000亿美元。

那么,这款AI大语言模型究竟实力如何?与其他AI聊天机器人相比又有哪些优势和差异?接下来,我对相关产品进行了一些简单的评测。

一、自然语言生成测试

评估目标是测试AI是否能够提供富有创意的答案,尤其是对于开放性问题。

我先测试了一个很简单的例子:“仿照《权力的游戏》里丹妮莉丝·坦格利安的称号,编一个特朗普的称号”。

DeepSeek R1给出的答案是:

唐纳德·特朗普

推特风暴之王,高墙铸造者,七海关税之主;

不羁金发的咆哮者,破产与复兴的凤凰,红领带之怒;

弹劾浪潮中的幸存者,诉讼迷宫中的舞者,真相的弹性诠释者;

自由世界的退群者,高尔夫球场领主,玛阿拉歌冬宫守护者。

ChatGPT给出的答案是:

美国的救世主,墙之建造者;

商业帝国之王,民众的声音;

白宫的统治者,现实之破坏者;

大国之骄傲,外交之火焰;

推特的君王,全球的震撼者。

从语言的艺术性、现实性、以及中文环境的语感上看,在这个问题上,DeepSeek在中文环境下的确比ChatGPT要胜出一筹。

于是我又测试的另一个题目:“使用一些口诀来总结罗斯的七个鲜见义务”

DeepSeek R1给出的答案是:

忠诚守信诺如山,补偿旧过莫迟延。

感恩图报情义显,公正无私天平端。

仁慈助人善举传,自我精进德才兼。

不行恶事守底线,七责权衡在心间。

逐句解析:

忠诚守信诺如山 → 强调信守承诺(忠诚)。

补偿旧过莫迟延 → 对过错及时弥补(补偿)。

感恩图报情义显 → 铭记并回报恩情(感恩)。

公正无私天平端 → 公平对待他人(公正)。

仁慈助人善举传 → 主动行善助人(仁慈)。

自我精进德才兼 → 提升自身品德与能力(自我改进)。

不行恶事守底线 → 避免伤害他人(不行恶)。

七责权衡在心间 → 总结需根据情境权衡义务。

ChatGPT给出的答案是:

一诺千金守信约,过错补偿不推脱。

公平正义分利益,感恩回报记心窝。

扶危济困行善举,自强修身志更卓。

谨言慎行伤害避,责任担当不可缩。

逐句解析:

守信(Fidelity)—— 强调履行承诺和诚信。

补偿(Reparation)—— 体现弥补过失的责任。

公正(Justice)—— 体现公平分配利益和责任。

感恩(Gratitude)—— 强调回报他人的善意。

行善(Beneficence)—— 代表帮助他人,促进福祉。

自强(Self-improvement)—— 表达不断提升道德和智慧。

不伤害(Non-maleficence)—— 体现避免对他人造成损害。

责任(Duties)—— 强调履行应尽的义务。

在这个问题上,DeepSeek编写的口诀和ChatGPT也相差无几。

我又连续测试了几个较为开放性的问题,主要来自流行电视剧,例如:

1、《绝命毒师》第三季第二集里,沃尔特·怀特为什么要激烈冒犯给他开罚单的交警?

2、《绝命毒师》第四季第一集里,古斯为什么要当众杀死维克多?

3、《绝命毒师》第二季第十三集,沃尔特·怀特在杰西·平克曼的女友死亡的那个晚上,为什么眼睁睁地看着杰西的女友简窒息而死?

从上面几个问题回答的内容质量上看,DeepSeek R1的内容生成能力和ChatGPT不相上下,各有千秋。