2025年春节以来,DeepSeek(以下简称DS)的发布在全球范围内掀起一波大模型应用的新热潮。由于在中文问答方面的优异表现,它受到中文大模型用户万众瞩目般的追捧,同时带动其他中文大模型产品如文小言、豆包、Kimi、腾讯元宝等的下载量。
不用做专业技术测评,用户可以直观感受到DS强大的推理能力。在深度思考功能中,首先可以看到为完成用户的任务,DS是如何“思考”,即很大一段推理过程或方法论的描述,由灰色字体标识出来;然后才是黑色字体标识的正式回答,往往呈现出非常完整的框架性结构和逻辑链条。毫不夸张地说,DS的推理能力超过很多忽视逻辑推理能力训练的普通老百姓。
除此之外,DS令人惊艳的还有中文表述上的文采,令很多人评价“辞藻华丽”“情绪给到位”。作为一名学术用户,笔者能直观感受到DS标题取得好,讲究大词、术语的使用,行文工整,透露一股自信和专业的味道。如果特别地要求文本的风格,会发现它对语词的褒贬义、情绪和细节的选取非常讲究,用来做原创性不高的广告、文案、公文非常好用。
然而,随着DS用户爆炸式的增长,对它更高的期望也被越来越多的用户提出来。普通用户可以直接感受到的问题主要有两点:第一,响应率不高,很容易出现“服务器繁忙,请稍后再试”的情况。仅用作日常娱乐搜索问题不大,但如果用在正式的工作场合容易误事。第二,AI幻觉明显,事实性的东西胡编乱造的情况不少。据报道,行业权威Vectara HHEM人工智能幻觉测试显示,DeepSeek-R1显示出14.3%的幻觉率,远高于行业平均水平。
从原理上说,AI幻觉根源于统计学上的“随机鹦鹉”现象,所有的大模型都不可能完全避免,但是可以尽力消除。相比较而言,国产大模型产品各有千秋,但在遏制幻觉问题上,明显文心一言表现最为优异,无疑与研发团队一开始就将AI幻觉作为最重要的研究问题来对待有关。
如果说大模型产品只想做为某种娱乐工具,写写“小作文”,调节调节情绪,似乎AI幻觉问题不大。但如果想作为高效劳动工具和严肃的信息来源,AI幻觉问题处理不好会很危险,甚至很致命。毫不夸张地说,克服AI幻觉问题事涉信息安全问题,是大模型发展的基础性和前提性问题,任何一种大模型应用都无法绕过去。
笔者尝试用DS辅助收集学术资料,发现DS将作者与作品张冠李戴、杜撰文献和作者以及胡乱内容描述的情况不少。如果完全相信DS的回答,不仅无法切实提高工作效率,相反会制造混乱和错误。当然,如果仅仅作为框架性的参考和提示,DS还是能发挥一定的辅助收集资料作用。
问题是在AI时代,很多人数字素养不高,容易迷信大模型产品。最近,在学界不少人用DS评价学者、著作、论文和某项研究的水平,以为DS客观公正,可以杜绝人情、关系和权力等因素的干扰。这是典型的技术迷信行为,相信大模型至上,将之凌驾于人的判断之上。国际通行的学术评议方式是同行评议(peer review),也就是由专业小同行进行学术评价。大模型根本不理解人类作品的含义,只是通过搜索、学习和上下文概率排序等技术手段生成文本,本质上是网上内容的“镜子”或“平均值”。显然,网上内容大部分不专业、不精确、不客观,如此大模型怎么可以取代同行评议呢?因此,完全以幻觉严重的AI产品作为研究根据,在学术上万万不行。
在社会传播方面,AI幻觉严重的大模型产品如果接入新闻、自媒体当中,大量假消息、假信息迅速生成。再加上开放和便捷的互联网传输,以及社交媒体的去中心化、反权威性,肯定会大大加剧后真相时代虚假信息泛滥的状况。使用大模型辅助生成各种文本的学生、文员和策划,长期使用AI幻觉严重的大模型产品,逐渐会丧失区别真实与虚假的判断力,甚至觉得只要形式精致、表述华丽就可以而真真假假都不重要了。
当事实性输出有问题时,不管推理能力如何强大,以错误事实为基础做决策肯定非常危险。不能否认可能出现“瞎猫碰到死耗子”的情况,但此类概率微乎其微,因为科学决策以准确而完善的信息收集为前提。有了关于决策对象各个方面的信息,才能提出有针对性的备选方案,决策者再从中挑选适合国情社情的决策方案。因此,大模型产品用于政务活动,首先就要对产品的除幻性能进行认真的评估。
如何防范大模型幻觉可能导致的信息安全问题?现阶段首要责任在大模型企业,必须投入人财物力压缩幻觉率,使之达到安全的阈值。其次,大模型产品的使用人员要提高数字素养,不可迷信AI,牢记以AI辅助劳动的“辅助”为主,让AI为人所用,严防AI反客为主。再次,尤其对于一些专业领域的大模型运用,文本生成精度要有特殊的标准,接入之前要进行严格而有针对性的幻觉率评估,切不可操之过急。最后,从长远来看,大模型信息安全问题值得各方面合作进行跨学科深入而细致的研究,形成系统化的防范方案,有步骤、有预案、有章法地推进大模型产品在各行各业的深度应用。
我们以“请推荐十本国内技术哲学著作”为题,分别在DS、豆包和文心一言进行评测,测试一下这三个平台的学术信息收集整理能力。
问题选择理由:笔者并非技术专家,不做专业的技术数据测评,做也是拿别人的工具跑一跑,因此仅做直观的问答内容测试,选择笔者非常熟悉的技术哲学领域,测试这三个大模型处理事实性信息的能力。
以下为各个平台的结果梳理:
——DS——
从形式上看,DS给出的回答读起来感觉相对丰富。它包含推理提示、推荐文本介绍、延伸推荐、阅读提示等。
推荐的十本书看得出来并不是简单地以“技术哲学”“技术”为题目进行检索,出现有《信息文明的伦理基础》《可接受的科学:当代科学基础的反思》《赛博空间的哲学探索》等不以“技术哲学”“技术”为名的作品。
但是,《中国科学技术的西传及其影响》《可接受的科学:当代科学基础的反思》并非技术哲学著作,而是科技史、科学哲学的作品。
更严重的问题是“幻觉”错误不少。比如,《可接受的科学:当代科学基础的反思》的作者是段伟文而不是刘大椿,刘永谋并没有一本名为《技术与现代性:中国道路的哲学追问》的书。比如《信息文明的伦理基础》的“推荐理由”很混乱,“可接受的科技”是《可接受的科学:当代科学基础的反思》的观点。
——豆包——
豆包回答简单明了,响应很快。除了《荷兰学派技术哲学研究:设计、理论与价值》这本书网上没有找到,其他书都是有的。但是,这十本书主要是东北大学或“东北学派”的作品,尤其陈昌曙就独占六本。严重怀疑是从不多的几个东北大学技术哲学发展史为主题的帖子上归纳的。总体上资料显得很陈旧。
——文心一言——
文心一言的推荐在准确性上没有问题,每本书给出了出版社、出版年份,还包含了国内出版社的两本译著。不过代表性上仍然存在问题,陈昌曙、刘大椿、田鹏颖均有两本。总体上书单缺乏前沿性。
总体评价:大模型用于学术资料检索功能差强人意,不可以作为学术研究的唯一依凭,而是作为某种初步的提示。就AI幻觉问题而已,文心一言表现最好,DS幻觉明显。
本文作者系中国人民大学吴玉章讲席教授 刘永谋