DeepSeek:带飞全网,带不动化工?

来源: 中国化工报     发布日期:2025-02-13

        1月20日,在特朗普宣布启动总投资5000亿美元的“星际之门” (Stargate)AI基础设施计划前一天,杭州深度求索人工智能基础技术研究有限公司——一家此前名不见经传的中国企业,将其开发的大语言推理模型DeepSeek-R1以开源形式上线。凭借高性能、低成本优势,这个初出茅庐的大模型立刻成为科技圈、投资圈和媒体圈乃至全网关注的焦点。


  《中国化工报》记者注意到,春节假期后第一周,多家上市企业宣布接入DeepSeek,带动上证科创板50成份指数和创业板指数均涨超5%。但这场带着全网起飞的“龙卷风”,吹到石油和化工行业时却好像减了速——迄今为止,鲜少有石油和化工企业加入这场狂欢。


  对此,工业智能化、AI等研究领域的多位专家近日接受记者采访时表示,DeepSeek横空出世令人鼓舞,但要解决AI大模型在流程工业垂直应用的诸多难题并非易事,能否带飞石油和化工行业,仍需时间检验。


训练便宜≠成本低
基础设施花费仍然较高

  DeepSeek能在网络上掀起巨浪,甚至引发美国股市中英伟达等科技股出现“历史性”大跌的核心“杀手锏”,在于其颠覆性的低成本与高效率。


  根据深度求索公司官方放出的数据,DeepSeek仅用2048块英伟达 H800图形处理器(GPU)和557.6万美元的投入,就训练出了规模达6710亿参数的DeepSeek-V3。Open AI创始成员之一Andrej Karpathy表示,按照以往经验,行业内类似能力级别的大模型大多使用约10万张GPU。例如,Llama 3 405B模型消耗了3080万GPU小时,而DeepSeek-V3则用了280万GPU小时,计算需求仅为前者的十一分之一。


  此前,市场上也普遍认为同等参数规模的GPT-4训练花费高达10亿美元。而DeepSeek推出的DeepSeek-R1模型,推理成本仅为OpenAI最新模型(o1)的三十分之一。许多后续研究团队更是用较低的成本成功复现了DeepSeek的模型样本。


  从用户端来看,这样的数据似乎意味着企业部署AI大模型的花费从“脚脖子打折”,个人用户部署一个自有大模型好像也不再是梦想。但这真的意味着谁都“用得起”大模型的时代到来了吗?


  “部署和训练成本并不等同于应用成本。”一位ICT从业人士表示,DeepSeek成本的降低,主要是靠算法创新对训练成本进行了压缩。根据官方数据,研究团队在训练模型时同时使用了8浮点混合精度训练技术(FP8)、混合专家模型(MoE)以及自主研发的多头潜在注意力(MLA)机制,解决了传统Transformer模型在处理长输入序列时的内存瓶颈问题,可将显存占用降至传统模型的5%~13%。


  而应用成本则包括计算设施、传输设施的建设成本,数据收集与存储成本等。以炼厂为例,一套催化裂化装置每秒产生的数据点可能就多达上千个,其中既包括每秒或几分钟就要采集一次的温度和压力数据,也包括需要长期连续测定的催化剂活性数据,还有一些动设备如泵的噪音、振动幅度等其他数据,一家大型炼厂每年产生的数据量可能在千亿级字节。即使DeepSeek依靠算法降低了对GPU服务器集群等计算设施的需求,其数据存储与传输设施的刚性投入也难以降低,中小企业搭建自有大模型仍然存在困难。


  图灵奖得主、Meta AI科学家杨立昆(Yann LeCun)也公开发声强调,许多投资者对AI基础设施投资存在“重大误解”。“那些数十亿美元的资金中,很大一部分都投入到了推理基础设施中,而不是训练。数十亿人运行 AI助手服务需要大量的计算,一旦你将视频理解、推理、大规模内存和其他功能纳入AI系统,推理成本就会增加。”杨立昆说。


模型幻觉难除
输出内容并不完全可靠

  此前,DeepSeek凭借一句“打动你的是人类集体智慧的回声”在网络上引起无数转发和讨论。出于好奇,记者也尝试让它进行了多种风格的写作,在情感及纯文学写作中表现出色的DeepSeek,在涉及专业数据时却有些“不知所云”,它给出了欧洲某家炼油厂应用AI优化运维的案例,但记者按其给出的数据无法查证该炼油厂是否真实存在,“追问” DeepSeek也无法得到该炼油厂更具体的信息。


  “这就是大语言模型(LLM)目前应用的一个大问题——模型幻觉。”中化信息技术有限公司专家委员会副主任、华东理工大学讲席教授冯恩波告诉记者,目前LLM仅能胜任知识或数据管理方面的工作,但如果让它产生专业程度较强的新知识、新内容,就需要十分小心,因为“模型幻觉”目前在AI深度学习领域中,仍是难以根除的问题。


  其中,一部分幻觉数据可以通过核对输入内容和生成内容发现,并通过调整输入关键词来修正。例如,向AI询问“中国第一家化工企业的名字是什么?”,AI可能会由于抓取关键词的不同,给出“1880年成立的上海江苏药水厂是中国第一家化工厂”或“始建于1954年的吉林化学工业公司(中国石油吉林石化分公司前身),是我国第一家化工企业”的答案,用户可以通过添加例如“新中国成立前/后”等关键词再进行筛选。


  另一部分的幻觉则更加“危险”。“有可能AI会给你一个语言华丽、数据漂亮的成果报告,但其中‘融化’了大量不确定性高,甚至在专业人士看来是谬论的数据。”冯恩波强调,尤其要谨防AI讲话“真假参半”,将虚假的数据掩藏在大量专业词汇和华丽的语言之后,因为即使是对相关从业者来说,一一核对与辨别这些案例和数据的不合理之处,也是非常困难的事情。如果这些掺杂“幻觉”的数据和知识进入数据库,被用在流程行业实际生产系统的实时优化、实时控制等方面,可能造成严重后果。


  对此,他建议,行业可以先利用大数据,建立较为准确的反应机理模型作为“司令员”,在此基础上应用大语言推理模型作为“参谋长”进行辅助判断,再由有经验的操作员最终验证和确定反应流程的实时优化与控制该如何进行,从而提高模型应用的准确性与可靠性。


  “目前,DeepSeek这样的大模型也会造成很多‘幻觉’,但企业需要大模型在决策过程中能保证百分之百的准确性。”北京中关村科金技术有限公司总裁喻友平说:“大模型在面向企业端(To B)的应用离理想状态还有很大距离,这比面对终端消费者(To C)场景的挑战要大得多。”


数据“地基”不稳
广泛应用尚有待时日

  近年来,能源化工行业AI大模型应用已经取得了初步成绩,例如中国石油700亿参数昆仑大模型、中控石化化工大模型、中国海油“海能”人工智能模型,但要实现更加广泛的应用,仍在可用性与易用性方面面临挑战。多位业内专家表示,大语言推理模型在流程行业的应用仍然需要夯实数据和机理的“地基”,以保障其安全性与可靠性。


  中国工程院院士、中国石油勘探开发研究院正高级工程师刘合此前表示,数据治理是油气行业AI大模型应用的关键,如何在保证数据安全和保密的前提下,充分整合分散的数据并训练行业模型,是行业一直在探索的一个“大问题”。


  但对于石化行业来说,推动数据治理,打牢大语言模型应用的“地基”并不容易。一方面,石化行业的数据环境极为复杂、数据来源广,且受外部环境影响噪声高,容易出现数据不完整的情况;另一方面,主流深度学习的模型通常在静态数据集上进行训练,而实际生产是“牵一发而动全身”,催化剂中毒、不同批次原料成分的细微改变,都会使设备状态及工艺参数发生漂移,导致数据集逐渐“过期”,优化模型也不再有效。刘合在其署名文章《油气大模型破局需从三方面发力》中也提出,油气企业必须强化数据全生命周期管理,从数据源头、数据采集、数据清洗、数据融合和匹配、数据完整性增强、数据标注等环节严格规范,建立高质量的训练样本库,提升数据治理能力,从而为行业大模型提供坚实的数据基础。


  “除了挖掘数据与场景价值点外,石化企业应用大模型的另一个重点是安全性和保密性问题。”浙江新和成股份有限公司运营首席专家郑根土认为,数据安全治理也是企业所担忧的问题,目前国家已经出台了数据流通安全治理的相关法案,但数据流通安全治理体系仍然有待构建,相关机制也并不完善,需要企业、行业与相关部门多方协同,提高行业数据流通与应用的监管效能。


  喻友平表示:“展望未来,AI在To B领域的应用将面临转型与创新的双重挑战。企业需要逐步建立基于大模型的智能决策系统,同时考虑如何增强系统的透明性,确保AI生成内容的可追溯性与可靠性。此外,还应密切关注相关法规政策,以预防不当使用AI技术可能带来的法律和伦理问题。”(靳雅洁)





图片

业内人士眼中的DeepSeek


  大模型行业的“黑马”DeepSeek到底有哪些“本领”,将给石油和化工行业发展带来哪些影响?《中国化工报》记者就此采访了多名业内人士。


  广州石化信息化专家张洪灏:DeepSeek最大的优势在于算法的改进和优化,这极大节省了算力和数据量,使得训练成本大幅降低。同时,其低训练成本也会降低硬件的投入门槛,从而解决美国限制出口高端GPU“卡脖子”问题。


  DeepSeek-R1大模型在解决复杂数学问题时拥有极强的“拆解能力”,能够将复杂任务分解为更小的步骤并逐一执行,从而提高其准确性。打个比方,ChatGPT像“文科生”,擅长编段子、写文章,而DeepSeek更像理科生,擅长推理和深度思考。DeepSeek基于思维链,模型推理能力和深度思考能力极为强大。其通过建立智能化知识库,可改变知识的获取模式,借助语言大模型整合各类专业知识,更加高效精准地反馈给员工。


  未来,科学智能将是更高层次的人工智能大模型,将在新材料科学探索方面,解决科研人员面临的缺乏数据和有效的数据分析方法、很多研究依靠经验和试错方法、理论研究难以用来解决实际问题等痛点,使实验与模拟能力大幅提升,加速化工新材料、炼油化工催化剂的研发进程。


  北京化工大学教授、博士生导师辛春林:在推动石油和化工行业转型发展方面,DeepSeek将提升企业的数据分析与决策能力,助力研发与可持续创新,同时优化生产运营与成本控制。


  DeepSeek拥有强大的深度学习与自然语言处理能力,可以快速处理和分析海量行业数据,包括生产数据、市场数据、供应链数据等,帮助企业更准确地预测市场需求、优化生产计划、调整供应链策略,从而提高运营效率和经济效益。


  DeepSeek通过分析原油价格波动、成品油市场需求变化等数据,能为企业提供决策支持,帮助制定更合理的采购和销售策略。


  DeepSeek开源模型的社区协作机制还加速了技术的迭代和创新。具体到新材料研发领域,DeepSeek可以通过高效文献检索与知识整合,快速获取最新的研究成果和技术信息,帮助研究人员了解行业前沿动态,启发创新思路。同时,DeepSeek还可以协助进行实验方案优化与预测,为研究人员提供优化的实验方案和预测结果,提高研发效率和成功率。


  另外,在生产运营与成本控制方面,DeepSeek可对石化生产过程中的各种数据进行实时监测和分析,及时发现生产过程中的异常情况和潜在问题,帮助企业采取有效的措施进行调整和优化,提高生产效率和产品质量。同时,它还能帮助企业更准确地掌握原材料采购成本、能源消耗成本等信息,制定合理的成本控制策略,降低生产成本和碳排放。


  江苏华昌化工股份有限公司有关负责人:DeepSeek等深度分析模型在化工行业应用前景广阔,有望推动全产业链智能化升级。在生产环节,DeepSeek类模型可通过对反应参数、设备状态等海量数据的实时分析,优化工艺条件,提升原料转化率,降低能耗;在质量控制方面,结合计算机视觉技术,可实现对产品微观结构的智能检测,提升缺陷识别准确率;在预测性维护领域,通过建立设备数字孪生模型,提前预警关键机组故障,降低非计划停机损失;在安全管控层面,可整合DCS、视频监控等多源数据,实现动态风险预警,减少人为误判风险。随着化工行业数字化转型深化,深度分析技术将成为实现智能制造、绿色生产的关键驱动力。


  西南化工研究设计院变压吸附所副总工程师梁军:如果DeepSeek能够提供接口,接入石化行业现有的服务程序中,将会更加适应行业特点,为行业提供更加精准的规划、资讯等方面的帮助。


  捷诚能源首席分析师闫建涛:DeepSeek强大的逻辑推理和预测功能,能为我们这些做能源深度研究的人提供更加有益的建议。在企业发展战略层面,DeepSeek能够提供更充分的数据支撑、更多的情景分析,市场分析和营销预测也会更精准;在生产经营层面,能够引导企业管理更规范,风险控制更及时,从而降低全产业链成本。


  清华大学新闻学院教授沈少阳:如果说传统的生成式大模型是“兼职助理”,那么推理大模型就是“正式员工”,并且是一位对工作可以“兜底”的员工,包括理解需求、推理使用场景、寻找生产资料,并输出完整的结构化内容。强大的推理大模型是“善解人意”的好助手,但它会因为“太聪明”而自作主张,出现对提示语“视而不见”的情况。因此现阶段还需保持耐心,随时接受推理大模型“罢工”,因为推理大模型也需要“调教”。


广告服务  |  协会介绍  |  联系我们

电话:010-63385331  传真:010-63356615

邮箱:1507b@sina.com

地址:北京市丰台区菜户营58号财富西环901室  邮编:100054

中国五金交电化工商业协会版权所有   京ICP备13026453号-1

京公网安备 11010602004188号

技术支持:中科服

微博
微信公众号