据工业和信息化部4月14日消息,4月12日,工业和信息化部信息通信管理局听取腾讯公司关于“3·29”微信业务异常情况汇报,要求腾讯公司进一步健全安全生产管理制度、落实网络运行保障措施,坚决避免发生重大安全生产事故,切实提升公众业务安全稳定运行水平。
对此,微信相关团队14日下午回应上海证券报记者表示:“3月29日凌晨,由于机房配套设施故障,部分用户使用微信相关功能时出现异常。事故发生后,微信内部快速拉起了专项团队,对问题予以解决,并进行全链条梳理、优化产品保障机制。”
据透露,腾讯已对相关负责人进行了通报批评和处罚。微信相关团队称:“后续,我们将深入贯彻工业和信息化部的指导意见,持续健全产品安全管理和运行保障,扎实推进平台的安全稳定运行。”
(资料图片)
据工业和信息化部消息,下一步,工业和信息化部信息通信管理局将深入贯彻落实党的二十大报告关于提高公共安全治理水平的决策部署,统筹发展和安全,持续加大信息通信行业安全生产监管力度,指导电信业务经营者严格落实主体责任、完善保障措施、强化事故应急处置能力,以高水平网络运行安全保障信息通信行业高质量发展。
生成式人工智能服务
对信息安全提出更高要求
随着生成式人工智能服务的广泛应用,数据安全和隐私保护变得更加重要。
4月11日,国家互联网信息办公室就《生成式人工智能服务管理办法(征求意见稿)》(下称《征求意见稿》)公开征求意见,其中提出生成式人工智能产品提供服务前需申报安全评估等具体措施。
在奇安信集团副总裁张卓看来,近期全球范围内发生了多起因使用ChatGPT导致的数据泄露事件,各国逐步开始重视AIGC数据安全风险的监管审核。张卓认为,《征求意见稿》的发布以及全球范围内对于AIGC的监管力度加强,意味着数据安全和隐私保护已经成为AIGC发展的前提和关键。
面向大模型训练
腾讯云发布大模型计算集群
生成式人工智能,是指基于算法、模型、规则生成文本、图片、声音、视频、代码等内容的技术。如今,各大公司推出的包括ChatGPT在内的各种AIGC的应用,对于大模型的算力和训练也提出了更高的要求。
特别是,业界标杆大模型,往往利用数万亿个单词训练,消耗了大量算力资源,参数量近年也从一亿增长到几万亿。相对而言,模型越大,拥有的数据越多、模型的准确性就越好。但这也意味着,训练时间更长,对算力的需求陡增。在单体服务器计算能力有限的情况下,需要将上千台服务器相连,打造大规模、分布式的高性能计算集群。
值得注意的是,算力集群的“强”,由单机算力、网络、存储共同决定。同时,高性能计算存在“木桶效应”,先进算力的背后,是先进芯片、先进网络、先进存储等一系列的支撑,缺一不可。
随着算力需求的增长,用于采购硬件的资金投入也随之指数级增长,给不少企业带来了巨大的现金流压力。自己采购GPU,面临着成本和供应链问题,且峰谷问题较为明显。
即使是目前业界已有的GPU分布式训练方案,也严重依赖于服务器之间的通信、拓扑、模型并行、流水并行等底层问题的解决情况。如果只有分布式训练框架,甚至都无法正常启动训练过程。这也是为什么当时GPT-3已经发布一年,却只有少数企业可以复现GPT-3。
基于以上痛点,4月14日,腾讯云发布面向大模型训练的新一代HCC(High-Performance Computing Cluster)高性能计算集群。该集群采用最新一代腾讯云星星海自研服务器,搭载了NVIDIA H800 Tensor Core GPU。实测结果显示,腾讯云新一代集群的算力性能较前代提升高达3倍。
以新一代HCC为标志,基于自研芯片、星星海自研服务器和分布式云操作系统遨驰,腾讯云正通过软硬一体的方式,打造面向AIGC的高性能智算网络。
去年10月,腾讯完成首个万亿参数的AI大模型——混元NLP大模型训练。在同等数据集下,将训练时间由50天缩短到11天。如果基于新一代集群,训练时间将进一步缩短至4天。
据悉,HCC高性能计算集群主要面向大规模AI训练,包括自动驾驶训练、自然语言处理、AIGC大模型训练等,以专用集群方式售卖,腾讯云将裸金属云服务器作为节点,满配最新代次的GPU,并结合CFS Turbo高性能存储、节点之间通过RDMA网络互联,给大模型训练业务提供高性能、高带宽和低延迟的一体化高性能计算。与此同时,腾讯混元大模型背后的训练框架AngelPTM,也已通过腾讯云对外提供服务,帮助企业加速大模型落地。
(文章来源:上海证券报)
Copyright 2015-2022 企业财报网 版权所有 备案号:京ICP备12018864号-21 联系邮箱:2 913 236 @qq.com