南京海选-南京海选工作室-南京茶楼信息

当前位置：首页 > 焦点 > 腾讯混元大模型升级！性能提升50%，可生成16s视频，大模型App月底见正文

腾讯混元大模型升级！性能提升50%，可生成16s视频，大模型App月底见

时间：2024-05-18 07:19:59 来源：重庆品茶微信

智东西（公众号：zhidxcom）
作者香草
编辑李水青

智东西5月17日报道，腾讯今日，混元腾讯云公布了一系列生成式AI研发、大模底产品进展。型升腾讯混元大模型全面升级，升可生成s视最高拓展至万亿参数规模，模型总体性能相比上一代提升50%。腾讯同时在多模态能力方面，混元腾讯云开源中文原生DiT架构文生图模型，大模底混元支持单图可30s生成3D模型，型升视频生成时长达到16s。升可生成s视

基于自研混元大模型底座，模型腾讯云打造大模型时代原生工具链，腾讯发布三大AI引擎工具：大模型知识引擎、混元图像创作引擎以及视频创作引擎。大模底此外，腾讯云还推出一站式AI智能体创作与分发开放平台——腾讯元器，用户可以在平台上创建专属AI智能体，并发布到QQ、微信等腾讯生态上。

据透露，腾讯云将于本月底5月30日上线混元大模型App“腾讯元宝”，提供混元及搜索引擎驱动的高效信息整合工具。在备受关注的文生视频方向，混元正在基于ST-DiT全面升级架构，预计到第三季度实现30秒的视频生成时长，并且在2-3个月内将开放文生视频API接口。

腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生强调，腾讯始终以“产业实用”，作为发展大模型的核心战略，通过打造高性能的模型、高效率的工具平台、高敏捷的场景应用、高可用的算力基础设施，以及强安全的模型环境，构建离产业最近的AI。

发布会后，智东西等少数媒体与腾讯云副总裁、腾讯云智能负责人、腾讯优图实验室负责人、腾讯企点负责人吴运声进行了深入交谈。

谈及本周OpenAI、谷歌发布的语音助手有什么样的商业或应用价值，吴运声认为，其中将视觉、音频、文本三种模态真正融合在一起，并做到端到端输入输出的技术值得关注，将成为未来技术发展的主要趋势，有很大的商业化前景。

腾讯元器试用申请地址：

https://open.hunyuan.tencent.com

腾讯云官网地址：

https://cloud.tencent.com/product/hunyuan

一、万亿参数MoE，单图30s可生成3D模型，视频生成时长达到16s

腾讯集团副总裁蒋杰蒋杰谈道，混元已实现从算力、平台等基础设施，到生文、生图、生视频、生3D等模型构建的全面布局。

▲混元从基础设施到模型构建的布局

腾讯去年发布混元大模型，经过多次迭代升级，文本生成基座模型已拓展至万亿参数规模，采用MoE（混合专家模型）结构，最高支持256k上下文，总体性能相比上一代提升50%。

目前，混元已推出Pro、Standard、Lite三个版本，分别对应万亿、千亿、百亿参数，并通过腾讯云平台提供给开发者和企业用户使用。

▲混元拓展至万亿MoE模型

在文生图方面，混元文生图基础架构全面升级，由传统的U-Net升级为DiT架构，参数量提升十几倍，测评结果在国内领先。

▲混元文生图架构升级

除了生成高质量、多风格的图片之外，混元还升级了多轮对话能力，用户可通过自然语言交互，在已生成图片的基础上进行二次编辑。

▲混元文生图多轮对话能力

在商用层面，混元可高效合成商品素材，例如给商品图片更换不同背景，目前已在广告场景投产。

▲混元文生图可高效合成商品素材

此外，混元大模型已开始布局文生、图生3D，据蒋杰透露，单图输入仅需30秒即可生成动漫、汽车、建筑等类型的3D模型。

▲混元布局3D生成

在视频生成方面，腾讯混元拥有文生视频、图生视频、图文生视频、视频生视频4大核心能力，支持视频风格化、视频重绘等多样化的产品玩法，相比Pika、Runway等友商分辨率更高、运动幅度更大，最长可以生成16s视频。

▲混元生视频4大核心能力

蒋杰透露，混元正在基于ST-DiT全面升级架构，预计到第三季度实现30秒的视频生成，并且在2-3个月内将开放文生视频API接口。

▲混元文生视频能力

二、推一站式Agent创作分发平台，月底将上线“腾讯元宝”App

基于混元大模型能力，腾讯于本周二（5月14日）全面开源了DiT架构文生图模型。这是业内首个中文原生的DiT架构文生图开源模型，支持中英文双语输入及理解，参数量15亿。

跟其他业界开源模型对比，混元DiT在多个维度上无短板，其综合指标在所有开源和闭源算法中排名第三，实现开源版本中的SOTA。

▲混元中文原生DiT架构文生图模型开源

今日腾讯云宣布，后续将开源三个尺寸文生文MoE模型，包括面向手机端部署的Hunyuan-S、面向PC端部署的Hunyuan-M以及面向云/数据中心部署的Hunyuan-L，参数规模从30亿到300亿不等。

▲混元即将开源多种尺寸MoE模型

此外腾讯云全面开启智能体生态，推出一站式AI智能体创作与分发开放平台“腾讯元器”，用户不仅可以在平台上创建专属AI智能体，使用腾讯官方的插件和知识库，还能将这些智能体并发布到QQ、微信或App上。

腾讯元器即日起开放申请体验，具有低门槛创建智能体、丰富的插件和知识库、打通腾讯全域分发通路等优势。

▲一站式AI智能体创作与分发开放平台腾讯元器

基于混元大模型能力，腾讯云将于月底5月30日正式上线腾讯元宝App，旨在高效搜索和提炼信息，为用户提供混元及搜索引擎驱动的高效信息整合工具，以及结合腾讯内容生态提供有趣实用的生活功能。

蒋杰称，腾讯元宝在交互方面较为简洁，只有一个输入框，通过这个入口可以实现AI搜索、文档总结、翻译官、口语陪练等功能。

▲腾讯元宝App即将上线

三、三大引擎降低模型落地门槛，5分钟开发企业级知识应用

腾讯云副总裁吴运声谈道，以大模型技术为核心，AI已成为数字化发展的关键动力。据Gartner机构发布的《生成式AI产业落地路径研究报告》，中国10亿参数规模以上的大模型数量已超过100个，超过60%的中国企业都计划在未来12-24个月部署生成式AI。

▲AI成为数字化发展关键动力

但要加速大模型产业创新，大模型厂商还需要解决三大挑战：降低工具使用门槛、提高平台适配性、安全合规保障。

为了应对这些挑战，腾讯云全新推出大模型时代原生工具链，包括“大模型知识引擎”、“大模型图像创作引擎”和“大模型视频创作引擎”三款PaaS工具，助力企业在知识服务、图像和视频创作场景提质提效。

针对知识管理场景，腾讯云推出大模型知识引擎，让AI不仅懂“产业”，更懂“企业”和“产品”。

知识引擎是聚焦企业知识服务场景的大模型应用开发平台，以大模型+RAG（检索增强生成）为框架打造。利用自然语言，企业用户5分钟就可以开发出一款知识服务应用，快速在客服营销、企业知识社区等业务场景落地。

▲大模型知识引擎

背后的腾讯云OCR解析大模型，将“知识解析”的准确率提升25%。通过语义级知识切分、数据向量化，大模型能快速检索到最匹配的答案，大幅度降低幻觉，回答更可靠。

大模型图像创作引擎提供AI图像生成与处理能力的API技术服务，可以结合输入的文本或图片智能创作出与输入相关的图像内容，支持图像风格化、AI写真、线稿生图等能力。

大模型视频创作引擎基于腾讯视频生成大模型等一系列音视频AI技术，支持高质量生成或处理视频内容，覆盖视频转译、视频风格化、图像跳舞、视频插帧、艺术字视频、运动笔刷、画布拓展等能力。

大模型原生工具链推动AI普惠的同时，腾讯云也升级了智能座舱、企点营销云AI助手、AI代码助手等多款大模型产品应用，让“开箱即用”的AI加速落地产业。

四、已接入内部600+场景，B端、C端双管齐下

据汤道生透露，混元大模型已接入腾讯内部600多个应用场景。

在C端，近日微信读书基于混元大模型推出AI问书、AI大纲等新功能，大幅提升用户的阅读效率和体验。

▲混元大模型在C端落地

在B端，腾讯旗下的SaaS协作产品全面接入混元。腾讯客服团队基于混元大模型升级智能客服体系，独创智能客服垂直领域精调模型，在智能对话的意图理解准确性和多轮问答流畅性方面，相比传统小模型下文准确性提升了38%。

腾讯广告基于混元推出了一站式AI广告创意平台腾讯广告妙思，助力提升广告生产及投放效率，其中图生图平均点击通过率提升15%。

▲混元大模型在B端落地

结语：打破AI“落地玻璃，让大模型从可见变为可用

大模型技术已逐渐趋于成熟，但从“可见”到“可用”之间，仍有一定的距离。企业该怎么找到生成式AI落地的最优路径？从模型、平台、场景应用到算力基础设施的全链路战略是腾讯云交出的答卷。

正如汤道生所说，“大模型的打造只是起点，把技术落地到产业场景，创造价值才是目标”，打造大模型原生工具链，助力企业在知识服务、图像和视频创作上提质提效，“构建离产业最近的AI”才能让大模型发挥最大的价值。

香港名媛携全家飞美国见证女儿名校毕业，背40万爱马仕包尽显富贵

102岁杨振宁庆祝“瓷婚”，翁帆母亲罕露面！墙上百万名画很抢眼

这个瓜，其实有点炸？

41岁大学老师因疫情后遗症去世，最后照片可怕，师兄发文披露隐情

大反转！纪云浩职业经历被老战友夸赞，大学学历与转业有新解释

亚洲杯乱了！沙特+韩国+卡塔尔出局，世界134鱼腩赢球=进奥运

巨星闪耀苏城田径钻石赛今日打响

凭何狂胜45分？森林狼做到四点：约基奇最强武器被废，康利太关键

后场大将强势反弹，他的表现可能会决定湖人季后赛的上限？

上一篇：北京两所学校违反阳光招生行为，官方通报
下一篇：合同到期，胡明轩官宣决定，朱芳雨摊牌，广东遗憾，杜锋祝福