元宇宙产业委《元宇宙十大技术》培训班第62期：罗予晨《大模型突破:AI应用打开全新思维范式》_产业动态_AI元宇宙产业委【官网】

2024年5月26日周日晚上八点，由元宇宙产业委（“中国移动通信联合会元宇宙产业工作委员会”的简称）指导，元宇宙产业委副主任委员兼联席秘书长、物链芯工程技术研究院元宇宙研究所所长叶毓睿创办的“燕园叶话”《元宇宙十大技术》培训班进行到第62期。微信视频号乐生活与爱IT、央链直播、DOIT、iCloser、智能制造万里行、上海创业导师、web3马甲哥、元宇宙头条、卢米宇宙、闽南在线等媒体直播或转载。客座嘉宾罗予晨讲解《大模型突破:AI应用打开全新思维范式》。

http://live.bilibili.com/32509301，观看回放。

以下是由腾讯自动生成的会议纪要，如有不对或者不妥的地方，还请见谅。

GPT技术应用与未来展望
主要介绍了数字人的最新技术，特别是GPT的应用。罗予晨表示，他之前在云天丽飞和商汤负责AI产品的落地转化，对技术的应用边界和成本有深入了解。本次介绍的重点是GPT，它具有低延迟和视频输入的能力。发布会展示的画面中，GPT能够看到画面，并改进了低延迟问题。目前，GPT-4o和GPT的API，只有图片和文本，没有视频接口。为了提升其性能，研究人员猜测将抽到的20帧合并成一张大图，再让GPT识别这图里面20几帧，找到有效帧进行回答，以降低延迟。

多人聊天对话场景下的技术挑战与突破
主要讨论了多人聊天对话场景下的技术挑战。首先，多人聊天对话场景下，需要处理不同问题的人之间的延续性和交叉性，这对于工程上的复杂度要求较高。其次，在多人聊天对话中，可以随时打断和调整语气，增加了亲切感。最后，在噪音环境中，需要关注语音识别的转写和声纹问题，以提高识别准确性。会议还提到了中国团队在GPT技术方面的应用情况，以及GPT在电话营销中的应用潜力。

GPT技术在多语言环境中的应用
主要讨论了多对多环境下的技术实现和挑战。首先，需要实现桌面投屏和摄像头获取画面，并通过视频转图片的方式完成视频解析。其次，要识别画面中的物体、文本，并给出相应的反馈。此外，还讨论了多语言能力、声纹识别能力和语音识别能力的展示。最后，提到了大模型技术的发展路径，包括NLP技术和Transformer架构，以及目前关注的一些新兴技术。

人工智能技术的发展与应用
主要讨论了GPT技术的一些应用场景和技术点。首先，GPT-4o的价格比GPT-4下降了一半，延迟也会更小，这表明在模型参数方面有优化。其次，OpenAI的基础建设得到了加强，微软与OpenAI的合作使得他们的GPU都被调光，从而提高了基础设施。此外，技术点还包括表和分词方面的优化，通过量化可以大幅减少推理次数，提高推理速度。最后，量化模型参数降低了，参数量也有所降低，这些变化使得模型更加高效。

优化模型性能与问题解决策略
主要讨论了两种优化模型性能的方法。第一种方法是减少浮点数，使得计算复杂度降低，推理速度变快，模型的权重和参数量也会减少。第二种方法是做减法，去掉一些参数，使整体模型效果良好。这两种方法都可以提高模型的性能，但具体操作方式尚不明确。此外，还讨论了词表扩大带来的问题，如敏感词汇的变化、新的错误等。最后，提到了今年影响较大的技术是上下文变大，通过meta技术将上下文从2K扩大到32K，使得性能损失较少。

人工智能技术在多模态应用中的应用
主要讨论了关于扩大上下文的技术，包括Kimi模型、多模态技术以及源代码问题。Kimi模型通过增加推理算力，将文本解析模型变成图像识别模型。开源社区也在不断取得技术进步，如mini GPT-4，它是一个完全开源的文本模型，通过冻结主要参数，只训练部分参数的黄色线性层，实现了从纯文本到图像识别的转变。此外，会议还讨论了语音感情陪伴、视觉陪伴和桌面识别等不同场景的应用。

GPT四的智能应用与情感认知能力
这段内容主要讲述了OpenAI在互动维度上的优化，通过将人机交互的感知能力赋予到GPT-4o模型中，使其能够理解人类的意图，实现与人类之间的自然对话。同时，OpenAI还利用桌面识别技术，让大模型能够理解并操作电脑桌面UI，实现信息的处理。此外，OpenAI还通过GPT四的桌面客户端，让大模型可以理解并找到购物车，为用户带来更便捷的体验。

智能机器人的应用与优化
主要讨论了智能客服系统的优势和局限性。传统的人工客服系统开发量大，灵活性差，而智能客服系统可以基于视觉认知直接跳过前两种技术，降低开发成本。此外，智能客服系统具备普适性和针对单一领域的优化能力，能够操作苹果网站，但操作淘宝时可能会出现错误。实践证明，一旦将用户的名字抹去，AI会变得非常智能化。然而，人工客服在接客过程中浪费了大量人力，而智能客服可以提高销售效率，让销售更加有效。

客户信息挖掘案例分享
这是一个真实案例，讲述了一个客户在使用系统时，AI给出了一个非常满意的回答，让客户的孩子更懂得时间管理。这个案例中，AI通过向量数据库进行数据检索，将内容和问题扔给大模型，实现对客户的回答。在实际落地生产过程中，遇到了复杂的业务需求，如文件的切分、切片、去重等。通过向量模型，实现了文件目录的理解用户意图，提高了检索效果。在PK大模型的比赛中，使用向量数据库可以比其他方法提高命中率50%。

信息化系统AI化的实践与挑战
主要讨论了信息化系统的AI化实现，通过GPT技术将用户的问题转化为API结构，实现数据的识别和过滤。同时，为了降低成本，开发了一套类似于扣子的工作流配置平台。此外，还提到了一些技术点，如交互式问答、数据库的目录结构等，以提高回答的精准度。最后，强调了GPT技术在复杂业务系统中的应用，以及其复杂思维带来的挑战。

AI模拟人类思维的应用探索
这段内容主要讲述了在问答应用中，通过模拟人的潜意识，让AI更加像人。通过大量数据训练出潜意识的思维逻辑，让AI生成与直接生成语言完全不同的效果。同时，介绍了数字人的相关技术，包括3D 数字人、2D 数字人、实时视频等。最后，强调了在关注数字供应商时，需要看到自己的效果。

数字人技术的应用与挑战
主要讨论了数字人技术的发展和应用。首先，数字人的拍摄和建模技术对其效果有很大影响，如果拍摄不好，效果会非常差。其次，价格不稳定，从一万块到300块不等。微软的速成技术是目前世界上最好的，其面部表情和情绪同步自然，几乎没有人工痕迹。然而，目前的技术还不能做到实时回答，只能生成剧本。最后，2D数字人的实时渲染技术已经在实现，有望在今年年底大规模普及。

数字人技术的未来发展方向与实时性
主要讨论了数字人技术的发展方向和实时性。首先，数字人的嘴唇对齐和情感表达是当前技术面临的挑战，微软、讯飞等厂家已经在这方面取得了突破，达到了100分的超情绪表达水平。其次，实时性是数字人技术的重要方向，通过AI算法和视频技术，可以实现200分的实时性。最后，未来数字人技术可能会在短视频平台等场景中得到广泛应用，实现与人类相似的交往和情感表达。

数字人与人类沟通的变革与未来
主要介绍了微软的TTS技术，以及数字人在人类沟通中的重要性。首先，微软的TTS技术可以模拟出世界顶级的声音，训练一个世界顶级TTS需要3万多元，每个小时52美元。其次，数字人可以适配人的习惯，在四G五G网络和智能手机的条件下取得巨大成功。再次，数字人在内容输出方面可以让人表达自己的成本大幅下降，符合人的沟通天性。最后，随着技术的发展，数字人播放视频的事可能会成为每个人表达自己的必要手段，特别是当TTS和数字的表达表现力超过本人时。

全链路内容生产平台的应用与展示
会议主要介绍了今年重要的转变是分，要做全链路的内容生产的平台。首先，文案机器人通过大模型进行文案创作，然后自动剪辑产生视频并发送出去。接着，AI机器人演示了如何给文案补充富商信息，如惠州出台新的楼市政策送一个亿，以及条件等。此外，还介绍了文案机器人的批量生成功能，以及自动剪辑功能。最后，会议还提供了一个加入腾讯会议的二维码，并邀请参会者输入海报号码。

GPT-4o与苹果的技术探索
主要讨论了Chat GPT-4o在应用突破方面的表现，以及与谷歌和Apple的合作情况。讲者认为，苹果作为技术老大，在交互标准、习惯建立等方面具有巨大优势，对OpenAI的价值非常大。同时，微软在3D数字人表情生成和自动剪辑方面也有值得借鉴的地方。此外，讲者还提到了剪映的自动化剪辑功能，认为这种技术虽然看似简单，但实际操作中却需要考虑很多细节。

数字人生产与商业模式探索
主要讨论了数字人的收费商业模式、大模型在数字人领域的应用以及一些标准化程度高的场景。首先，数字人只做2D，只生产短视频，价格报价按要素包括生成多少个数字人、时长、次数等。其次，大模型在数字人领域有广泛应用，但目前主要方向还是做数字人，因为大模型创业产品标准化程度高，但成本较高。最后，讨论了一些标准化程度高的场景，如智联招聘的招聘机器人等。

大模型市场的挑战与机遇
主要讨论了大模型产品的市场问题。首先，对于不在赛道上的公司，他们很难获得客户和转化。其次，智联这样的行业内公司，虽然能获得客户，但转化相对较好。然而，过去一年，包括与投资人的交流，没有看到任何一个软件公司的纯大模型产品线盈利。此外，大模型市场分为TOG（大规模企业）和小B（中小型企业）两个层面，私有化部署的大模型在落地应用中面临很多困难，如政府项目法务规定、数据出海限制等。最后，文星4.0是一个新的突破，但目前很多公司还是不同意数据上公网。

大模型应用的挑战与资源浪费
主要讨论了数据质量、算法模型、大模型应用等方面的问题。首先，由于微调的中文数据不如英文做运训练的部分数据，导致很多中文社区在适配通用数据集时表现下降。其次，算力成本较高，需要大量机器和集群，成本达到几千万。再次，大模型应用在企业中的落地情况不佳，很多知名企业并没有真正使用大模型，导致市场认可度不高。最后，讨论了Kimi等大模型的应用，虽然其出发点是外网检索加大模型和文会议件PDF加大模型，但实际效果并不理想，导致市场对其评价不高。

GPT3.5的兴衰与道德伦理的开放
主要讨论了GPT3.5的发展历程和影响。GPT3.5刚推出时，一度被认为是重度的牛逼用户，但后来使用频率逐渐降低。去年4月到5月，因为GPT3.5的开放性比GPT更好，所以在道德伦理上做了更大的开放。此外，还讨论了Google在发布大型模型时存在的问题，如80%的图像识别不能准确，以及谷歌发布会上的表现。最后，提到了GPT3.5与OI3.5和4的格式的相似之处，以及它有自己的风格。

美国限制模型出口对我国大模型发展的影响
主要讨论了美国通过限制模型出口管制法案对我国数字人产业的影响。会议中提到了117个备案的大模型，其中有部分使用了国外的开源大模型。此外，还讨论了如何判断数字人公司是否优秀，以及如何选择大模型的初始人。在选择大模型时，需要考虑两个问题：一是实现的业务目标，是增效还是降本；二是直播和短视频的需求。

短视频业务与数字人应用的策略选择
主要讨论了数字人技术在短视频业务中的应用，以及如何选择合适的数字人来达到降本增效的目的。首先，提到了数字人技术可以扩大视频播放量和转化，但需要注意保护用户隐私。其次，提到了美国政府曾经出台过法案要求审核开源代码，但至今没有实际执行判例。此外，还讨论了中国移动作为OpenAI代理商销售Chat GPT接口的情况，以及微软作为合作伙伴在开发票方面的便利性。最后，提到了百度作为中国大模型实力最强的公司，在开源世界中代表中国PK全球，值得赞赏。

开源落地与版权问题的探讨
主要讨论了开源落地、大模型技术、版权问题等方面的问题。首先，国内的大模型技术中，百度、阿里等公司已经取得了很大的进展，但仍有许多企业使用拉马等第三方技术。其次，关于版权问题，美国OpenAI在GPT微调后，鼓励用户上传数据，但如果侵犯了他人隐私，OpenAI会提供司法帮助。最后，国内在版权方面的进步较慢，甚至有些法律上没有保护大模型的声音。

大模型生成图像中的版权问题
主要讨论了图图像版权问题，提到很多大模型生成的图片中很少有品牌logo等元素，这可能导致版权问题。同时，企业端在AI创业过程中，可能会涉及到公司机密信息，如参数、报价单、销售等，担心这些信息被用于训练未来的模型。为避免这种情况，建议企业在使用大模型时，鼓励客户使用自己的key，并在计算送出去给哪家模型厂家时，与百度签署协议。此外，针对C端用户可能存在的问题，如采购员或销售员自行传递公司机密信息，建议他们整理、萃取精华、总结大纲等。

企业运营中的法律风险与应对策略
主要讲述了在创业过程中遇到的技术问题和法务问题。讲者以一个国内知名企业为例，讲述了这个企业在上市前使用某公司的产品，但最终因为法务问题而放弃。讲者认为，在创业过程中，技术上可能存在风险，但法务问题更为关键。此外，讲者还提到了B端应用层面较少，加上B端的法务或其他问题，使得创业公司在提供有偿服务时面临困难。最后，讲者强调了在创业过程中，需要关注法务问题，而不是技术问题。

AIGC工具在著作权保护中的应用
主要讨论了AIGC工具在著作权法中的地位，以及其在数字人作为专业人士的助理中的应用。首先，不能一概而论，需要找到模糊的边界。其次，虽然AI技术在某些领域可以替代人类，但在法律领域，AI无法替代人类。最后，大模型的限制也是一个问题，如开放环境下的决策力低于月薪一万元的员工。

数字人的两个层面及其应用
数字人包括两个层面：感官和表达。数字人的第一层面是感官，如听觉、视觉等，可以理解用户的需求。第二层面是表达，通过语言进行交流。数字人的思考过程主要在大数据中进行。下一期沙龙将于6月2号晚上8点，邀请清芸董事长王磊分享人形机器人。这种机器人可以实现视觉、听觉和语言表达，使得机器人的功能更加强大、高效，对人类友好。最后，感谢罗总和转播媒体老师们，感谢提问的观众们。今天的沙龙就到这里，再见！

下期课程预告：

元宇宙沙龙系列第63期（6月2日，周日晚8点）

王磊：《人形机器人-正在逐渐走进我们的生活》

上海清芸机器人有限公司董事长

清华大学硕士，英国曼彻斯特大学博士，机器人领域专家；

曾任上市公司上海新时达电气股份有限公司集团副总裁，通花集团CEO；

从事自动化、工业机器人，服务机器人领域近20年

元宇宙产业委《元宇宙十大技术》培训班是由元宇宙产业委副主任委员兼联席秘书长、物链芯工程技术研究院元宇宙研究所所长叶毓睿发起和创办的。叶毓睿长期关注区块链、VR/AR、AIGC、数字孪生、3D内容创作平台或规范（如Web3D、WebXR）等元宇宙等前沿技术领衔参与撰写的《元宇宙十大技术》一书系统地剖析了构成元宇宙的技术组成、原理、案例和未来趋势。他领衔并邀请了十多位领域的Top级专家撰写的《元宇宙十大技术》一书，系统地剖析了构成元宇宙的核心技术要点，该书得到了包括朱嘉明、肖风、姚前及四位院士等70多位资深专家的联袂推荐。通过“燕园叶话”这个平台,叶毓睿希望能够推动元宇宙技术在社会各界的交流与普及。《元宇宙十大技术》一书为这个系列活动提供了理论基础和技术支撑。同时,叶毓睿还积极运用自己的人脉资源，邀请国内外元宇宙领域的专家学者前来主讲，保证了内容的专业性和前瞻性。截止2024年5月26日，已经举办了第62期，促成了不少合作，欢迎关注、转发。通过关注视频号乐生活与爱IT，可以查看过往回放。

元宇宙产业委《元宇宙十大技术》培训班目前主要以线上形式（腾讯会议+视频号）展开，并邀请了13+媒体伙伴们一起转播、转载，通常每次在线观看人数4000~41000不等，也是受访嘉宾及其所在公司的良好展示平台。该品牌系列活动的创办，是元宇宙产业委和叶毓睿推动元宇宙产业发展、促进元宇宙技术交流的重要举措之一。《元宇宙十大技术》培训班的举办，是元宇宙产业委为推动元宇宙技术交流、促进产业发展作出的重要努力。通过持续邀请专家学者主讲，剖析元宇宙技术，和介绍应用场景或案例，使广大公众对元宇宙有了更深入的了解，也增强了对元宇宙发展的信心。可以预见，这一系列活动有望对元宇宙产业链培育人才、推动技术创新、规范产业发展起到积极的推动作用。我们期待它能够发挥引领示范效应，推动元宇宙产业健康快速发展。

元宇宙产业委《元宇宙十大技术》培训班第62期： 罗予晨《大模型突破:AI应用打开全新思维范式》

元宇宙产业委《元宇宙十大技术》培训班第62期：罗予晨《大模型突破:AI应用打开全新思维范式》