2023年9月22日,第十三届中国数字出版博览会期间,由中国图书进出口(集团)有限公司主办,中图云创智能科技(北京)有限公司承办第三届新阅读内容产业联盟大会在敦煌国际会展中心顺利举办。来自全国出版行业及科技领域的领导、专家出席会议,围绕科技赋能文化发展议题展开深入探讨交流。
本系列分五期摘录专家论坛环节的精彩分享,以飨读者。以下为第五期内容:
AIGC赋能出版行业创新转型
主讲人:王剑白 博士
微软(中国)有限公司 数据科学与人工智能事业部解决方案总监
这场科技海啸面前,谁也无法装睡。
- 生成式AI、NLP、大模型分别是什么?
人工智能是模仿人的听、说、读、写、看的能力。
看是图像识别,听是语音转文本,说是文本转语音,读可以理解成自然语言(NLP),写是内容创作。
第四波人工智能浪潮以生成式为主,ChatGPT 是一个聊天工具,它在2022年11月30日上线,前端开发周期只有14天,两个月迅速拥有过亿用户。
ChatGPT带来如此大的震撼,首先在于NLP 自然语言处理。NLP是人工智能皇冠上的明珠,谁能解决自然语言处理的问题,谁就很大程度解决了人工智能的问题。
第二是生成式AI,ChatGPT每一次输出的内容并非从数据库复制出来的固定文字,而是根据用户需求所生成。
第三是多轮对话,在沟通的过程中,ChatGPT了解之前对话的内容。
多轮对话事实上只是工程,而NLP自然语言处理和生成式AI是更为重要的能力。
决定人工智能水平的三个因素:算法算力和数据。
本轮大模型背后的算法是Google发明的Transformer,GPT全名是Generative Pre-trianed Transformer,即通用的预训练的Transformer。Transformer不是特别新的算法,为什么GPT现在这么火呢?
看算力。2019年,OpenAI和微软合作,微软为OpenAI提供了全球排名前5的算力平台。2019年最好的显卡叫A100,每块售价大概10万元人民币,微软为OpenAI搭建的算力平台采用了一万块A100,以及28.5万个CPU。
GPT3在训练初期的时候,每训练一次model需要花费1000万美金。随着技术不断优化,训练一次依然需要花费140万美金,这是一个高成本高投入大力出奇迹的产品。
再看数据,GPT3的训练数据量非常大,它将2021年9月份之前所有知识类数据(容量达45TB)进行训练。在此基础上,又做了一版高质量的数据标注,形成的数据是57G。
所以这一轮大模型,大在算法,大在数据,大在算力。
2018年-2021年期间,所有的大厂都是在Google 的Bard算法上做优化,在此期间,GPT2的算法被Bard吊打,但是当时整个OpenAI团队坚信模型规模足够大的时候就会成功。
2019 年OpenAI CEO山姆·奥特曼(Sam Altman)正式和微软合作,发展到GPT3的时候,整个参数的规模已经到了1750亿。
目前国内外对于大模型的研究都非常多,国外有OpenAI 和微软合作的ChatGPT、Google PaLM 2、Meta LLaMA 2、还有Anthropic Claude等几个大模型算法比较突出。
在文生图领域,大家可能都听说过Midjourney,国内个人投资者,包括大厂基本都在下沉。7月初的数据是,国内发布了 103个大模型,现在会更多。
百模大战的竞争非常激烈。好消息是这一轮的大模型只有中国和美国可以一较高下,所以国内在大模型领域发展得非常快。
- 大模型语言模型主要能力和应用场景
目前,OpenAI在微软云端发布的产品有四个能力。分别是:
GPT-3/3.5/4:生成和理解文本
Codex:生成和理解代码。
Dall-E2:根据文本提示生成图像。
Enterprise ChatGPT:聊天机器人、头像、客户中心回复。
大型语言模型主要能力及应用场景有四个主要能力:内容生成、总结、代码生成和语义检索。
大模型总结的能力与出版行业有很多可以结合的应用场景。比如对一本书进行缩写,可以要求它缩写成1000字或2000适合小学生的读本,这对于内容衍生有很大的帮助。
- 语言生成及理解能力: 中、英语义理解能力

- 推理能力:大模型涌现的能力

- 大型语言模型主要功能:GPT4多模态能力

提问:拳击手套落下会发生什么?
ChatGPT回答:拳击手套落下来,木板会被打到,另外一边翘起,球会弹起来。
ChatGPT知道这是一个多模态的联动。
- 人工智能的语言能力
目前,在科研领域已有大量的医生学者使用ChatGPT速读论文,可以快速提炼文章重点内容。对于出版行业来说,速读有助于高效了解出版物的内容。
同时,ChatGPT具有多语言能力,可以快速做文本内容的翻译,对于文化出海起到很大的助力。
此外,微软Azure Speech 提供多语种、方言以及多种角色语音。可用于人工智能、数字人的语音服务。
- 出版行业利用AIGC创新的模式和想法
内容生产。可以根据用户提供的主题、风格、长度等要求,自动生成文章、故事、诗歌、歌词等内容,或者对已有的内容进行改写、优化、扩充等。可以降低出版行业的人力成本,提高内容的质量和多样性,满足不同读者的需求和喜好。
内容审核。可以利用其强大的语言理解和推理能力,对出版内容进行审核和评价,检测是否存在违法违规、抄袭、错误、低俗等问题,并给出相应的建议和修改方案。这样可以提高出版行业的规范性和信誉度,保障内容的合法性和正当性。
内容推荐。可以根据用户的阅读历史、兴趣爱好、社交关系等信息,为用户推荐合适的出版内容,或者根据用户的反馈和评价,动态调整推荐策略。可以提高出版行业的用户粘性和满意度,增加内容的传播和影响力。
内容互动。可以根据用户的问题或评论,与用户进行智能对话,回答用户的疑问,解释内容的背景,引导用户深入阅读,或者激发用户的创造力,邀请用户参与内容的创作。可以提高出版行业的用户参与度和忠诚度,增强内容的趣味性和互动性。