
【大模型科普】AIGC技术发展与应用实践(一文读懂AIGC)
本文介绍了AIGC(生成式人工智能)的概念、应用场景及其对行业和职业的影响,涵盖文本、图片、语音、视频等领域的实践案例,并探讨了AIGC在编程、搜索和智能办公中的应用。
【作者主页】Francek Chen
【专栏介绍】 ⌈ ⌈ ⌈人工智能与大模型应用 ⌋ ⌋ ⌋ 人工智能(AI)通过算法模拟人类智能,利用机器学习、深度学习等技术驱动医疗、金融等领域的智能化。大模型是千亿参数的深度神经网络(如ChatGPT),经海量数据训练后能完成文本生成、图像创作等复杂任务,显著提升效率,但面临算力消耗、数据偏见等挑战。当前正加速与教育、科研融合,未来需平衡技术创新与伦理风险,推动可持续发展。
文章目录
一、AIGC概述
(一)什么是AIGC
AIGC的全称为“Artificial Intelligence Generated Content”,中文翻译为“人工智能生成内容”。这是一种新的创作方式,利用人工智能技术来生成各种形式的内容,包括文字、音乐、图像、视频等。
- AIGC是人工智能进入全新发展时期的重要标志,其核心技术包括生成对抗网络(GAN,Generative Adversarial Networks)、大型预训练模型、多模态技术等。
- AIGC的核心思想是利用人工智能算法生成具有一定创意和质量的内容。通过训练模型和大量数据的学习,AIGC可以根据输入的条件或指导,生成与之相关的内容。例如,通过输入关键词、描述或样本,AIGC可以生成与之相匹配的文章、图像、音频等。
- AIGC技术不仅可以提高内容生产的效率和质量,还可以为创作者提供更多的灵感和支持。在文学创作、艺术设计、游戏开发等领域,AIGC可以自动创作出高质量的文本、图像和音频等内容。同时,AIGC也可以应用于媒体、教育、娱乐、营销、科研等领域,为用户提供高质量、高效率、高个性化的内容服务。
(二)AIGC与大模型的关系
大模型与AIGC之间的关系可以说是相辅相成、相互促进的。大模型为AIGC提供了强大的技术基础和支撑,而AIGC则进一步推动了大模型的发展和应用,具体如下:
- 大模型为AIGC提供了丰富的数据资源和强大的计算能力
- AIGC的需求也推动了大模型的发展
- 大模型和AIGC的结合,也带来了广泛的应用前景
(三)常见的AIGC应用场景
AIGC可以应用于各行各业,主要包括但不限于生成文字、图像、音频、视频等,具体如下:
应用场景 | 描述 |
---|---|
电商 | 生成商品标题、描述、广告文案和广告图。 |
办公 | 写周报日报,写方案,写运营活动,制作PPT,写读后感,写代码。 |
游戏 | 生成场景原画,生成角色形象,生成世界观,生成数值,生成3D模型,生成NPC对话,音效生成。 |
娱乐 | 头像生成,照片修复,图像生成,音乐生成。 |
影视 | 生成分镜头脚本,生成剧本脚本,台词润色,生成推广宣传物料,音乐生成。 |
动漫 | 原画绘制,动画生成,分镜生成,音乐生成。 |
艺术 | 写诗,写小说,生成艺术创作品,草图生成,艺术风格转换,音乐创作。 |
教育 | 批改试卷,试卷创建,搜题答题,课程设计,课程总结,虚拟讲师。 |
设计 | UI设计,美术设计,插画设计,建筑设计。 |
媒体 | 软文撰写,大纲提炼,热点撰写。 |
生活 | 制定学习计划,做旅游规划。 |
(四)AIGC技术对行业发展的影响
AIGC技术对行业发展的影响深远且广泛,主要体现在以下几个方面:
- 内容创作领域的革新:AIGC技术能够自动生成高质量的文本、图像、音频和视频等内容,极大地提高了内容创作的效率。在新闻、广告、自媒体等领域,AIGC已经实现了广泛应用,帮助创作者快速生成多样化、个性化的内容,满足市场需求。这种技术革新不仅降低了内容创作的成本,还激发了创作者的创新灵感,推动了内容产业的繁荣发展。
- 生产力提升与成本降低:AIGC技术在多个行业中展现了其提升生产力和降低成本的潜力。例如,在游戏开发领域,AIGC技术可以用于场景构建、角色互动等,减少人工制作的工作量,提高开发效率。在制造业中,AIGC技术可以辅助设计、优化生产流程,降低生产成本。这些应用使得企业能够更快地响应市场变化,提升竞争力。
- 用户体验的升级:AIGC技术通过提供个性化、定制化的内容和服务,显著提升了用户体验。在智能客服、在线教育等领域,AIGC技术可以根据用户的需求和偏好提供精准的服务,满足用户的个性化需求。这种以用户为中心的服务模式不仅增强了用户的满意度和忠诚度,还为企业带来了更多的商业机会。
- 推动行业创新与转型:AIGC技术的快速发展为传统行业带来了转型升级的契机。通过与AIGC技术的深度融合,传统行业可以探索新的商业模式和服务模式,实现创新发展。例如,在零售业中,AIGC技术可以用于智能推荐、虚拟试衣等场景,提升购物体验并促进销售增长。在金融领域,AIGC技术可以应用于投资策略优化、风险管理等方面,提高金融机构的决策效率和准确性。
(五)AIGC技术对职业发展的影响
AIGC技术对职业发展产生了深远的影响,主要体现在以下几个方面:
- 新兴职业的出现:随着AIGC技术的快速发展,一系列与该技术相关的新兴职业应运而生。例如,AI训练师、机器学习工程师、数据标注员等职业需求激增。这些新兴职业不仅要求从业者具备扎实的技术基础,还需要不断学习和掌握最新的AIGC技术动态。
- 传统职业的转型升级:AIGC技术也为传统职业的转型升级提供了契机。许多传统职业如编辑、设计师、教师等,在AIGC技术的辅助下,工作效率和创作质量得到了显著提升。同时,这些职业也需要从业者不断适应技术变革,掌握新的技能和工具,以适应市场需求的变化。
- 工作方式的变革:AIGC技术改变了传统的工作方式,使得远程工作、灵活办公成为可能。许多企业开始采用AIGC技术来优化工作流程,减少人力成本,提高工作效率。这种变革不仅为员工提供了更加灵活的工作方式,也为企业带来了更大的经济效益。
- 职业发展路径的多样化:AIGC技术的发展为职业发展路径提供了更多的可能性。从业者可以根据自己的兴趣和特长,选择适合自己的职业发展方向。例如,一些对AI技术感兴趣的从业者可以选择成为AI训练师或机器学习工程师,而一些具有创意和设计才能的从业者则可以利用AIGC技术来提升自己的创作能力。
- 持续学习与技能提升:面对AIGC技术的快速发展,从业者需要不断学习和提升自己的技能水平。通过参加培训课程、阅读专业书籍、参与技术论坛等方式,从业者可以紧跟技术前沿,保持自己的竞争力。
(六)常见的AIGC大模型工具
常见的AIGC大模型工具包括:OpenAI的ChatGPT、DeepSeek、科大讯飞的讯飞星火、阿里的通义千问、百度文心一言、字节跳动豆包和Kimi等等。
这些工具基于大规模语言模型技术,具备文本生成、语言理解、知识问答、逻辑推理等多种能力,可广泛应用于写作辅助、内容创作、智能客服等多个领域。通过不断迭代和优化,为用户提供更加智能、高效的内容生成解决方案。
(七)AIGC大模型的提示词
AIGC大模型的提示词(Prompt)是指用户向大模型输入的文本内容,用于触发大模型的响应并指导其如何生成或回应。这些提示词可以是一个问题、一段描述、一个指令,甚至是一个带有详细参数的文字描述。它们为大模型提供了生成对应文本、图片、音频、视频等内容的基础信息和指导方向。
提示词的重要作用如下:引导生成、提高准确性、增强交互性。
使用提示词需要注意一些技巧,这样可以从大模型获得更加符合我们预期要求的结果,主要技巧如下:简洁明确、考虑受众、分解复杂任务、使用肯定性指令、示例驱动、明确角色、遵守规则、自然语言回答。
二、文本类AIGC应用实践
(一)案例1:与DeepSeek进行对话
1. 快速体验DeepSeek
访问DeepSeek官网(https://chat.deepseek.com/),会出现如图1所示对话界面,在提示词输入框的底部,有两个按钮,即“深度思考(R1)”和“联网搜索”,可以用鼠标点击来选中或取消,默认情况下,“深度思考(R1)”按钮是处于选中状态,“联网搜索”则处于未选中状态。两个按钮的功能如下:
- 深度思考(R1):表示触发更复杂的多步推理能力,适合需要逻辑链分析的场景,典型使用场景包括数学题/物理题推导、文学作品的隐喻分析、编程问题的架构设计、需要分步骤解释的操作指南等。
- 联网搜索:表示实时获取最新网络信息,适合时效性强的查询,典型使用场景包括查询实时股价/汇率、验证最新科研成果、获取突发事件进展、检索特定网页内容等。
在提示词输入框中输入“请模仿李白的《望庐山瀑布》做一首诗,题目是《望连云港花果山》”,然后回车,或者用鼠标点击提示词输入框右侧的箭头按钮,向DeepSeek发起提问。DeepSeek给出的回答如图2所示,需要注意的是,大模型属于概率模型,每次生成的回答内容可能不完全相同。
2. DeepSeek的基本用法
(1)基本原则:简单直接,自然表达。
① 无需复杂结构。直接描述需求即可,无需添加“角色扮演”(如“假设你是专家”)或复杂指令(如“用学术语言分三点回答”)。比如,你可以直接向DeepSeek提问“什么是光合作用?”、“如何用Python写一个计算器程序?”,而不建议使用提示词“请以生物学教授的身份,用三个段落解释光合作用,每段不超过100字”。
② 多轮对话优化结果。如果首次回答不完整,可通过追问补充细节,无需一次性给出完美提示。比如,第一轮提问“写一首关于秋天的诗”,第二轮提问“加入一些悲伤的情绪”,第三轮提问“把‘落叶’换成比喻句”。
(2)不同场景的提问技巧(非必需,但可提升效率)。虽然简单提问即可满足大多数需求,但在复杂任务中,适当提供背景信息或明确需求会让结果更精准,具体技巧包括:
① 知识类问题。比如,基础提问是“量子力学的基本原理是什么?”,优化后的提问是“用通俗易懂的语言解释量子纠缠,适合高中生理解”。
② 创作类任务(写作、编程等)。比如,基础提问是“写一个关于人工智能的科幻短篇故事”,优化后的提问是“写一个反乌托邦主题的科幻故事,主角是女性工程师,结局有反转”。
③ 实用建议(学习、工作等)。比如,基础提问是“如何提高英语听力?”,优化后的提问是“我每天只有30分钟学习时间,有哪些高效的英语听力练习方法?”。
④ 复杂任务(数据分析、代码调试)。比如,基础提问是“这段Python代码报错了,帮我看看问题”,优化后的提问是“我的代码目标是爬取网页数据,但遇到SSL证书错误。报错信息如下:[粘贴代码]”。
作为初学者,DeepSeek的一些“魔法”指令也很有用,比如,你可以输入“/步骤 如何用手机拍摄旅游照片”,DeepSeek返回的回答结果就会按照步骤详细给出拍摄旅游照片的说明,再比如,你可以输入“请解释量子计算,然后/简化”,它就会返回比较简明扼要的回答。
指令 | 功能 |
---|---|
/续写 | 当回答中断时⾃动继续⽣成 |
/简化 | 将复杂内容转换成⼤⽩话 |
/⽰例 | 要求展⽰实际案例(特别是写代码时) |
/步骤 | 让AI分步骤指导操作流程 |
/检查 | 帮你发现⽂档中的错误 |
3. 使用DeepSeek处理文档
点击DeepSeek界面中的「回形针」图标上传⽂件,支持的文件类型包括文本类(PDF、DOCX、TXT、Markdown)、数据类(CSV、XLSX)和图像类(JPG、PNG)。然后,就可以在对话框中输入提示词,比如,可以输入“总结这份年报的三个核⼼要点”、“提取合同中的责任条款制成表格”、“对⽐⽂档A和⽂档B的市场策略差异”、“从实验报告中整理所有温度数据”、“请识别图片中的文字”等。也可以使用一些指令来处理文档,如表3所示。
功能 | 指令模板 | 应用场景 |
---|---|---|
内容摘要 | /总结 [文件名] 生成500字摘要 | 快速把握长篇文档核心内容 |
问答提取 | /问答 [文件名] 第三章提到的技术参数是? | 精准定位特定信息 |
数据可视化 | /可视化 [文件名] 将销售数据生成折线图 | 转化表格数据为图形分析 |
跨文档对比 | /对比 文件A vs 文件B 的政策差异 | 合同/论文查重对比 |
还可以要求DeepSeek对回答结果进行结构化输出,比如,可以输入如下提示词:
/解析文件 年度报告.docx
输出要求:
(1)按"营收/利润/成本"分类
(2)用Markdown表格对比近三年数据
(3)关键增长点用✅标注
(二)案例2:与百度文心一言进行对话
1. 告诉文心一言你要的风格
访问文心一言官网(https://yiyan.baidu.com/),在输入提示词时,明确指定你希望生成的文本内容的风格。这样,文心一言在理解并处理你的请求时,会更有针对性地调整其生成内容的风格,以满足你的具体需求。比如,可以使用提示词:
请按照要求写一篇200字左右关于云计算的介绍。注意事项:文章的受众是中学生,需要通俗易懂,语言风格需要幽默、风趣一些
想要生成不同语气风格的文字,可以在问题描述中加入你想要的语气风格作为限定条件,提示文心一言按照你的要求去输出。比如,如果你需要正式语气,可以在提示词中加入“请采用正式的词汇和语法结构,使内容显得庄重、严肃和专业”;如果你需要抒情语气,请在提示词中加入“请使用富有感情和表达感情的词汇,使内容产生共鸣和情绪共振”;如果你需要口语化语气,请在提示词中加入“请运用口语化的表达方式,例如俚语、俗语和口头禅,使内容更加轻松和亲切”。
2. 告诉文心一言你要的结构
在构建提示词时,应明确指定期望的输出结构。比如,如果是要求生成一篇文章,可以在提示词中明确指出“请按照引言-正文-结论的结构来撰写”。这样,文心一言在生成内容时,会遵循这一结构框架,使得输出更加条理清晰、逻辑严密。再比如,如果要撰写给上级领导的方案、报告、总结时,可以使用提示词:
请按照【现状/问题/解决方案,数据洞察/问题概览/调研方向,数据/亮点/问题/经验】这个结构撰写一份关于我国芯片行业的总结报告
3. 告诉文心一言你要的角色
在提示词中可以设定具体的角色或视角。例如,在要求创作故事时,可以明确指定“以一位勇敢探险家的视角讲述这段经历”。这样的提示能引导文心一言在生成内容时,从特定角色的角度出发,赋予文本独特的情感色彩和叙事风格。此技巧有助于增强生成内容的代入感和故事性,使内容更加丰富和引人入胜。下面是一段提示词实例:
请你作为一个小红书文案撰写高手,为我生成一篇爆款小红书文案,要求:突出酒店的特色,包括海景房、豪华单间、最新装修、免费早餐、无线上网等
下面是另一段提示词实例:
我希望你能扮演记者的角色,按照我的要求撰写一份新闻调查,要求:调查油罐车不清洗直接运送食用油的事情,不要出现具体企业名称,要给出政府部门的处理态度
4. 告诉文心一言你的内容要求
可以通过详细具体的提示词明确表达内容要求。无论是希望生成的文章主题、关键词汇,还是期望涵盖的信息点、情感倾向,都应在提示词中清晰呈现。这样做能让文心一言更准确地理解用户需求,生成更符合期望的内容。比如,可以通过如下提示词表达自己的内容要求:
在6G专利申请方面,中国已经遥遥领先。2021年的数据显示,中国的6G专利申请量占比高达40.3%,稳坐世界第一的宝座。
请把上面的数据更新到目前最新的数据
如果对输出的内容有比较多的要求或限制,不妨在输入框中将这些内容要求一条一条明确告诉文心一言,比如,可以采用类似如下的提示词:
请以小红书的风格,按照以下要求帮我为“海景美食餐厅”写一篇小红书种草文案;
内容要求:
(1)要有标题、正文
(2)标题字数:不超过20个字;尽量简短精炼,要足够吸引眼球,用词浮夸
(3)正文分段,层次分明,每段最少100字
(4)要用“首先、其次、最后”这种模式
(5)整篇文案不要超过1000个字
5. 告诉文心一言你想写的文体
明确指定文体,如散文、小说、诗歌、科技文等,让大模型理解并模拟该文体的语言特点、结构安排和表达习惯,从而输出更具针对性的文本。比如,可以采用提示词“请写一段[中秋赏月]的朋友圈文案,需要采用藏头诗的形式”。
6. 指导文心一言分步解决问题
将复杂问题拆解成多个简单、具体的步骤,作为提示词输入给文心一言。这样不仅能降低问题的处理难度,使文心一言更容易理解和响应,还能确保解决问题的过程更加系统、有条理。通过逐步引导,可以逐步逼近问题的解决方案,提高答案的准确性和实用性。比如,如果想让文心一言帮你制定一份旅行规划,可以使用类似如下的提示词:
请为我规划一次为期一周的连云港自由行;
(1)第1步:列出必去的景点,如江苏海洋大学、花果山、连岛景区、云台山、桃花涧风景区、海州古城;
(2)第2步:根据景点位置安排每日行程,确保交通便利;
(3)第3步:推荐几家当地的特色餐厅,包括早餐、午餐和晚餐;
(4)第4步:提供一家性价比高的酒店住宿建议,并考虑其位置是否便于游览。
7. 告诉文心一言你要的示例
明确沟通意图,通过具体示例引导大模型理解你的需求。这有助于文心一言更准确地捕捉你的思维框架和期望结果,减少误解。比如,可以使用类似如下的提示词:
我是一位高校学生,请帮我写一份实习周报,内容尽量简洁精炼,下面是我本周的实习内容:
(1)完成了3个项目书的修改
(2)撰写了一篇博客“AIGC应用与实践”
输出要求示例:
【本周实习周报】
【本周实习进展】本周做了哪些事,产生了哪些结果
【下周实习安排】基于本周的结果下周要推进哪些事
【思考总结】简要说说本周的收获和反思
8. 告诉文心一言你要的场景
在输入提示词时,应明确描述所需的上下文或环境背景,如“在科幻电影中描述一个未来城市的景象”或“请撰写一封给朋友的生日祝福信,场景设定在海边日落时”。这样做有助于文心一言更好地理解你的需求,生成更符合场景氛围和情境的内容,从而提升输出内容的贴切性和情感共鸣。
(三)案例3:使用讯飞智文生成PPT
讯飞智文是科大讯飞公司旗下的AI一键生成PPT/WORD的网站平台,是基于科大讯飞星火认知大模型技术基础上开发的一个具体应用,主要功能有文档一键生成、AI 撰写助手、多语种文档生成、AI自动配图、模板图示切换功能。这里介绍如何使用讯飞智文快速生成PPT。
请首先准备一个包含文本内容的PDF文件,比如,可以从网络新闻报道中复制一段关于2024年7月19日微软蓝屏事件的内容保存到一个WORD文档中,命名为“微软蓝屏.docx”,然后,使用WPS软件打开“微软蓝屏.docx”,把该WORD文档保存成PDF格式,生成“微软蓝屏.pdf”。
访问讯飞智文官网(https://zhiwen.xfyun.cn/),在首页(如图5所示)中点击“免费使用”,然后按照网页提示完成注册(推荐使用手机号注册)。
在页面中(如图6所示)选择AI PPT的“文档创建”。然后,在出现的页面中(如图7所示),点击“点击上传”,把本地文件“微软蓝屏.pdf”文件上传上去(当然,也可以上传“微软蓝屏.docx”)。
然后,在出现的页面中(如图8所示),点击“开始解析文档”。之后,页面会显示提示文字“好的,已收到您的要求,让我先为您生成PPT标题和大纲”。过一会儿,就会显示自动生成的PPT标题和大纲,如果你不满意,可以点击页面底部的“重新生成”,如果满意,可以直接点击“下一步”。
在出现的页面中(如图9所示),选择你想要的模板配色,然后点击页面顶部的“开始生成”。经过一段时间以后,页面就会显示自动生成的PPT(如图10所示),点击页面右上角的“下载”,就可以把PPT保存到本地电脑中,然后,可以根据自己的需求,自己对PPT继续进行修改和完善。在本地电脑中打开自动生成的PPT,可以看出,AI制作PPT的水平非常专业,逻辑清晰,配图精美,超过了很多PPT初级者的制作水平,可以大大提高普通用户制作PPT的效率和水平。
三、图片类AIGC应用实践
(一)图片类AIGC应用场景
图片类AIGC是一种基于人工智能技术生成图片的方法,它利用深度学习、生成对抗网络(GAN)等先进算法,通过学习和模仿大量图像数据,能够自动创作出高度真实和艺术化的图片。AIGC在图像生成、修复、风格转换、艺术创作等领域展现出强大能力,为数字艺术、设计、游戏、电影等多个行业带来创新解决方案。其优势包括高效性、多样性和自动化,能够快速生成大量高质量的图像内容,满足各种复杂需求。
图片类AIGC的应用场景非常广泛,主要包括图像生成、图像修复、图像增强和图像识别等方面:
- 图像生成:AIGC能够生成高度逼真的图像,如人脸、动物、建筑物等。例如,OpenAI发布的DALL-E可以根据文本提示词创作出全新的、原创的图像,展示了AI在图像创作方面的强大能力。
- 图像修复:AIGC还可以修复损坏的图像,如去除噪声、填充缺失的部分等。这项技术对于保护和恢复古老的艺术作品、修复损坏的照片等具有重要意义。
- 图像增强:通过对图像进行增强处理,AIGC可以增加图像的饱满感和增强细节,使图像质量得到提升。这在提升照片的视觉效果、改善图像的清晰度和细节方面非常有用。
- 图像识别:AIGC在图像识别方面也有广泛应用,可以识别图像中的对象、场景和特征,如人脸识别、车牌识别等。这项技术对于安防监控、智能搜索、自动驾驶等领域的发展至关重要。
(二)图片类AIGC案例实践
图片类AIGC大模型主要包括Midjourney、Stable Diffusion SDXL、百度文心一格等。这里以百度文心一格为例介绍图片类AIGC的使用方法。文心一格是一款由百度公司研发的AI绘画工具,为用户提供了丰富的创意空间。使用文心一格进行AI绘画的步骤包括注册账户、选择创作模式、输入提示词、设置画面类型、设置比例、设置数量以及生成图片等,具体如下:
- 注册账户:访问文心一格官网(https://yige.baidu.com/),点击“注册”按钮,完成注册过程。
- 选择创作模式:进入文心一格首页以后,点击“立即创作”。在出现的界面中,在界面左上角位置选择“AI创作”,可供选择的模式包括推荐、自定义、商品图、艺术字、海报,可以满足不同的创作需求。这里可以选择默认的模式“推荐”。
- 输入提示词:在提示词输入框中输入提示词,比如输入“请绘制一张图片,一个9岁的女孩子在海边沙滩上挖沙子”。
- 设置画面类型:可以选择智能推荐、唯美二次元、中国风等各种类型。
- 设置比例:可以选择竖图、方图、横图。
- 设置数量:设置想要生成的图片的数量,比如设置为1。
- 生成图片:点击“立即生成”,就可以生成相应的图片(如图所示)。图片生成以后,可以点击图片底部的“编辑本图片”,对图片进行编辑。
文心一格提供了丰富的AI编辑功能,可以对图片进行各种智能化处理,包括图片扩展、图片变高清、涂抹消除、智能抠图、涂抹编辑、图片叠加等。
四、语音类AIGC应用实践
语音类AIGC是一种利用人工智能技术(特别是语音识别、自然语言处理和语音合成技术),自动生成和处理语音内容的技术。它能够模拟人类语音,实现语音到文本的转换、文本到语音的合成,以及语音情感分析等功能,广泛应用于智能语音助手、智能客服、语音翻译等多个领域。
(一)语音类AIGC应用场景
语音类AIGC的应用场景非常丰富,涵盖了多个领域,从日常生活到专业应用,都展现出了其独特的价值和潜力,以下是一些主要的语音类AIGC应用场景:智能语音助手,智能客服,语音合成与转换,虚拟人物与数字人,语音翻译,语音分析与情感识别,智能驾驶舱与车载语音助手。
(二)语音类AIGC案例实践
豆包大模型的语音类功能用法
一般情况下,普通用户在手机上使用语音类AIGC大模型的场景比较多,因此,这里介绍手机版豆包的使用方法。
在智能手机上下载并安装“豆包APP”。启动进入豆包APP,会出现如图所示的对话界面,按住“语音按钮”(图中箭头指向的位置)不要松开,然后就可以对着手机说话,把自己的需求说出来,比如,可以说“请介绍一下苏州大学”,然后松开“语音按钮”,豆包就可以立即开始回答你提出的问题。豆包可以支持实时翻译,你可以语音输入“苏州大学的英文名称是什么”,豆包会马上给出翻译结果。
豆包不仅支持语音输入,也可以支持文字输入,只要在文字输入框内输入提示词,豆包就会给出回答。豆包也支持AI绘图功能,你可以用手指点击界面上的“图片生成”按钮,然后输入提示词,比如通过文字或者语音输入“请帮我绘制一张图片,一个9岁的小女孩在海边沙滩上玩沙子”,然后,豆包就会自动绘制生成满足你要求的图片。
豆包还有一个很实用的功能,就是可以帮助你进行英语口语对话练习。在豆包的操作界面的底部,用手指点击“对话”,在出现的功能选择界面中,选择“英语口语聊天搭子”就可以进入英语口语聊天界面(如图16所示),按住界面右下角的“语音按钮”,就可以开始用英语语音聊天了,你说完一句英语,松开语音按钮,豆包就会自动用英语语音回答你,然后你可以继续输入语音进行后续对话。
五、视频类AIGC应用实践
视频类AIGC是指利用人工智能技术,特别是深度学习、机器学习等算法,自动创建或处理视频内容的技术。它能根据给定的文本、图像或其他数据,自动生成符合描述的视频内容,涵盖文生视频、图生视频、视频风格化、人物动态化等多个方向。这一技术在创意设计、影视制作等领域潜力巨大,极大地提升了视频内容的生产效率和质量。
(一)视频类AIGC应用场景
视频类AIGC在多个领域拥有广泛的应用场景,以下是一些主要的应用方向:
(二)代表性视频类AIGC大模型
视频类AIGC大模型发端于Sora。2024年2月,美国的Open AI发布了全球第一款文生视频大模型Sora(这里的“文生视频”是指由输入的文本内容生成相应的视频),迅速引起了业界的广泛关注和讨论,因其能够快速生成高质量的广告宣传视频及商品演示视频,从而大幅降低广告相关内容的制作成本及时间。我国的视频类AIGC大模型主要包括:
- 可灵:由快手推出,被誉为中国版Sora,视频生成时长可达120秒,支持文生视频、图生视频、视频续写、镜头控制等功能,表现出色。
- Vidu:生数科技联合清华大学发布,是中国首个长时长、高一致性、高动态性视频大模型,支持一键生成16秒高清视频,性能对标国际顶尖水平。
- 书生·筑梦:由上海人工智能实验室研发,可生成分钟级视频,已用于央视AI动画片《千秋诗颂》的制作,具备中国元素和高清画质。
由于视频类AIGC大模型在使用时,会消耗大量的算力资源,使用成本很高,所以,目前国内的视频类AIGC大模型大多数没有免费开放给大众使用,即使是免费使用,也只能生成很短时间长度的视频。
(三)视频类AIGC案例实践
案例:使用腾讯智影生成数字人播报视频
步骤1:登录腾讯智影平台。在浏览器地址栏中输入网址“https://zenvideo.qq.com/”,进入“腾讯智影”平台,点击“登录”(如图18所示),可以使用微信扫码登录、也可以手机号登录或者QQ扫码登录,任选一种方式登录即可。登录成功后,点击平台首页“智能小工具”栏目中的“数字人播报”按钮(如图19所示)或者“智能小工具”上方的“数字人播报”按钮,进入“数字人播报”功能界面。
步骤2:上传PPT。进入“数字人播报”功能界面后(如图20所示),在左侧工具栏,点击“PPT模式”,平台会出现“上传PPT或PDF”的界面,点击“上传”按钮,上传需要播报的PPT,这里上传“数字人播报PPT.ppt”文件。
步骤3:选择数字人。PPT上传结束后,点击左侧工具栏“数字人”按钮,会出现“数字人”设置界面,包括“预置形象”和“照片播报”两大板块(如图21左所示)。“预置形象”分为“2D数字人”和“3D数字人”;“照片播报”分为“照片主播”和“AI绘制主播”两种(如图21右所示)。这里选择“预置形象”里面的“2D数字人”——卓妤数字人,作为PPT播报的数字人。
步骤4:调整数字人的位置、大小和服装类型。选用的数字人确认后,可以点击PPT上的“数字人”,进入“数字人”设置界面,点击“数字人编辑”按钮(如图22所示),对“数字人”进行编辑,可以重新换服装以及选择数字人出现的“形状”;点击“画面”按钮,可以通过坐标设置来调整数字人的位置和大小(如图23所示),也可以点击数字人的边框,通过拖动鼠标来调整数字人的位置和大小。这里可以根据PPT画面的布局来调整“数字人”的位置和大小,尽量避免数字人遮挡文字。
步骤5:输入播报内容和设置字幕样式。数字人调整完成后,点击右侧工具栏的“播报内容”按钮,输入播报内容,播报内容可以AI自动生成,也可以手动输入或导入文件(字数不超过5000字),这里选择“手动输入”每页PPT的播报内容。点击右侧工具栏的“字幕样式”按钮(如图24所示),设置视频字幕的样式并打开字幕显示按钮,通过鼠标拖动把字幕放置画面的合适位置。
步骤6:根据需要添加“背景”、“贴纸”、“音乐”并选择播报音色。输入完播报内容后,可以点击左侧工具栏的“背景”、“贴纸”和“音乐”等功能(如图25所示),根据需要添加,这里选择不添加背景、贴纸和音乐。确认后,点击“播报内容”输入框下方的“音色”按钮,选择合适的音色。这里选择“如云”音色作为PPT的数字人播报音色(如图26所示)。
步骤7:保存并生成播报。选择完音色后,点击“音色”下方的“保存并生成播报”按钮(如图27所示),选中每一页PPT,逐一点击保存并生成播报,注意,平台此时生成的数字人播报效果预览,暂不支持口型对齐预览,合成后可查看完整动态效果。
步骤8:合成并下载视频。保存并生成每页的PPT的播报后,点击页面右上方的“合成视频”按钮,然后设置合成视频输出的参数(如图28所示),设置完成后点击“确认”按钮,系统后台会自动合成数字人播报视频,等待合成结束后,点击“下载”按钮(如图29所示),下载合成的数字人播报视频。最后,播放合成的视频文件,检查视频画面是否符合预期。如有需要,可以根据反馈调整参数,重新生成。
六、AIGC在辅助编程中的应用
AIGC技术在辅助编程中的应用日益广泛,它能够自动生成高质量的代码,从而显著提高开发效率,主要包括以下几种应用场景:代码自动生成,代码优化与重构,代码补全与提示,代码风格统一。
能够提供辅助编程服务的AIGC大模型包括Codex、GitHub Copilot、CodeGeeX、aiXcoder、豆包、通义灵码等。这里以我国的字节跳动公司研发的豆包大模型为例介绍使用方法。
编程工作一般是在电脑上进行,所以这里使用电脑端的豆包大模型(手机端的豆包APP也提供了编程辅助功能)。
访问豆包大模型官网(https://www.doubao.com/),注册用户以后,进入大模型操作首页,点击“我的智能体”,再点击“编程助理”,然后,在页面中输入提示词,比如输入“请编写一段Python代码,使用turtle库,绘制一个五角星”,然后,豆包就会自动生成一段Python代码(如图所示)。在Python中运行这段代码,就可以成功绘制一个五角星。
七、AI搜索
AI搜索,即人工智能搜索引擎,是一种利用先进的人工智能技术,特别是深度学习和自然语言处理(NLP),来理解和响应用户的查询需求的新型搜索工具。它不仅仅是传统搜索引擎(比如百度)的简单升级,而是通过模拟人类的思维方式和行为模式,为用户提供更加精准、个性化且高效的信息检索服务。AI搜索通过收集和分析用户的历史搜索数据和行为模式,构建用户画像,从而实现更加精准的个性化搜索服务。这种数据驱动的智能决策机制,使得AI搜索能够不断自我优化,提升用户体验。
纳米AI搜索(https://so.n.cn/)是360公司在2024年12月推出的全新AI搜索应用,结合了自然语言处理、机器学习以及专家协同技术,致力于打破传统搜索引擎的局限,提供智能化、多样化的搜索体验。其核心特点包括:
(1)多模态搜索:支持文字、语音、拍照、视频等多种输入方式,满足不同场景下的需求,实现“一切皆可搜索”。
(2)智能工具集成:内置16款顶尖大模型,如豆包、文心一言等,为用户提供一站式AI智慧体验。
(3)慢思考模式:通过专家协同和多模型协作,深入分析复杂问题,提供更专业、更全面的答案。
八、AI智能办公
在人工智能时代,AI智能办公正以前所未有的态势重塑我们的工作模式与体验,成为推动办公效率提升和办公方式变革的核心力量。AI智能办公将人工智能技术深度融入办公场景的各个环节,例如文档处理、数据分析、演示制作等。
在文档处理领域,AI智能办公带来了前所未有的变革。以往需要人工手动输入文字、排版以及校对纠错等工作需要耗费大量时间和精力,如今AI文档处理技术极大地提升了这些任务的效率与质量。具体如下:
(1)生成式文本。通过对大量文本数据的学习,AI能够根据用户提供的提示词、主题或简单描述,快速生成内容完整、逻辑连贯的文档初稿。无论是新闻稿件、公告通知还是学术论文,都能借助这一功能节省撰写时间。例如,市场调研公司在需要撰写季度报告时,AI可以迅速整合数据和市场趋势信息,生成报告框架与初步内容,供使用者进一步完善。
(2)文档智能排版。AI能够自动识别文档内容的结构,如标题、段落、列表等,并根据用户预设的格式模板进行快速排版。这不仅提高了排版效率,还确保了文档格式的一致性和规范性。对于需要处理大量文档的办公人员来说,这一功能大大减轻了工作负担。
数据分析是办公场景中的重要环节。传统的数据分析需要人工进行数据收集、清洗、分析和可视化,过程烦琐且容易出错。而借助人工智能技术,这些工作可以更加高效、精准地完成。通过大模型算法,AI能够从海量数据中发现潜在的模式、趋势和关联关系。例如,电商企业可以利用AI分析用户的购买行为、浏览记录和搜索关键词,挖掘出用户的潜在需求和消费偏好,从而制定精准的营销策略。自动数据可视化功能让数据分析结果的呈现更加直观、清晰。AI能够根据数据分析结果自动生成各种类型的表格图表和图形,如柱状图、折线图、饼图等,并进行合理的布局和配色。办公人员无需花费大量时间手动制作图表,就能快速将数据转化为易于理解的可视化信息,为决策提供有力支持。
WPS提供以下AI助手功能:
- AI写作助手(帮我写、帮我改、AI伴写)
- AI设计助手(AI排版、AI格式)
- AI阅读助手(全文总结、文档问答、划词解释和翻译)
- AI数据助手(AI写公式、AI数据分析)
小结
本文系统梳理了人工智能生成内容(AIGC)的技术框架与实践路径,构建了"理论认知-场景应用-行业影响"的三维知识体系。在理论层面,开篇明确定义了AIGC作为新型内容生产范式的技术内涵,揭示其依托大模型突破传统AI任务边界的技术特征,通过列举文本生成、图像创作等六大典型应用场景,展现技术落地的广度与深度。更从产业变革角度,深入剖析AIGC对传统行业运作模式的重构逻辑,以及由此催生的新型职业机遇与技能转型需求。
实践维度则以"模态融合"为轴线,分设文本、图像、语音、视频四大应用板块,构建从基础对话到复杂创作的阶梯式案例矩阵。通过DeepSeek对话系统、讯飞智文PPT自动生成等具体案例,演示不同技术工具在办公场景中的协同应用。特别在跨模态创作领域,系统解构了Stable Diffusion等代表性模型的运作机理,呈现从文字描述到视觉表达的转化逻辑。
最后篇章聚焦AI搜索与智能办公的前沿融合,预示下一代人机协作的新图景。全文贯穿"工具理性与人文思考"的双重视角,既提供Prompt工程等实用技巧,也辩证分析技术应用中的伦理边界。通过构建"认知-操作-反思"的完整学习路径,为不同层次的读者搭建理解AIGC技术生态的认知框架,为数字化转型中的组织与个人提供可操作的实践指南。这种结构化知识体系,既可作为AIGC应用的入门导航,也可作为深度开发的技术图谱,展现人工智能时代内容生产革命的完整图景。
欢迎 点赞👍 | 收藏⭐ | 评论✍ | 关注🤗
更多推荐
所有评论(0)