【愚公系列】《人工智能70年》025-语音合成创造奇迹(语音交互大战打响)
一系列 AI技术,让霍金创造了不开口也能说话的奇迹。
💎【行业认证·权威头衔】
✔ 华为云天团核心成员:特约编辑/云享专家/开发者专家/产品云测专家
✔ 开发者社区全满贯:CSDN博客&商业化双料专家/阿里云签约作者/腾讯云内容共创官/掘金&亚马逊&51CTO顶级博主
✔ 技术生态共建先锋:横跨鸿蒙、云计算、AI等前沿领域的技术布道者
🏆【荣誉殿堂】
🎖 连续三年蝉联"华为云十佳博主"(2022-2024)
🎖 双冠加冕CSDN"年度博客之星TOP2"(2022&2023)
🎖 十余个技术社区年度杰出贡献奖得主
📚【知识宝库】
覆盖全栈技术矩阵:
◾ 编程语言:.NET/Java/Python/Go/Node…
◾ 移动生态:HarmonyOS/iOS/Android/小程序
◾ 前沿领域:物联网/网络安全/大数据/AI/元宇宙
◾ 游戏开发:Unity3D引擎深度解析
文章目录
🚀前言
一系列 AI技术,让霍金创造了不开口也能说话的奇迹。
🚀一、语音交互大战打响
刘庆峰“让计算机像人一样开口说话”的理想已成为现实,但科大讯飞的脚步并未止步于语音合成。2010年4月,苹果收购语音识别技术公司Siri,科大讯飞迅速反应,进军移动语音识别领域并取得突破。同年10月,科大讯飞发布“语音云”平台及移动语音输入法第一版,凭借深厚技术积累,在中文语音识别市场迅速站稳脚跟。直至2012年10月,苹果Siri才推出中文支持,而此时科大讯飞已牢牢占据中文语音交互市场的主导地位。
科大讯飞对深度学习同样展现出高度敏感,早在2010年便启动深度神经网络语音识别研究,并于2011年推出全球首个基于深度神经网络的中文语音识别系统,与国际同行几乎同步将深度学习全面应用于语音处理。
从语音合成起步,科大讯飞已成长为全球人工智能领域的领先企业之一。2017年全国“两会”期间,刘庆峰建议中国应尽快组建人工智能产业联盟,展现出公司和国家对齐的战略视野。科大讯飞的发展历程,某种意义上也是中国AI企业从跟跑到并跑甚至领跑的一个缩影。
随着语音识别、自然语言理解与语音合成技术的逐步成熟,融合多模态技术的语音交互应用迅速崛起。尽管语音交互技术出现较早,但普遍认为苹果iPhone 4S内置的Siri才真正将其推向大规模应用。
2011年9月,在iPhone 4S发布会上,苹果高管向手机发问:“你是谁?”Siri即刻回答:“我是你忠实的助手。”这一经典对话被媒体广泛传播,也清晰定义了Siri的核心定位——个人语音助手,此后常被称作“智能助理”。
2010年4月,苹果以2亿美元收购仅24人的Siri团队,并在其后很长一段时间内将其技术封闭于自有生态中,作为核心竞争力不予开放。Siri功能不断扩展,可进行聊天、信息查询、语音阅读、邮件处理、日程提醒和歌曲识别等,持续迭代演进。
作为全球最大搜索引擎公司,谷歌自然不会缺席语音助手竞争。在经历不太成功的Google Now及团队重组后,2016年10月谷歌推出新一代语音助理平台Google Assistant,全面支持其生态内的软硬件产品,包括聊天应用Allo、智能家居设备Google Home、可穿戴设备Android Wear、Pixel手机及Android汽车和电视等,致力于构建以语音交互为核心的Android服务生态。
Google Assistant最初仅支持英文和德文,2017年起逐步向三星、华为等手机厂商开放。早期测评显示,Siri长于娱乐与对话,而Google Assistant更擅长实际任务辅助。
除苹果与谷歌外,亚马逊凭借Echo智能音箱与Alexa语音平台,以电商为根基拓展多场景语音应用;微软则依托操作系统优势,推出跨平台语音交互方案。语音交互已成为科技巨头必争之地。
中国企业同样积极布局。2015年5月,京东与科大讯飞合作推出叮咚(DingDong)智能音箱,支持音乐播放、语音购物、家电控制等功能,并在科大讯飞AIUI交互平台的支持下实现方言识别等本土化创新。2017年7月,小米推出自有品牌语音交互音箱,并将语音接口嵌入包括插线板在内的全线智能硬件中,全面拥抱语音交互。
百度则依托硅谷人工智能实验室(SVAIL),开发出基于深度学习的语音识别系统DeepSpeech和实时语音合成系统DeepVoice。在相同硬件条件下,DeepVoice比谷歌2016年9月发布的WaveNet模型快400倍——而WaveNet在当时被誉为“语音合成的革命”。
百度还宣布语音平台永久免费,开放大量语音专利,并与海尔、京东、中兴、普天等20余家企业共同组建智能语音知识产权联盟,显示出在语音交互领域的坚定决心。
中国语音市场呈现“八仙过海,各显神通”的蓬勃局面,反映出中国科技企业在自然语言处理领域已积累深厚实力。当2022年底OpenAI推出ChatGPT后,中国公司迅速跟进,纷纷发布自研大语言模型(LLM)产品,推动基于大模型的新一代语音技术迅速发展。如今,语音交互系统已普遍构建于大语言模型基础之上。
语言是人类最重要的交际工具,语音则是其美丽的外壳。人工智能所推动的这场人机语音交互变革,正在让聋人闻声、哑者说话,一个万物互联、语音无处不在的智能世界悄然来临。
这场交互方式的变革意义深远。印刷术之前,人类社会以口语交流为主,可称为“会话时代”;印刷术普及后,文本成为知识传播的主要载体,进入“文本时代”;而随着广播电视、互联网与人工智能的发展,我们正迈入文本、语音、图像与视频融合的“多模态智能交互时代”。人类沟通的方式,再次经历历史性跃迁。
更多推荐
所有评论(0)