人工智能(AI)和深度学习在过去几十年里有了飞跃式的进步,彻底改变了像计算机视觉、自然语言处理、机器人这些领域。本文会带你快速浏览AI和深度学习发展的关键历史时刻,从最早的神经网络模型,一直到现在的大型语言模型和能处理多种数据类型的AI系统。

 

1. 人工智能的诞生(1956年)
人工智能这个概念其实已经存在了几个世纪,但我们今天熟悉的现代AI领域,真正开始成形是在20世纪中期。1956年,计算机科学家和认知科学家约翰·麦卡锡在达特茅斯夏季人工智能研究项目上,首次提出了“人工智能”这个词。
达特茅斯会议通常被认为是AI作为一个研究领域的起点。在这次会议上,一群计算机科学家、数学家和认知科学家聚集在一起,讨论是否有可能制造出能够模拟人类智能的机器。参加会议的人里有很多大人物,比如马文·明斯基、内森尼尔·罗切斯特和克劳德·香农。

 

马文·明斯基、克劳德·香农、雷·所罗门诺夫等科学家在达特茅斯夏季人工智能研究项目上的合影

 

1.1 AI的进化:从规则系统到深度学习
AI的进化始于20世纪50年代,当时开发了一些用于解决问题和下棋的算法,1956年诞生了第一个AI程序——逻辑理论家(Logical Theorist)。到了60年代和70年代,出现了基于规则的专家系统,比如MYCIN,它能够帮助进行复杂的决策过程。到了80年代,机器学习开始兴起,让AI系统可以从数据中学习并逐渐改进,这为现代深度学习技术打下了基础。

 


如今,大多数前沿的AI技术都是由深度学习推动的,这彻底改变了AI的格局。深度学习是机器学习的一个分支,它利用多层的人工神经网络,从原始数据中提取复杂特征。在本文中,我们将回顾AI的发展历史,重点介绍深度学习在AI进化中的重要作用。

2. 早期的人工神经网络(1940年代 — 1960年代)

2.1 McCulloch-Pitts神经元(1943年)
神经网络的概念可以追溯到1943年,当时沃伦·麦卡洛克和沃尔特·皮茨提出了第一个人工神经元模型。McCulloch-Pitts (MP) 神经元模型是对生物神经元的一个开创性简化。这个模型为人工神经网络奠定了基础,它通过聚合二进制输入,并使用阈值激活函数基于这些聚合做出决策,最终产生二进制输出 {0, 1}。
 


这个简化模型抓住了神经元行为的本质——接收多个输入,整合它们,并根据整合信号是否超过阈值来产生一个二进制输出。尽管很简单,MP神经元模型已经能够实现基本的逻辑运算,展示了神经计算的潜力。


2.2 罗森布拉特的感知器模型(1957年)
1957年,弗兰克·罗森布拉特提出了感知器(Perceptron),这是一种单层神经网络,能够学习和识别模式。相比MP神经元,感知器模型是一个更通用的计算模型,能够处理实值输入,并通过调整权重来减少分类错误。

 


罗森布拉特还为感知器开发了一种监督学习算法,使得网络能够直接从训练数据中学习。
 


罗森布拉特对感知器能力的大胆宣称——包括它有可能识别人类和在语言之间进行翻译——在当时引起了公众对AI的极大兴趣。感知器模型及其相关的学习算法成为神经网络发展中的重要里程碑。然而,很快一个关键的局限性显现出来:感知器的学习规则无法处理非线性可分的训练数据,无法收敛。


2.3 ADALINE(1959年)
1959年,威德罗和霍夫推出了ADALINE(自适应线性神经元,也称为Delta学习规则),这是对感知器学习规则的改进。ADALINE解决了二进制输出和对噪声敏感的问题,能够在非线性可分数据上学习并收敛,这是神经网络发展的一个重大突破。

 

ADALINE的关键特征包括:
•    线性激活函数:与感知器的阶跃函数不同,ADALINE使用线性激活函数,使其适用于回归任务和连续输出。
•    最小均方(LMS)算法:ADALINE采用LMS算法,通过最小化预测输出和实际输出之间的均方误差,实现更高效、更稳定的学习过程。
•    自适应权重:LMS算法根据输出的误差自适应调整权重,使得ADALINE即使在存在噪声的情况下,也能有效学习和收敛。
ADALINE的引入标志着神经网络“第一黄金时代”的开始,它克服了罗森布拉特感知器学习的局限性。这一突破带来了高效学习、连续输出,以及对噪声数据的适应能力,激发了一波创新浪潮,加速了该领域的发展。

然而,和感知器一样,ADALINE也受限于线性可分问题,无法解决更复杂的非线性任务。这个局限性在后来被称为XOR问题中得到了突出,促使了更高级神经网络架构的发展。


2.4 XOR问题(1969年)
1969年,马文·明斯基和西摩·帕普特在他们的书《感知器》中指出了单层感知器的一个关键局限性。他们证明了感知器无法解决异或(XOR)问题,这是一个简单的二进制分类任务,因为感知器只能处理线性决策边界。而XOR问题是非线性可分的,也就是说,无法用一条线性边界来正确分类所有输入模式。

这一发现强调了需要更复杂的神经网络架构来学习非线性决策边界。感知器局限性的暴露导致人们对神经网络失去了信心,研究重心转向符号式AI方法,标志着神经网络研究的“第一黑暗时期”的开始,从20世纪70年代初持续到80年代中期。
 

神经网络的第一次黑暗时期



然而,解决XOR问题带来的启示使研究人员意识到需要更复杂的模型来捕捉非线性关系。这一认识最终促使了多层感知器(MLP)和其他高级神经网络模型的发展,为神经网络和深度学习在之后几十年的复兴奠定了基础。


3. 多层感知器(1960年代)
多层感知器(MLP)是在20世纪60年代作为对单层感知器的改进而引入的。它由多个互联的神经元层组成,使其能够克服单层模型的局限性。苏联科学家A.G. 伊瓦赫年科和V. 拉帕在多层感知器的发展中做出了重要贡献,建立在感知器的基础工作之上。

3.1 隐藏层
隐藏层的引入使得多层感知器能够捕捉和表示数据中的复杂非线性关系。这些隐藏层大大增强了网络的学习能力,使其能够解决像XOR问题这样非线性可分的问题。

 


3.2 多层感知器的历史背景与挑战
多层感知器(MLP)标志着神经网络研究的重要进步,展示了深度学习架构在解决复杂问题上的潜力。然而,在20世纪60年代和70年代,MLP的发展面临一些挑战:
•    缺乏训练算法:早期的MLP模型缺少高效的训练算法,无法有效调整网络的权重。在没有反向传播算法的情况下,训练多层深度网络变得非常困难。
•    计算能力的限制:当时的计算能力不足以处理训练深度神经网络所需的复杂计算。这一限制极大地减缓了MLP研究和开发的进展。


神经网络的“第一黑暗时期”于1986年结束,随着反向传播算法的重新发现和发表,神经网络迎来了“第二黄金时代”的开始。
 

神经网络的第二黄金时代

4. 反向传播(1970年代-1980年代)
1969年,XOR问题暴露了感知器(单层神经网络)的局限性。研究人员意识到,多层神经网络可以克服这些局限,但他们当时缺乏训练这些复杂网络的实用算法。经过17年的努力,反向传播算法终于被开发出来,使得神经网络理论上能够逼近任何函数。有趣的是,后来发现这个算法其实在正式发表之前就已经被发明了。如今,反向传播已经成为深度学习的核心组成部分,并且自它在1960年代和1970年代首次提出以来,经历了重大改进和发展。
 

4.1 早期发展(1970年代)
•    塞波·林纳伊玛(1970年):提出了自动微分的概念,这是反向传播算法的关键组成部分。
•    保罗·韦博斯(1974年):建议使用链式法则来计算误差函数相对于网络权重的梯度,从而实现多层神经网络的训练。


4.2 精炼与普及(1980年代)
•    大卫·鲁梅尔哈特、杰弗里·辛顿和罗纳德·威廉姆斯(1986年):将反向传播作为一种实用且高效的深度神经网络训练方法进行展示,证明了它在解决各种问题中的应用。

 

4.3 反向传播的关键特征
•    梯度下降:反向传播与梯度下降结合使用,以最小化误差函数。算法计算误差相对于每个网络权重的梯度,从而可以通过迭代更新权重来减少误差。
•    链式法则:反向传播算法的核心是应用微积分的链式法则。这个法则允许将误差的梯度分解为一系列偏导数,并通过网络的反向传播高效计算。
•    分层计算:反向传播以逐层的方式操作,从输出层开始,逐步向后计算到输入层。这种分层计算确保梯度在网络中正确传播,使得深层架构能够成功训练。


4.5 通用逼近定理(1989年)
1989年,乔治·赛本科提出了通用逼近定理,为多层神经网络的能力提供了数学基础。该定理指出,具有单个隐藏层的前馈神经网络在给定足够的神经元和使用非线性激活函数的情况下,可以以任意精度逼近任何连续函数。这一理论强调了神经网络的强大和灵活性,使其适用于广泛的应用场景。

 

一个具有单个隐藏层的多层神经网络可以以任意精度逼近任何连续函数,使其能够在各个领域中解决复杂问题。

4.6 第二黄金时代(20世纪80年代末 — 90年代初)
反向传播算法的开发和通用逼近定理(UAT)的提出,标志着神经网络“第二黄金时代”的开始。反向传播为训练多层神经网络提供了一种高效的方法,使得研究人员能够训练更深、更复杂的模型。而UAT则为使用多层神经网络提供了理论依据,增强了人们对其解决复杂问题能力的信心。在这个跨越20世纪80年代末到90年代初的时期,神经网络领域重新焕发了兴趣,并取得了重大进展。

4.7 第二黑暗时期(1990年代初 — 2000年代初)
然而,由于几个因素,神经网络领域在1990年代初到2000年代初经历了“第二黑暗时期”:
•    支持向量机(SVM)的崛起,它提供了一种数学上优雅的分类和回归任务解决方法。
•    计算能力的限制,训练深层神经网络仍然非常耗时且对硬件要求极高。
•    过拟合和泛化问题,早期的神经网络在训练数据上表现出色,但在未见过的数据上表现较差,实用性不高。
这些挑战导致许多研究人员转移了研究重点,导致该领域进入了一段停滞时期。


4.8 深度学习的复兴(2000年代末 — 现在)
神经网络领域在2000年代末和2010年代初迎来了复兴,推动这一进展的原因包括:
•    深度学习架构的发展(卷积神经网络[CNN]、循环神经网络[RNN]、Transformer、扩散模型)
•    硬件进步(GPU、TPU、LPU)
•    大规模数据集(ImageNet、COCO、OpenWebText、WikiText等)
•    训练算法(SGD、Adam、dropout)
这些进步带来了计算机视觉、自然语言处理、语音识别和强化学习领域的重大突破。通用逼近定理与实际技术的结合,为深度学习技术的广泛应用和成功铺平了道路。


5. 卷积神经网络(1980年代 - 2010年代)
卷积神经网络(CNN)在深度学习领域,特别是在计算机视觉和图像处理领域,带来了巨大变革。它们从1980年代到2010年代的发展,反映了在架构、训练技术和应用上的显著进步。
 


5.1 早期发展(1989–1998)
卷积神经网络(CNN)的概念最早在1980年代由Kenji Fukushima提出,他提出了新认知机(Neocognitron),这是一种模仿人类视觉皮层结构的分层神经网络。这一开创性的工作为CNN的发展奠定了基础。在1980年代末和1990年代初,Yann LeCun及其团队进一步发展了CNN,推出了专为手写数字识别设计的LeNet-5架构。
    

5.2 CNN的关键组成部分
CNN由三个关键部分构成:
1.    卷积层:这些层通过应用一组可学习的滤波器,从输入图像中自动学习空间层次特征。
2.    池化层:池化层减少输入的空间维度,增强对变化的鲁棒性并降低计算负担。
3.    全连接层:在卷积层和池化层之后,全连接层用于分类任务,将前面层学习的特征进行整合。


5.3 CNN的关键特征
•    局部感受野:CNN使用局部感受野来捕捉输入数据中的局部模式,使其在图像和视觉任务中非常高效。
•    共享权重:卷积层中的共享权重减少了网络中的参数数量,提高了效率,也使训练更加容易。
•    平移不变性:池化层引入了平移不变性,使网络能够识别输入图像中位置不同的相同模式。


5.4 CNN的崛起:AlexNet的影响(2012年)
2012年,CNN发展中的一个重要里程碑是AlexNet在ImageNet大规模视觉识别挑战赛(ILSVRC)中的胜利,凭借显著的优势赢得比赛,标志着图像分类领域的重大突破。

 

AlexNet架构(2012)

 

ImageNet大规模视觉识别挑战赛(ILSVRC)是一个年度的图像识别基准测试,使用超过1000万张带注释的图像进行评估,图像分为1000个类别。AlexNet的创新包括:
1.    ReLU激活函数:为解决传统激活函数的问题,ReLU加速了训练速度并提升了性能。
2.    Dropout正则化:通过在训练过程中随机丢弃单元来减少过拟合。
3.    数据增强:通过增强训练数据集,人工增加训练数据的多样性,从而改善模型的泛化能力。
AlexNet的成功是CNN发展中的一个转折点,为图像分类和物体检测领域的进一步进步铺平了道路。

 

 AlexNet开启神经网络的第三黄金时代
当前的黄金时代(2010年代至今)由深度学习、大数据和强大计算平台的融合标志着。这一时期在图像识别、自然语言处理和机器人领域取得了显著突破。持续的研究不断推动着AI能力的边界,AI技术的潜力正在被不断挖掘和拓展。
 

AlexNet开启了神经网络的第三黄金时代。



5.5 后续架构
在AlexNet之后,几种具有影响力的架构相继出现:
•    VGGNet (2014):由牛津大学视觉几何组开发,VGGNet强调使用更深的网络架构和较小的卷积滤波器(3x3),并取得了显著的准确性。
•    GoogLeNet/Inception (2014):引入了Inception模块,使网络能够高效捕捉多尺度特征。
•    ResNet (2015):残差网络(ResNet)引入了跳跃连接,能够训练非常深的网络,同时缓解了梯度消失问题。
 

ResNet 和 GoogLeNet 架构

5.6 CNN的应用
CNN的进步彻底改变了多个领域:
•    计算机视觉:CNN成为现代计算机视觉的核心,推动了图像分类、物体检测和语义分割等领域的突破。
•    医学影像:CNN被应用于疾病诊断、肿瘤检测和图像引导手术等任务,显著提高了诊断的准确性。
•    自动驾驶车辆:CNN是自动驾驶汽车感知系统的关键部分,使其能够解读并响应周围环境。

 
 

卷积神经网络(CNN)在计算机视觉中的应用


CNN的旅程:从起源到成为深度学习的基石
CNN从诞生到如今成为深度学习的基石,展示了它对AI领域的深远影响。CNN的成功不仅为深度学习的进一步进展铺平了道路,还激发了其他专门神经网络架构的发展,如循环神经网络(RNN)和Transformer。CNN的理论基础和实践创新在各个领域推动了深度学习技术的广泛应用与成功。


6. 循环神经网络(1986–2017)
循环神经网络(RNN)作为处理序列和时间数据的强大架构出现。与前馈神经网络不同,RNN旨在处理输入序列,使其在语言建模、时间序列预测和语音识别等任务中尤为有效。
6.1 早期发展(1980年代-1990年代)
RNN的概念可以追溯到20世纪80年代,约翰·霍普菲尔德、迈克尔·I·乔丹和杰弗里·L·艾尔曼等先驱为这些网络的发展作出了贡献。1982年,约翰·霍普菲尔德提出了霍普菲尔德网络,奠定了对神经网络中循环连接的理解基础。乔丹网络和艾尔曼网络分别在20世纪80年代和90年代提出,早期试图捕捉序列数据中的时间依赖性。
 

6.2 LSTM、GRU和Seq2Seq模型(1997 — 2014)
•    长短期记忆网络(LSTM)(1997):Sepp Hochreiter和Jürgen Schmidhuber提出了长短期记忆(LSTM)网络,解决了传统RNN中的梯度消失问题。LSTM通过使用门控机制来控制信息流动,使其能够捕捉序列数据中的长期依赖关系。
•    门控循环单元(GRU)(2014):Kyunghyun Cho等人提出了门控循环单元(GRU),这是LSTM的简化版本,也使用门控机制控制信息流动。GRU的参数比LSTM更少,训练速度更快。

序列到序列模型(Seq2Seq)(2014):Ilya Sutskever及其团队提出了Seq2Seq模型,该模型采用编码器-解码器架构,将输入序列映射到输出序列。Seq2Seq模型广泛应用于机器翻译、语音识别和文本摘要等任务中。

 


6.3 RNN的关键特征
•    循环连接:RNN通过循环连接保持一个隐藏状态,用于捕捉前一时间步的信息,这使得网络能够建模序列数据中的时间依赖关系。
•    时间上的反向传播(BPTT):RNN的训练使用了一种反向传播的变体,称为时间上的反向传播(BPTT)。该方法通过将循环网络在时间上展开,并对展开后的网络应用标准的反向传播算法。
•    门控机制:像LSTM和GRU这样的高级RNN架构使用门控机制来控制信息流动,帮助缓解梯度消失问题,并使网络能够捕捉长期依赖关系。
4o
 


6.4 RNN的应用
RNN在多个领域产生了深远的影响,包括:
1.    自然语言处理:RNN彻底改变了自然语言处理领域,推动了语言建模、机器翻译、情感分析和文本生成等任务的显著进展。
2.    语音识别:RNN广泛应用于语音识别系统,通过建模口语中的时间依赖关系,将语音信号转换为文本。
3.    时间序列预测:RNN在时间序列预测中表现出色,通过建模序列数据中的时间依赖关系来预测未来的数值。

 


6.5 RNN的挑战
尽管RNN取得了成功,但仍面临一些挑战:
•    梯度消失和爆炸:传统RNN在处理这些问题时表现不佳,尽管LSTM和GRU提供了一些解决方案。
•    计算复杂性:训练RNN可能非常耗费资源,尤其是处理大规模数据集时。
•    并行化:RNN的顺序处理特性使得并行训练和推理变得复杂。
RNN的成功为深度学习的进一步发展铺平了道路,并激发了其他专门神经网络架构的发展,如Transformer,在各种序列数据任务中取得了最先进的表现。RNN的理论基础和实践创新对深度学习技术的广泛应用与成功作出了重大贡献。


7. Transformer(2017至今)
Transformer彻底改变了深度学习的格局,凭借其处理序列数据的卓越能力,已成为从自然语言处理(NLP)到计算机视觉等多个领域的关键技术。
7.1 Transformer的引入(2017)
Transformer模型由Vaswani等人在2017年的开创性论文《Attention is All You Need》中提出。该模型摒弃了RNN的传统顺序处理,转而采用自注意力机制,使得并行处理成为可能,并能够更好地处理长距离依赖关系。
 

自注意机制

7.2 Transformer的关键特征
•    自注意力机制:允许序列中的每个位置关注所有其他位置,能够比RNN或LSTM更灵活地捕捉上下文信息。
•    并行化:通过同时处理所有输入数据,大大提高了训练速度,与RNN的顺序处理方式形成鲜明对比。
•    编码器-解码器结构:编码器和解码器堆栈都使用自注意力层和前馈神经网络,并通过位置编码来保持序列的顺序。

 


原始Transformer架构采用编码器-解码器结构和多头注意力机制。
 


基于Transformer的语言模型
7.3 基于Transformer的语言模型(2017至今)
•    BERT (2018):双向编码器表示(Bidirectional Encoder Representations from Transformers),一个仅使用编码器的Transformer模型,通过掩码语言模型和下一句预测的预训练,彻底改变了自然语言处理。
•    T5 (2019):文本到文本转换Transformer(Text-to-Text Transfer Transformer),采用编码器-解码器结构,将所有NLP任务重新定义为文本到文本的格式,简化了模型架构和训练过程。

 


OpenAI的GPT系列:
•    GPT (2018):生成式预训练Transformer(Generative Pre-trained Transformer),由OpenAI提出,是一个自回归的、仅使用解码器的Transformer模型,专注于预测文本序列中的下一个单词,展现了出色的语言理解和生成能力。
•    GPT-2 (2019):比前一代规模更大,显示出一些新兴能力,如零样本任务表现,引发了关于AI潜在误用的讨论,因为它能够生成连贯但有时误导性的文本。
•    GPT-3 (2020):拥有1750亿参数,GPT-3极大地扩展了语言模型的可能性,在几乎无需微调的情况下出色完成任务,称为少样本学习。作为一个仅使用解码器的自回归Transformer,GPT-3通过逐词生成文本,每个词都依赖于前面生成的词。
 

GPT的自回归语言模型架构旨在基于输入的先前词元预测序列中的下一个词元。

ChatGPT (2022):GPT-3.5系列的一个微调版本,专为对话互动进行了优化,展示了指令微调(Instruction Tuning)的强大功能,使得模型的响应能够更好地与用户意图对齐。

 

先进的大型语言模型(LLM)训练流程结合了预训练、指令微调和偏好对齐,后者使用来自人类反馈的强化学习(RLHF)或直接偏好优化(DPO)来完成。

先进的大型语言模型(LLM)训练流程结合了预训练、指令微调和偏好对齐,后者使用来自人类反馈的强化学习(RLHF)或直接偏好优化(DPO)来完成。


7.4 其他著名的大型语言模型(LLMs)
大型语言模型(LLMs)的发展极大地丰富了AI领域,每个模型都在人工智能中带来了独特的能力和进展。以下是一些知名的LLMs概述:
•    Anthropic的Claude (2022):优先考虑AI输出的安全性和伦理问题,旨在与人类价值观保持一致。
•    Meta的LLaMA (2023):提供不同规模的模型,满足各种计算需求,在自然语言处理基准上表现出色。
•    Mistral.AI的Mistral (2023):在性能和资源效率之间取得平衡,适用于实时应用,专注于开源AI解决方案。
•    阿里巴巴的Qwen (2023):构建高质量的英汉双语AI模型,促进跨语言应用并推动创新。
•    微软的Phi (2023):强调多功能性和广泛应用,通过先进的训练技术提高上下文理解和用户互动能力。
•    谷歌的Gemma系列 (2024):轻量级的最先进开源模型,适用于文本生成、摘要和信息提取等多样化应用,重点关注性能和效率。

 

https://www.analyticsvidhya.com/blog/2023/07/build-your-own-large-language-models/

 

https://medium.com/towards-data-science/fine-tune-llama-3-1-ultra-efficiently-with-unsloth-7196c7165bab

8. 多模态模型(2023年至今)
8.1 GPT-4V (2023)和GPT-4-o (2024)
•    GPT-4V (2023):在AI发展中迈出了重要的一步,将多模态能力集成到已有的强大文本模型中。它不仅能处理和生成文本内容,还能处理和生成图像,为更全面的AI交互奠定了基础。
 


GPT-4-o (2024):作为GPT-4V的进化版,GPT-4-o进一步提升了多模态集成,具备更复杂的上下文理解能力。它在不同媒体之间提供了更好的连贯性,能够根据文本提示生成更高级的图像,并通过视觉输入实现更精细的推理。此外,GPT-4-o引入了先进的训练机制来实现伦理对齐,确保其输出不仅准确,还负责任且符合人类价值观。

https://youtu.be/c2DFg53Zhvw

GPT-4o 实时翻译演示



8.2 谷歌的Gemini(2023至今)
•    Gemini Pro (2023):谷歌的Gemini系列推出了一系列专为多模态任务设计的模型,能够处理文本、图像、音频和视频。Gemini Pro尤其以其可扩展性和高效性而闻名,使得先进的AI能够应用于从实时分析到跨多种媒体格式的复杂内容生成等各种场景中。
•    Gemini的多模态能力:Gemini模型,包括适用于不同规模应用的Ultra和Nano版本,专为执行需要跨多种数据类型理解的任务而设计。它们在视频摘要、多模态翻译和互动学习环境等任务中表现出色,展现了谷歌在推动AI在多媒体环境中应用的承诺。

https://youtu.be/UIZAiXYceBI

多模态AI的能力 | Gemini演示



8.3 Claude 3.0 和 Claude 3.5 (2023至今)
•    Claude 3.0 (2023):由Anthropic推出,重点在于提高AI响应的安全性和可靠性,改进了上下文理解和伦理考虑。Claude 3.0设计更加对话化和有用,同时严格避免生成有害或偏见的内容。
•    Claude 3.5 (2024):在Claude 3.0的基础上进一步提升,具备更强的复杂任务处理能力,处理效率更高,并且对用户请求的处理更加细致。虽然Claude 3.5主要在文本和逻辑任务上表现优异,但它在多模态交互上也有增强,逐渐展现出处理视觉或其他感官输入的能力,为用户提供更综合的体验。


8.4 LLaVA (2023)
•    LLaVA (大型语言与视觉助手):2023年开发的LLaVA将语言理解与视觉处理结合,代表了一种创新的多模态AI方法。LLaVA能够解释图像并将其与文本内容关联起来,使其能够回答与图像相关的问题、描述视觉内容,甚至根据视觉提示生成文本。它的架构利用了Transformer模型的优势,在需要视觉和语言理解的任务中实现了最先进的性能。LLaVA特别以其开源特性著称,鼓励多模态AI应用的进一步研究和开发。

8.5 OpenAI Sora (2024)
OpenAI Sora 是一个全新的文本生成视频模型,扩展了OpenAI的多模态AI能力。这个模型允许用户从文本描述生成视频,有效地弥合了文本与动态视觉内容之间的差距。Sora融入多模态框架,提升了创意应用的潜力,使用户能够通过最少的输入生成丰富的多媒体内容。这一进展标志着朝着更直观、互动性更强的AI系统迈出了重要的一步,这些系统能够理解并生成复杂的媒体形式。

https://youtu.be/tRSdt5kmeW0

OpenAI Sora 演示: 东京街头

这些模型共同表明了AI系统的发展趋势,

不仅仅是理解和生成文本,还能够跨越多种模态解读和创造内容,更加接近人类的认知能力。这种AI模型的演变推动了更具互动性、直观性且能够处理不同感官输入的应用,从而拓展了AI在日常生活、研究和工业应用中的可能性。


9. 扩散模型(2015至今)
扩散模型已成为生成模型中的一种有影响力的类别,提供了一种全新的方法来从复杂的数据分布中生成高保真样本。与传统模型如GAN(生成对抗网络)和VAE(变分自编码器)不同,扩散模型采用逐步去噪的方法,在多个应用领域表现出色。


9.1 扩散模型的引入(2015)
Sohl-Dickstein等人于2015年在其论文中奠定了扩散模型的基础。他们提出了一种生成过程,即通过逆转逐步添加的噪声,可以将噪声转化为有结构的数据。


9.2 扩散模型的关键特征
•    去噪过程:扩散模型通过分步添加噪声(前向过程),并学习逆向去噪(后向过程),从而生成样本。
•    马尔可夫链:前向和后向过程都被构建为马尔可夫链,前向每一步添加高斯噪声,模型学习如何在逆向过程中去除这些噪声。
•    训练目标:目标是在每一步中最小化预测噪声与实际噪声之间的差异,优化一种证据下界(ELBO)形式的损失函数。
•    稳定性和鲁棒性:与GAN相比,扩散模型提供了更好的稳定性,避免了模式崩溃等问题,因此能够持续生成多样化、高质量的输出。

 
9.3 扩散模型的进展(2020至今)
•    去噪扩散概率模型(DDPM)(2020):改进了扩散过程,成为图像合成的新标杆。
•    去噪扩散隐式模型(DDIM)(2021):通过非马尔可夫采样提高了效率,使生成过程更加灵活。
•    基于随机微分方程的评分生成模型 (2021):利用随机微分方程实现高效的样本生成。
•    潜在扩散模型 (2022):成为流行的文本生成图像系统(如Stable Diffusion)的基础,显著推动了AI生成图像领域的发展,并为更易获取、更高效的生成式AI工具铺平了道路。
 

 

潜在扩散模型的架构



9.3 应用
•    文本生成图像:像DALL-E 3 和 Stable Diffusion 3 这样的模型在从文字生成高质量图像方面非常出色。DALL-E 3 能生成非常详细和准确的视觉效果,而 Stable Diffusion 则作为开源的替代方案,让更多人能够使用图像生成技术。


https://generativeai.pub/dall-e-3-vs-midjourney-5-2-vs-stable-xl-same-prompt-different-resultsa68ae19b223e

 

FLUX.1 (2024):Black Forest Lab 推出了FLUX.1,这是一个先进的扩散模型,用于AI图像生成,具有出色的速度、质量和对提示的响应能力。FLUX.1 提供了三个版本——Schnell、Dev 和 Pro,利用了像修正流变换器(Rectified Flow Transformers)这样的创新技术,能够生成高度逼真的图像。它不仅能生成文本,还能处理像手指和脚趾这样的细节,具备成为优秀图像生成器的所有条件。

这是一张由FLUX.1 Shenell模型生成的图像,使用了简单的提示“侧面写有FLUX.1的咖啡杯”。生成的图像清晰且质量高,展示了咖啡杯和上面清楚可见的“FLUX.1”文字,证明了FLUX.1在生成带有文本的图像方面的能力。

 

•  DreamBooth (2022):让扩散模型能够基于少量特定主体的图片进行训练,从而实现个性化图像生成。
•  LoRA (2022):全称为低秩适应(Low-Rank Adaptation),这是一种技术,允许在不增加太多参数的情况下微调扩散模型,使其更容易适应特定任务或数据集。
 
单概念生成的定性比较:每个概念的参考图像显示在左侧。基于LoRA的方法在保真度上优于Custom Diffusion。此外,正交适应和SBoRA的表现与Mix-of-show相当,同时引入了正交约束,这在多概念场景中带来了优势。

•    ControlNet (2023):通过在扩散模型中引入额外输入,如草图或深度图,ControlNet提供了对生成图像的更精确控制。

 

使用ControlNet进行姿态控制的Stable Diffusion

https://youtu.be/XHWdrlSAga4
Animatediff w Multi ControlNet | StableDiffusion.

•    Multi-SBoRA (2024):这是一种新的方法,用于在多个概念之间定制扩散模型。它使用正交标准基向量来构建低秩矩阵进行微调,实现区域性和不重叠的权重更新,减少跨概念干扰。该方法保留了预训练模型的知识,减少了计算开销,同时提高了模型的灵活性。实验结果表明,Multi-SBoRA在多概念定制中表现优异,保持了独立性并减少了交互干扰。

多概念生成的定性比较分为三种情况:(1)角色生成,(2)物体生成,以及(3)角色和物体的组合生成。每个概念的参考图像在顶行显示。像Custom Diffusion和Mix-of-show等缺乏正交设计的方法会导致显著的概念身份丢失,尤其是在拥有复杂面部特征的角色中。正交适应方法在保持身份上有所改善,但可能削弱模型的整体知识。而我们提出的方法效果更佳,能够有效保持每个概念的身份,同时确保生成更稳定。

 

扩散模型的研究轨迹展现了一个充满潜力的未来,尤其是通过整合各种AI架构的优势,进一步优化速度和质量。这些模型的进展为未来的集成系统奠定了基础,使得AI能够更高效地处理复杂任务,同时提升生成效果的细节和准确性。


10. 结论

AI和深度学习的历史充满了巨大进步和变革性创新。从早期的神经网络到复杂架构如CNN、RNN、Transformer和扩散模型,这些技术彻底改变了多个领域。最近的发展催生了大型语言模型(LLMs)和多模态模型(LMMs),如OpenAI的GPT-4o、谷歌的Gemini Pro等。此外,生成式AI的突破,如Midjourney、DALL-E 3等,扩大了AI在创意和协作方面的潜力。随着研究继续,AI对社会和技术的影响将持续增长。

Logo

助力广东及东莞地区开发者,代码托管、在线学习与竞赛、技术交流与分享、资源共享、职业发展,成为松山湖开发者首选的工作与学习平台

更多推荐