“大力出奇迹”-进击的LLM
发布网友
发布时间:2024-10-20 22:07
我来回答
共1个回答
热心网友
时间:2024-10-20 23:50
引言
上个世纪80年代,符号主义与连接主义之争推动了全连接神经网络与BP算法等基础技术的诞生,为现代人工智能技术打下坚实基础。21世纪以来,随着互联网时代的到来,数据量爆发式增长,CPU、GPU等芯片处理能力的迅猛发展,深度学习技术应运而生。
深度学习通过大规模数据训练,实现图像识别、文本理解、数据生成等复杂任务的高精度拟合。在计算机视觉领域,深度学习技术在残差连接、迁移学习、few-shot等创新技术的推动下,取得了显著进展。自2017年起,深度学习在自然语言处理(NLP)领域也展现出巨大潜力,transformer的出现彻底改变了NLP领域,GPT-3、BERT、Codex等系列模型的推出,展现了深度学习的强大性能。
2022年,CloseAI将GPT3.5和GPT-4系列模型产品化,引发了新一轮AI热潮,黄教主也因此登上全球富豪排行榜第34位。
背景知识万能定理
深度学习万能定理表明,具有足够多神经元的神经网络可以*近任何复杂度的连续函数,理论上单隐层神经网络即可表示复杂函数关系。
可解释性问题一直是深度学习的弱点,与决策树、SVM等传统机器学习算法相比,缺乏上层数学工具解释其决策过程,导致模型参数设置、结构选择等依赖经验与试错。
预训练技术
深度学习模型初始化参数至关重要,早期采用随机初始化导致模型不收敛、学习效果不佳等问题。预训练技术通过在大规模数据集上训练,得到初始化权重,利用这些权重在特定任务上进行微调,显著提高模型性能。
预训练技术首先在计算机视觉领域应用,利用image-net等大型数据集,随后在NLP领域通过transformer的出现,利用大规模文本数据,推动预训练技术在NLP领域的发展。
例如,GPT通过预训练获得强大的语言生成能力,BERT通过预训练获得通用语言理解能力,实现NLP任务的迁移效果。
进击的LLM - AI军备竞赛
过去五年,NLP领域迎来黄金时代,从Transformer开始,语言模型摆脱RNN*,大规模堆叠成为可能。OpenAI、Google等推出GPT、BERT、T5等模型,GPU需求从几十张增长至上万张,推动AI军备竞赛。
GPT-1作为第一版使用Transformer架构的语言模型,通过无监督预训练和有监督微调实现性能提升。Bert采用Encoder结构,允许双向信息学习,相比于GPT系列在参数相同的情况下性能更优。
GPT-2通过增加模型大小,探索多任务学习,GPT-3进一步提升性能,无需微调直接构建prompt应用于下游任务,展示零样本任务的强大能力。
InstructGPT引入人类反馈微调,使语言模型更符合用户意图,提高回答真实性,但仍存在偏见与简单错误。
GPT-4作为多模态模型,效果与能力源自大规模数据与模型参数,RLHF方式优化回答质量,OpenAI强大的基础设施确保模型预测准确性。
案例展示:在面对不同情况时,GPT-4能够准确区分正确与错误的选择,体现了对内在逻辑关系的学习能力。