“大力出奇迹”-进击的LLM

发布网友发布时间：2024-10-20 22:07

共1个回答

热心网友时间：2024-10-20 23:50

引言

上个世纪80年代，符号主义与连接主义之争推动了全连接神经网络与BP算法等基础技术的诞生，为现代人工智能技术打下坚实基础。21世纪以来，随着互联网时代的到来，数据量爆发式增长，CPU、GPU等芯片处理能力的迅猛发展，深度学习技术应运而生。

深度学习通过大规模数据训练，实现图像识别、文本理解、数据生成等复杂任务的高精度拟合。在计算机视觉领域，深度学习技术在残差连接、迁移学习、few-shot等创新技术的推动下，取得了显著进展。自2017年起，深度学习在自然语言处理（NLP）领域也展现出巨大潜力，transformer的出现彻底改变了NLP领域，GPT-3、BERT、Codex等系列模型的推出，展现了深度学习的强大性能。

2022年，CloseAI将GPT3.5和GPT-4系列模型产品化，引发了新一轮AI热潮，黄教主也因此登上全球富豪排行榜第34位。

背景知识万能定理

深度学习万能定理表明，具有足够多神经元的神经网络可以*近任何复杂度的连续函数，理论上单隐层神经网络即可表示复杂函数关系。

可解释性问题一直是深度学习的弱点，与决策树、SVM等传统机器学习算法相比，缺乏上层数学工具解释其决策过程，导致模型参数设置、结构选择等依赖经验与试错。

预训练技术

深度学习模型初始化参数至关重要，早期采用随机初始化导致模型不收敛、学习效果不佳等问题。预训练技术通过在大规模数据集上训练，得到初始化权重，利用这些权重在特定任务上进行微调，显著提高模型性能。

预训练技术首先在计算机视觉领域应用，利用image-net等大型数据集，随后在NLP领域通过transformer的出现，利用大规模文本数据，推动预训练技术在NLP领域的发展。

例如，GPT通过预训练获得强大的语言生成能力，BERT通过预训练获得通用语言理解能力，实现NLP任务的迁移效果。

进击的LLM - AI军备竞赛

过去五年，NLP领域迎来黄金时代，从Transformer开始，语言模型摆脱RNN*，大规模堆叠成为可能。OpenAI、Google等推出GPT、BERT、T5等模型，GPU需求从几十张增长至上万张，推动AI军备竞赛。

GPT-1作为第一版使用Transformer架构的语言模型，通过无监督预训练和有监督微调实现性能提升。Bert采用Encoder结构，允许双向信息学习，相比于GPT系列在参数相同的情况下性能更优。

GPT-2通过增加模型大小，探索多任务学习，GPT-3进一步提升性能，无需微调直接构建prompt应用于下游任务，展示零样本任务的强大能力。

InstructGPT引入人类反馈微调，使语言模型更符合用户意图，提高回答真实性，但仍存在偏见与简单错误。

GPT-4作为多模态模型，效果与能力源自大规模数据与模型参数，RLHF方式优化回答质量，OpenAI强大的基础设施确保模型预测准确性。

案例展示：在面对不同情况时，GPT-4能够准确区分正确与错误的选择，体现了对内在逻辑关系的学习能力。