水木
水木
发布于 2024-08-24 / 67 阅读
0

多模态大模型:算法、应用与微调

链接: https://pan.baidu.com/s/1l1n2Kj3nKvRKFUwmXPlmNg?pwd=fts5 提取码: fts5

出版社: 机械工业出版社
ISBN:9787111754886
版次:1
商品编码:14682098
品牌:机工出版
包装:平装
丛书名: 智能系统与技术丛书
开本:16开
出版时间:2024-06-01
用纸:胶版纸
页数:404
播放视频
产品特色

编辑推荐
适读人群 :大模型应用开发者 人工智能技术爱好者 学生


(1)内容权威:作者为一线的LLM研究及实践者,本书受到多位研究专家、科技公司管理者的好评及推荐。全面覆盖了多模态大模型的算法原理和应用实战,从基础到高级,涵盖Transformer、GPT系列、深度生成模型等前沿技术,详尽介绍了预训练模型、分布式训练等重要内容。
(2)质量可靠:书中包含丰富的项目案例。通过具体实战项目,如Stable Diffusion进行图像生成和Code Llama进行代码生成,展示了大模型的实际部署和优化过程,并强调了微调技术的细节,确保读者能够在实际操作中有效应用所学知识。
(3)收获切实:通过阅读本书,你将:1)深入了解多模态大模型的架构、原理及应用;2)掌握大模型的实际部署和优化技巧;3)获得详细的微调技术指导,提升在深度学习模型领域的实战能力和职业竞争力。

内容简介

本书详尽地覆盖了多模态大模型的算法原理和应用实战,提供了丰富的微调技术细节和实际案例,适合对多模态大模型有兴趣的技术人员深入学习及应用。
本书分为两篇:
算法原理篇 详细介绍了先进的深度学习模型,包括Transformer、GPT系列、深度生成模型,从基本架构、训练方法到特定应用,包括但不限于Seq2Seq结构、位置编码、注意力机制、残差连接、变分自编码器、GAN、ViT、CLIP、Stable Diffusion、各模型训练实践的知识点。此外,探讨了预训练模型的涌现能力、模型参数和通信数据量的估算,以及分布式训练的各种技术,如数据并行、模型并行和混合精度训练等。
应用实战篇 聚焦于深度学习模型的实际应用,特别是文本和图像生成,以及代码生成的应用实战。通过具体实战项目,如利用Stable Diffusion进行图像生成和Code Llama进行代码生成,提供了微调技术的详细细节,介绍了LangChain等大模型应用框架。

作者简介

刘兆峰
中国电信多模态算法工程师,基于多模态大模型提升长尾业务能力。天津科技大学人工智能专业硕士研究生。曾在京东科技担任算法工程师,从事京东白条申请评分卡开发。后加入创业公司,从事大规模预训练语言模型的分布式微调和AIGC相关衍生产品的系统开发,对LLM的训练和推理有深厚的理论基础和实战经验。
现主要研究方向为多模态大模型与Agent以及AGI系统研究,聚焦于多模态大模型的行业场景落地。工作期间技术成果丰硕,发表多篇论文,有多个软件著作权。

精彩书评

这本书详细介绍了从基础到高级的多模态大模型的技术原理,并通过丰富的项目案例展示了实际部署和模型优化的实践过程。对于希望应用新大模型的技术人员,或者对AI技术充满好奇的技术爱好者,本书提供了实用的理论指导和深入的系统实践。这本书将成为你在AI探索之路上的得力助手,为你开启前沿技术的新篇章。
—— 苏静教授  天津科技大学 教务处副处长


本书深入探讨了多模态大模型的技术全景,分为算法原理和应用实战两篇,涵盖了Transformer、GPT系列等模型的架构及原理,并聚焦于文本、图像生成以及代码生成等实际应用。无论是想深入研究模型原理,还是在实践中应用模型,都能在本书中找到指导和启发。
—— 张贤坤教授  天津科技大学 人工智能学院院长


这本书从算法原理到实战应用,深入浅出地介绍了Transformer、GPT系列、Stable Diffusion等大模型。不仅从技术视角为读者呈现了大模型整体架构,还呈现了大量实战应用案例。对于想要深入了解和应用多模态大模型的读者来说,这是一本不可多得的指南和参考。
—— 杨勇教授 天津工业大学 计算机科学与技术学院院长


本书从学习者和实践者的双重视角,探讨展现了多模态大模型的算法原理和技术实践,既有严谨的理论,又有生动的实践,极适合工程师、技术爱好者、学生阅读学习,强烈推荐。
—— 王嫄副教授  天津科技大学 人工智能学院


这本书全面解析了多模态大模型的核心技术和应用实践,从算法原理到模型微调,从理论讲解到案例演示,每一部分都展现了作者对多模态大模型的深入研究和扎实经验。这本书不仅适用于对AI技术感兴趣的初学者,还适用于希望进一步提升技术水平的资深从业者。通过阅读本书,读者可以系统地掌握多模态大模型的理论知识,同时了解其在各个领域的实际应用。
—— 王刚  易商数科科技有限公司 总裁


这本书全面介绍了多模态大模型技术栈,系统地讲解了从基础到高级的大模型结构,并辅以具体的应用案例和代码段,图文并茂,为读者提供了有效的实战参考。大模型是当前众多企业的技术研究重点,企业力求利用大模型提升营销、销售、运营、服务等环节的效率,甚至改变现有的经营模式。这本书的面世恰好满足相应的学习需求,为技术人员提供了详尽的理论体系和实战指导,具有重要的意义。
—— 陈玮  泰康在线财产保险股份有限公司 副总经理

目录

目  录

前言

第一篇 算法原理

第1章 Transformer模型 2

1.1 Seq2Seq结构 2

1.1.1 分词器 2

1.1.2 编码器–解码器结构 6

1.1.3 注意力机制 9

1.1.4 实战:日期转换 13

1.2 Transformer模型介绍 18

1.2.1 位置编码 18

1.2.2 模型架构 24

1.2.3 标准化和残差连接 32

1.2.4 线性层和softmax层 36

1.2.5 损失函数 36

1.2.6 实战:日期转换 37

1.2.7 小结 45

1.3 ViT模型介绍 46

1.3.1 注意力机制在图像上的

应用 47

1.3.2 ViT模型架构 48

1.3.3 大数据预训练 50

1.3.4 ViT模型训练实践 52

1.4 本章总结 54

第2章 GPT系列模型 55

2.1 GPT-1 55

2.1.1 语言模型 56

2.1.2 训练框架 56

2.1.3 模型效果分析 62

2.2 GPT-2 63

2.2.1 模型架构分析 64

2.2.2 构造训练数据集 65

2.2.3 模型效果分析 65

2.3 GPT-3 66

2.3.1 上下文学习 67

2.3.2 构造训练数据集 67

2.3.3 训练停止判定 69

2.3.4 重要潜力 69

2.4 GPT-3.5 70

2.4.1 代码生成模型Codex 71

2.4.2 强化学习 76

2.4.3 ChatGPT的“孪生兄弟”:InstructGPT 85

2.4.4 RLAIF 96

2.5 GPT-4 97

2.5.1 GPT-4的非凡表现 98

2.5.2 基于规则的奖励模型 99

2.5.3 多模态架构 101

2.5.4 训练流程 103

2.5.5 局限性 104

2.6 语言模型的未来 104

2.6.1 自我学习与自我核