水木
水木
发布于 2024-09-06 / 45 阅读
0

大模型时代的基础架构:大模型算力中心建设指南

链接: https://pan.baidu.com/s/1sNFfTBRRBsXkw71B4rdd9Q?pwd=ym7d 提取码: ym7d

出版社: 电子工业出版社
ISBN:9787121481239
版次:1
商品编码:14672774
品牌:博文视点
包装:平装
开本:16开
出版时间:2024-07-01
用纸:胶版纸
播放视频
产品特色

编辑推荐
适读人群 :无论是高等院校计算机与人工智能等相关专业的本科生或研究生,还是对并行计算技术、云计算技术、高性能存储及高性能网络技术感兴趣的研究人员或工程技术人员,都可以参考和阅读本书。


• TOGAF方法论:本书在写作过程中贯穿了TOGAF(The Open Group Architecture Framework)的架构设计方法论,对架构设计感兴趣的读者可以从中理解从TOGAF理论到实践的过程。

• 硬件设计逆向剖析:本书通过对公开资料的解读,逆向剖析了Nvidia DGX系列服务器的设计思路,展示了分析已有架构设计的方法。

• 软硬件融合思维:本书讲解了通过软硬件融合的思路,消除高性能并行计算系统的性能瓶颈的方法,如SR-IOV,DPDK,以及GPU虚拟化等。

• 全栈知识融会贯通:本书从GPU、服务器设计、网络设计、IaaS设计和PaaS设计层面,阐述了全栈智算云平台的构建,帮助读者尽可能地横向拓展知识。

• 计算机系统设计哲学:“提供机制而不提供策略”“对修改封闭,对扩展开放”以及“低耦合,高内聚”等架构设计原则,几乎每个计算机领域的工程师都有所耳闻。本书不但自始至终在为大家强调这些理论的重要性,还为大家介绍了“解剖麻雀”“从量变到质变”和“识别主要矛盾”等哲学层面的方法论,读者深刻体会这些方法论后,就能够在计算机技术这条路走得更远。

• 实践案例分析:本书基于实际商用的智算平台案例,为读者阐述了如何基于具体需求进行智算平台的硬件、IaaS和PaaS设计,并投入用户核心生产业务的使用。




内容简介

大模型是近年来引人注目的热点之一。大模型蓬勃发展的基础,是针对其需求设计的算力及基础架构。本书针对如何为大模型构建基础架构进行深入讲解,并基于TOGAF方法论,剖析业界知名案例的设计方案。

全书总计13章。第1章讲解AI与大模型时代对基础架构的需求;第2章讲解软件程序与专用硬件的结合,涉及GPU并行运算库、机器学习程序的开发框架和分布式AI训练;第3章剖析GPU的硬件架构,涉及GPU的总体设计、Nvidia GH100芯片架构和拥有其他Hopper架构的GPU;第4章讲解GPU服务器的设计与实现;第5章讲解机器学习所依托的I/O框架体系;第6章讲解GPU集群的网络设计与实现;第7章讲解GPU板卡算力调度技术;第8章讲解GPU虚拟化调度方案;第9章讲解GPU集群的网络虚拟化设计与实现;第10章讲解GPU集群的存储设计与实现;第11章讲解如何基于云原生技术为机器学习应用设计与实现更好的开发和运行平台;第12章讲解基于云平台的GPU集群的管理与运营,涉及云运维平台、云运营平台和云审计平台;第13章基于一个服务机器学习的GPU计算平台落地案例,展示如何针对机器学习应用进行需求分析、设计与实现。

无论是高等院校计算机与人工智能等相关专业的本科生或研究生,还是对并行计算技术、云计算技术、高性能存储及高性能网络技术感兴趣的研究人员或工程技术人员,都可以参考和阅读本书。




作者简介

方天戟

腾讯专有云与智算平台shou席架构师,本科毕业于北京航空航天大学自动控制专业,硕士研究生毕业于中国科学院研究生院计算机科学与技术专业。从业近20年,从事过硬件开发、内核与驱动开发、协议栈开发、网络与云计算解决方案设计等工作,曾在华为、新华三、Juniper等企业任职,为航天科技、中国建筑、BMW及环球影城等国内外知名客户设计且落地过云计算与网络解决方案。“云鉴”丛书编写组核心成员。

微信公众号:帅云霓的技术小屋




精彩书评

在本书中,作者耗费大量心血,把大模型的核心架构用通俗易懂的方式讲给普罗大众,就是为了让更多的并不从事大模型建设工作的人理解这些内容。本书重点突出,讲解思路清晰。在大模型建设工作中要实现哪些目标?会遇到哪些困难?要克服或绕过这些困难,应该采用什么方法?本书条分缕析、引人入胜,给人以山阴道中移步换景的感觉。并且,本书通篇都在介绍怎样做架构,还围绕一个高远的目标,讲了如何思考、如何构建、功能如何相互照应。看了本书,我们大概可以理解一些软件的结构之美。同时,本书自身的内容架构就很精美,可供我们欣赏和借鉴。

——中国电子企业协会副会长 | 宿东君

本书的出现恰逢其时:目前,大中型企业正处于在其数据中心内建设大模型基础设施的关键阶段,本书可为其提供指导。

本书不但讲解了大模型相关的基础技术,比如AI基本概念、GPU硬件、软件、虚拟化等,还讲解了大模型基础设施的核心内容,包括GPU集群存储、网络、I/O、算力调度、网络虚拟化、管理和运营等,并结合实际案例,讲解了如何进行机器学习应用开发与运行平台设计,在此过程中把本书中的重点内容“串联”起来进行了讲解,以期读者建立整体的认知。希望本书能成为助力国内大模型基础设施建设的“方天画戟”,也希望读者喜欢本书,能在阅读本书后有真正的收获。

——腾讯云TVP,“世民谈云计算”微信公众号作者 | 刘世民

算力中心作为大模型基础架构,在其搭建过程中,除了大模型本身性能是否优异的问题,如何对与之关联的硬件进行部署、对硬件计算能力进行优化和提升,已经是绕不过去的突出问题。本书恰恰从这个角度给出了相应的解决方案,而且呈现的形式不是枯燥乏味的描述,而是能让读者在思考及会心一笑的状态下,了解大模型基础架构的整体形态和各子系统是如何运作的,以及是如何响应需求且充分利用平台资源的。这一亮点,在理论书籍盛行的计算机专业领域无异于一道甘泉。我真诚地希望读者能够发现本书,翻阅本书,喜爱本书。

——江苏科技大学计算机学院 | 王琦




目录

第1章 AI与大模型时代对基础架构的需求

1.1 我们在谈论AI时,到底在谈论什么

1.2 机器学习算法初窥

1.3 一元线性回归算法剖析

1.4 机器学习算法对计算机硬件的特殊需求

1.4.1 机器学习算法的核心运算特征

1.4.2 使用CPU实现机器学习算法和并行加速

1.4.3 机器学习算法的主力引擎——GPU

1.4.4 机器学习算法的新引擎——TPU和NPU

1.5 本章小结

第2章 软件程序与专用硬件的结合

2.1 GPU并行运算库

2.2 机器学习程序的开发框架

2.3 分布式AI训练

2.4 本章小结

第3章 GPU硬件架构剖析

3.1 GPU的总体设计

3.2 Nvidia GH100芯片架构剖析

3.3 其他Hopper架构的GPU

3.4 本章小结

第4章 GPU服务器的设计与实现

4.1 初识Nvidia DGX

4.2 Nvidia DGX A100的总体设计

4.3 Nvidia DGX A100 CPU与内存子系统的设计

4.4 Nvidia DGX A100 PCI-E子系统的设计

4.5 Nvidia DGX A100 NVLink子系统的设计

4.6 其他辅助子系统的设计

4.7 本章小结