产品展示
AI服务器总体架构和关键技术

发布于:2024-01-20 01:13:06  来源:产品展示  点击量:14次

  和数据等数字资源进行创造、加工、整合,最终实现用机器替代人,为传统行业智慧赋能。算力、算法、数据是人工智能的三大要素。AI产业链包括三层:基础层、技术层和应用层。

  (1)基础层:AI产业的基础,主要提供 AI 专有算力支持和开发环境的设备和服务,包括 AI芯片、 系统开发框架、AI 服务器等基础设施等;

  (2)技术层:在 AI 算力的支持下,通过系统开发框架进行各场景数据的训练和 学习,开发出计算机视觉、语音语义、知识图谱等 AI 算法,并将其搭载于硬件设备上形成行业级解决方案;

  AI 服务器是人工智能基础层的核心物理设备,其面向需要的快速,低精度,浮点运算高度并行数值计算,搭载大量计算内核和高带宽内存资源,用于支撑深度学习训练和线上推理计算框架模型和应用,可以在多个节点之间高速互联、高效地扩展的硬件平台。有别于传统服务器以CPU提供主要算力,人工智能服务器多采用异构架构进行加速计算,常采用CPU+GPU、CPU+FPGA、CPU+ASIC等多种形式。通过搭配不同的异构加速芯片,形成不同性能和可编程灵活性的人工智能算力硬件。目前普遍的使用的 AI 服务器是 CPU+GPU。

  通过 AI 服务器构成人工智能基础层的智能算力集群,联合智能模型平台和数据基础服务平台,支撑技术层和应用层的AI应用场景落地。随着大模型训练对云端算力的持续增长需求,AI 服务器部署规模慢慢的变大,持续增长的计算速度和计算效率需求,推动着 AI 服务器的AI行业技术迭代。

  随着AI和大模型应用的持续演进和广泛部署,“CPU+”架构已成为AI服务器的设计蓝本。

  在这一架构中,CPU继续发挥其作为系统的中央处理单元的关键角色,负责任务的调度、系统管理和部分计算工作。然而,为了适应大模型和特定 AI 应用的计算密集性需求,服务器必须融合其他具有丰富计算核心的硬件加速器,能够在极短的时间内处理大量的数据和计算任务。

  以人工智能计算领域中普遍的使用的 GPU 计算部件为典型代表,详细描述了在现代“CPU+”架构中,人工智能加速部件与 CPU 的协同工作流程。在这种架构中,待处理的数据首先从 CPU 内存传输到GPU 的显存。这一步通常涉及大数据量的迁移,因此高带宽和低延迟的内存接口如 PCIe 和 NVLink 成为了优化的关键。一旦数据被载入显存,CPU 便开始向 GPU 发送程序指令。这些指令利用 GPU 的并行性能,驱动其多达数千的计算核心去执行。利用 GPU 的强大并行计算能力,显存中的数据会被快速处理。例如,在深度学习中,GPU可以并行处理大规模的矩阵乘法和卷积操作。计算完成后,结果存储在显存中,并在需要时传输回 CPU 内存。从“CPU+”这种架构的应用可以明显看出 CPU 的角色更偏向于指令协调和结果汇总,而实际上的高并行度计算任务则交给了 GPU 这类加速部件。这种分工策略符合Amdahl 定律的观点:系统的总体性能提升受制于其最慢部分。

  因此,通过优化可并行化的计算部分,将 CPU 和专门设计的硬件加速器如 GPU 结合,以此来实现高效并行处理,满足日渐增长的计算需求。

  异构计算指的是在一个计算系统中使用多种不一样的处理器或核心来执行计算任务。这种方式旨在利用各种处理器的特定优势,以获得更高的性能或能效。

  传统服务器系统内处理器以 CPU(即中央处理单元)为主。CPU 有很强的通用性,需要处理各种不同的数据类型,通常负责执行计算机和操作系统所需的命令和流程,因此其擅长无序超标量与复杂控制指令级的执行。

  本轮人工智能热潮的理论基础是人工神经网络,为了更好地训练和使用深度神经网络,就需要对计算密集型大规模矩阵进行并行处理。CPU 的架构决定了其难以适用于大规模的AI计算。而异构计算加速器集成大量计算核心,简化逻辑控制单元设计,提升系统的并行计算性能。

  当前异构计算加速器发展呈现多样化。人工智能芯片按照技术架构分类,可以划分为图像处理单元(GPU)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)等。

  CPU 作为中央处理核心,其硬件架构中为满足高性能和低 延 迟 的 需 求 , 特 地 增 强 了 高 速 缓 存 ( Cache ) 和 控 制 单 元(Control)的比例。相较之下,算术逻辑单元(ALU)在整体构造中所占的份额较小,这限制了 CPU 在大规模并行计算方面的表现。

  GPU 的架构以计算单元为核心,采用了高度精简且高效的流水线设计,专为处理高度并行和线程化的计算任务而生,具有大规模并行计算的能力。

  传统的 GDDR 显存模块通常焊接在 GPU 的PCB板上,这种配置可能会限制数据传输的速率和总存储容量。随技术的发展,这些限制慢慢的变成为了图形处理性能的瓶颈。未解决这个问题,HBM (High Bandwidth Memory) 技 术 应 运 而 生 。HBM 使用了 TSV(Through-Silicon Vias) 技术,允许多个DRAM芯片垂直堆叠起来,以此来实现更高的数据带宽。HBM 与 GPU 核心的连接则是通过一个特殊的互连层实现,这不仅进一步提升了数据传输速率,而且大幅度减少了 PCB 的使用面积。

  尽管 HBM 在带宽、体积和能效上都展现出了明显的优势,但由于其生产所带来的成本相比来说较高,GDDR 仍然是消费级 GPU 市场的主流选择。而在对性能和能效要求更高的数据中心环境中,HBM则得到了更广泛的应用。

  Tensor Cores 是专对于矩阵乘法和累加(MMA)数学运算的高性能计算核心,为 AI 和 HPC 应用提供了开创性的性能。当 TensorCores 在一个 NVIDIA GPU 的多个流多处理器(SM)中并行操作时,与标准的浮点数(FP)、整数(INT)和融合乘法-累加(FMA)运算相比,它们能够大幅度提高吞吐量和效率。

  Gaudi2 深度学习加速器,以第一代 Gaudi 高性能架构为基础,以多方位性能与能效比提升,加速高性能大语言模型运行。具备:24 个可编程 Tensor 处理器核心(TPCs);21 个 100Gbps(RoCEv2)以太网接口;96GB HBM2E 内存容量;2.4TB/秒的总内存带宽;48MB片上 SRAM。

  通过在 GPT-3 模型上的测试,和相关 MLPerf基准测试结果,为 Gaudi2 提供了卓越性能和高效可扩展性的有力验证。

  目前海光研发的 DCU 达 64 个内核,每个内核包含 4 个SIMT 运算单元和 1 个标量整型运算单元,每个 SIMT 包含多个可配置浮点乘加运算单元,SIMT 的每个指令周期内可以并行处理 64 个独立的运算线程。这种多内核多线程的 SIMT 架构,能够保证 DCU 每个时钟周期完成 4096 次高精度浮点乘加运算。

  海光 DCU 具有生态友好、精度覆盖、安全筑底,三大特点。目前海光 DCU 与 Hygon、Intel、AMD 等 CPU 平台服务器整体兼容,与国内外主流 OS 全面适配。同时,与绝大部分主流框架(包括TensorFlow、Pytorch、PaddlePaddle等)和算法模型(包括机器学习、深度学习 CV 与 NLP、大模型等)全面适配,并进行了大规模部署和上百个大型应用场景的验证。

  MXC500 是沐曦第一代通用 GPU 计算卡产品,基于自研 IP 进行芯片设计,MXC500 采用通用 GPU 技术路线,通过内置大量并行计算单元实现AI等领域上层应用的并行计算加速。一方面,GPU 架构相比 CPU 等串行计算硬件可以在一定程度上完成大幅度的计算加速;另一方面,GPU 架构相比包括 NPU、DSA 等的 ASIC 计算芯片具有更加好的通用性,能适应广泛的应用领域和计算场景,并能够针对 AI 算法的进步实现快速的跟进创新。

  MXC500 采用纯自研通用 GPU 架构,如下图,核心计算单元由8个DPC(Data Processing Cluster,数据处理组)组成,每个 DPC 包含大量 AP(Acceleration Processor,加速处理器),以此来实现大规模并行计算加速。在 GPU 内部,Command Engine 负责将并行计算任务以线程(thread)为单位分发到不同的 AP 中做处理,核心计算单元与内部的寄存器、L1 缓存、L2 缓存构成高速的数据通路,并通过高速数据总线与 PCIe 单元、多卡互联(采用私有协议 MetaXLink)、存储控制器、DMA(直接内存读取,Direct MemoryAccess)等外围电路模块进行通信。

  MXC500 内置 4 颗 HBM2e 颗粒,通过 2.5D 封装技术与核心计算芯粒封装到同一颗芯片内部。HBM2e 总容量为 64GB,带宽高达1.55TB/s。MXC500 通过沐曦自研的私有化通信协议 MetaXLink实现多GPU之间的直接互联,能够支持最多单机8卡全互联的拓扑。

  文章出处:【微信号:AI_Architect,微信公众号:智能计算芯世界】欢迎添加关注!文章转载请注明出处。

  接收到串口设备的数据的时候,何时将数据打包转发到以太网,如果每个字节都打为一个包则显然效率太低,那么多少个字节打包合适。这里需要用户设定一个称之为最长数据包长度和最长数据包间隔的参数。

  过程中会遇到哪一些问题?在5G研发刚起步的情况下,如何建立一套全面的5G

  串口数据是可以连续不断发送的,而以太网数据则是以数据包为单位发送的。这样就关系到将多长的串口数据

  人脸识别系统由7大块组成,分别是摄像头、CC3200、串口调试助手、路由

  基于LTC1433_Typical Application直流到直流单输出电源的参考设计