亚马逊发布EC2 TRN2 UltraServers 计算服务器

4 个月前 计算核心 205

亚马逊EC2 TRN2 UltraServers是亚马逊云科技在2024 re:Invent全球大会上推出的一款强大的计算服务器,以下是其详细介绍:

基础配置

  • 芯片:配备64个相互连接的Trainium2芯片,采用NeuronLink超速互连技术,可提供高达83.2 Petaflops浮点算力,其计算、内存和网络能力是单一实例的四倍,能够支持训练和部署超大规模的模型.
  • 性能对比:与当前基于GPU的EC2 P5e和P5en实例相比,性价比提升30%-40%,更具备成本效益,适合企业级的大规模AI模型训练与部署.
  • 组成架构:一个UltraServer由四个Trn2实例连接而成,每个Trn2实例包含16个Trainium2芯片 ,每个Trainium2芯片有八个Neuron核心以及96 GiB的高带宽内存,并且支持2.9 TB/秒的HBM带宽.

技术优势

  • 强大的计算能力:能够满足训练和推理的需求,可以支持训练和部署具有数十亿甚至数万亿参数的大型语言模型和基础模型,帮助企业更快速地构建更大规模的模型,以应对日益增长的AI计算需求.
  • 高性价比:在提供强大性能的同时,相比传统的GPU-based EC2实例,具有明显的成本优势,可降低企业的AI训练和部署成本,使更多企业能够投身于大规模AI模型的开发与应用.
  • 优化的互连技术:NeuronLink超速互连技术确保了芯片之间的高速、低延迟通信,使得数据在不同芯片之间的传输更加高效,从而提升了整体的计算性能和效率,对于大规模分布式训练和推理任务尤为重要.

应用场景

  • 大规模语言模型训练:可用于训练如GPT-4等规模的大型语言模型,通过并行计算和高速互连,加速模型的训练过程,提高模型的准确性和性能.
  • 基础模型开发:支持各种基础模型的研发,如计算机视觉基础模型、语音识别基础模型等,为AI的广泛应用提供更强大的基础支撑.
  • AI推理服务:在生产环境中,为万亿参数模型的实时推理提供高性能支持,确保快速响应用户请求,提升用户体验,比如在智能客服、自动驾驶等领域的实时决策.

市场影响

  • 对英伟达GPU芯片形成挑战:亚马逊云科技推出的Trainium系列芯片及相关服务器产品,以其高性价比和针对AI工作负载的优化设计,有望在AI训练和推理市场争得更多份额,对英伟达GPU芯片的市场主导地位构成一定挑战.
  • 推动行业发展:随着越来越多的企业寻求成本更低、性能更优的AI计算解决方案,亚马逊EC2 TRN2 UltraServers的出现将推动整个行业在芯片研发、服务器架构设计、AI应用开发等方面的创新与发展,促使云计算厂商更加注重自研芯片和定制化解决方案的研发,以满足不同客户的需求.
相关资讯