2016-2022 All Rights Reserved.平安财经网.复制必究 联系QQ 备案号:
本站除标明“本站原创”外所有信息均转载自互联网 版权归原作者所有。
邮箱:toplearningteam#gmail.com (请将#换成@)
近日超算集群Frontier研究人员在AMD硬件平台上集合了37888个MI250X GPU和9472个Epyc 7A53 CPU的环境,并且仅使用其中8%左右的GPU,训练了一个GPT-3.5规模的模型,展示了如何用非英伟达生态完成大规模训练的技术框架和细节,披露了英伟达的技术护城河。
研究人员使用ROCM软件平台在AMD硬件上成功突破了分布式训练模型的难点。在研究人员看来,训练一万亿参数规模的LLM最棘手的挑战是对内存的需求,至少需要14TB的内存才可以满足这样的需求。单块GPU最大的内存只有64GB,这意味着需要并行使用多个AMD MI250X GPU才可以满足要求,多块GPU并行对GPU的通信要求非常高,如果不能利用GPU之间的带宽通信,将会浪费大部分的GPU计算资源。研究人员将基于CUDA的代码转换为HIP代码,预构建DeepSpeed ops,将缩放效率做到87%,完成很多工作之后,终于训练出了超万亿参数LLM规模的成果。
2016-2022 All Rights Reserved.平安财经网.复制必究 联系QQ 备案号:
本站除标明“本站原创”外所有信息均转载自互联网 版权归原作者所有。
邮箱:toplearningteam#gmail.com (请将#换成@)