利物浦大学如何余额HPC和云
为了支持学术研究所需的各种工作量,利物浦大学由Dell EMC和ALCES FLIGHT设计的内部前提HPC集群,该集群提供按需公共云访问在Amazon Web服务上运行的NVIDIA图形处理单元(GPU) (AWS)。
大学的研究人员正在使用基于Dell PowerEdge的HPC集群,帮助他们推动开发在工业和消费产品中具有大规模应用的新材料的突破。HPC支持的研究包括增强健康管理的个性化,并推动对传染病的斗争。
该系统自2017年以来一直在运行,旨在使研究人员和学生在利物浦大学的先进研究计算中努力运行HPC工作负载。
Addison于2002年加入利物浦,即在运行高性能计算系统之后不久。作为新HPC系统的原始招标的一部分,他说:“我们希望一种支持新用户的机制,并希望拥有一个可扩展的环境。”
他说,混合方法的吸引力是,HPC安装的云端更容易使用新用户。“我们正在寻找大量的新用户。命令行用户界面和Linux作业提交是外国的,因此我们需要更容易访问。“
Addison认为HPC在易用性方面有很长的路要走,使任何用户能够运行其工作负载,而无需了解HPC操作环境的复杂性。但是可以部署基于云的环境的缓解使大学提供目标,以便在易用性方面努力。
暂时,他说,Alces航班,提供了硬件平台的日常管理,它在利物浦免费留下内部HPC团队以支持用户。
Addison说,大学已认识到云对工作负荷恒定的云并不总是成本效益。“我们想要支持一个异常的工作组合,”他补充说,使工作能够在上提下或在AWS中运行,具体取决于运行工作负载的成本和资源需求。
“现在用云,我们有更大的实验灵活性,”他说。“我们可以帮助立场并提供云中环境的研究人员。”
利物浦的HPC具有GPU集群,主要用于机器学习和分子建模。Addison说研究人员可以在AWS上的V100节点上运行GPU工作负载,以测试应用程序并了解成本。“但是在很长一段时间内使用云很贵,”他说。
贸易差价与大学研究人员的需求相匹配,但Addison已增加对GPU的需求增加。“虽然它仍然适度,我们有两个全职GPU,并将购买另一个,”他说。
“去年,我们对我们给予人们的V100 Nvida GPU AWS能力很满意。反馈足够强大,我们能够将业务案件放在一起添加我们自己的内部GPU。“
与某些使用每次使用付费的大学不同,用于为HPC使用量计费,利物浦的HPC是集中资助的。2017年购买的原始系统大约是半满,但Addison表示已经设置了核心网络和基础架构以适应更多的节点。
事实上,他说大学将为25个新节点提供订单。“我们用扩张空间买了它,”他说。“限制是在冷却方面。”
HPC将很快搬迁到新的设施,他说的是它的冷却能力,它目前的能力是,使系统能够支持最多六个机架的HPC节点,并为120千瓦时提供冷却。
但是,鉴于HPC运行研究人员的工作负载的灵活性,Addison说,他面临的主要问题是确保他们做了明智的事情。
“这是一个非常复杂的环境,因此用户很容易错误地指定从计算资源所需的内容。”
Addison看到的一个机会是使用HPC环境的云端进行业务连续性。“我们非常有意识地对跑步的用户保持服务,”他说。“学生服务和电子邮件是高优先事项。”
但他说HPC似乎有一个失败点。“如果有一个停电,HPC不可用。”
但是,他说:“云给我们比我们以前所拥有的更大程度的灵活性。我们可以存储[虚拟机]在云中的图像,并将研究人员习惯于云中的几乎相同的软件环境,即使我们的HPC已关闭。“
在接下来的几周内,随着它的迁移到新的位置,随着冷却能力的提高,HPC确实将离线,利物浦的研究人员将使用云环境而不是上提下的HPC。
艾迪生表示,长期表示,集装箱技术在大学的路线图上。“容器对应对研究组使用的不同软件堆栈变得重要。在接下来的两到三年中,我们将在HPC环境中本地使用容器,并将其用作跳板,将工作负载移动到云上。“
他认为,与集装箱化有关的工作负荷智能编排 - 将是一个首要任务。