超级计算是如何改变实验科学的
Debbie Bard将于2019年3月14日在爱丁堡的DataTech会议上进行了回家演讲。
BARD在美国伯克利国家实验室国家能源研究科学计算中心(NERSC)的数据科学参与小组。她是爱丁堡大学的一班,她在物理学中做过博士学位。
DataTech是由苏格兰政府支持的数据创新专注于的数据实验室组织的为期两周的DataFest 19的一部分。DataTech正在爱丁堡国家苏格兰国家博物馆。
吟呦诗人的谈话是题为“超级计算和科学家:HPC和大规模的数据分析是如何改变实验科学的”。
她认为,虽然计算已经是数十年来的重要科学工具,但“科学数据集的数量增加和复杂性正在转变我们对计算实验科学的使用”的方式。
NERSC是美国能源办公室的计算中心。它运行了地球上的一些最强大的计算机。Bard谈论NERSC如何超级计算在实验科学中,改变科学家如何改变粒子物理学,宇宙,材料科学和结构生物学的科学家收集和分析数据。
Bard的团队支持超过7,000名科学家和700个项目,并在NERSC上进行超级计算需求。她是英国公民,职业生涯跨越池塘粒子物理学,宇宙学和计算的研究。在加入NESC的数据部门之前,她在美国伦敦帝国学院和斯拉克国家加速器实验室工作。
在我在DataFest的谈话之前,她花了一些时间才能每周与电脑交谈。
“转型部分是关于计算如何实现新的硬件功能,以使新实验成为可能,”她说。
“如果您有一个非常高分辨率的探测器,您需要能够分析从该探测器关闭的数据,以及您需要HPC [高性能计算]和大规模数据分析。所有这些都开辟了新的机会,然后开辟了新的问题。
“这就是我真正兴奋的 - 当你可以使用计算以开辟以前不可能的新科学时,甚至无法思考。
“例如,在电子显微镜下,新型探测器通过四维扫描产生疯狂的数据量 - 也就是说。这就是超级计算出来的地方,帮助设计分析算法。
“另一个是”凌乱“的基因组分析,其中遗传学药物具有微生物组的样品 - 例如,含有数千种不同的细菌生物。试图对所有这些细菌进行顺序DNA分析是疯狂复杂的。这是一个巨大的数据密集型问题。很重要,因为如果你知道哪种土壤富有成效,你可以更有效地在没有杀虫剂的情况下种植庄稼。“
Bard的南部有一半的数据科学家的团队帮助组织的科学家编写了在计算资源上运行良好的代码。
他们拥有所有,包括吟游诗人,“在计算苛刻的地区工作的时间”,但没有是计算机科学家。相反,他们来自这样的领域,作为生物信息学,物理化学和材料科学。她是背景的宇宙学家。
吟游诗人说,在旧金山湾区藏起来“挑战人民”。还有其他实验室,如劳伦斯利弗莫尔国家实验室,以及斯坦福大学,加州大学和旧金山等研究大学。
“您无法丢失任何数据,在网站之间传输时无法删除任何数据包。每个字节都很重要“
Debbie Bard,NERSC
还有硅谷公司 - 例如谷歌,Facebook和Apple - 以及可以提供更大的工资的其余部分。但是,通过大规模电脑的人们正在做科学计算的人“受到特派团的动机”,致力于使用大规模计算机的科学挑战。“
数据本身与商业组织分析的那种也不同。“再现性对于科学数据来说很重要 - 能够追踪数据的出处,对此做了什么,”Bard说。“实验周围的所有元数据,例如它的完成时间以及条件是什么。这是一个很大的问题。
“您无法丢失任何数据,在网站之间传输时无法删除任何数据包。每个字节都很重要。你必须思考你的压缩方法。
“我们无权访问商业领域可能可以访问的任何简单数据压缩方案,因此我们需要专家网络来转移科学数据,”她补充道。
还有“黑匣子”机器学习算法的问题,在那里科学家将“真的需要知道为什么是由算法做出决定”。
“很难拥有可解释的机器学习算法,这是研究界必须加强的一个地区,”吟游诗人说。“如果您无法理解为什么算法正在运行,科学家难以接受结果。因此,这是科学界接受的机器学习的障碍。
“在一个商业应用程序中,您并不真正关心为什么您的算法说,”这是猫的图片“或”这是狗的图片“,只要它正在准确地进行。在科学的应用中,您可以关心准确性,但也要考虑为什么它正在运行,所以您可以相信它并未隐藏内部偏见。“