为什么数据科学家的感觉就像是魔术师“
数据科学家角色在今年年初推向敏捷者,当时它被命名为2016年“最热门的工作”,而且在以来的职位上有相当的兴趣。刚近,白宫挑选了数据科学家,并有一个特殊的吸引力寻求帮助。
这项工作中的人可以预期,如果他们需要的是116,840美元,可以获得一个大约116,840美元的中位数。但是是一个数据科学家是什么样的?阅读,听到目前在前线上的三个人不得不说。
这一天如何崩溃
数据科学家花了很多时间与数据一起使用而不说。可能不太明显的是,会议和面对面的时间也是图片的大部分。
“通常,当天开始与会议开始,”Tanu George表示,LateView Analytics的客户经理和数据科学家。她说,这些会议可以提供各种目的,包括确定客户的业务问题,跟踪进度或讨论报告。
LateView Analytics.Tanu George是一个具有Lateveview Analytics的数据科学家。
她说,通过中间的会议死亡。“这是我们开始做数字嘎吱嘎吱的时候,”通常专注于试图回答早些时候在会议中提出的问题。
下午经常花在旨在解释这些数字的协同会议上,随后通过电子邮件在一天结束时分享分析和结果。
大约50%的乔治时间在会议中,她估计,在计算工作中另有20%和30%的解释,包括可视化和将数据变为可行的形式。
与客户的会议还代表Ryan Rosario,一个独立的数据科学家和在线教育网站跳板的一天的重要组成部分。“客户解释了这个问题,他们想看看结果,”他说。
接下来讨论需要哪种数据。“比不是不多的,客户实际上没有数据或知道在哪里可以得到它,”罗萨里奥说。“我帮助制定了一个如何获得它的计划。”
瑞安罗萨里奥Ryan Rosario是一个独立的数据科学家和工程师。
许多数据科学不适用于数据本身,但更加试图了解“这对公司或客户的意思是什么意思”,这是医疗保健的梅德林的预测分析科学家弗吉尼亚州长。“第一步是理解该地区 - 我”LL花了很多时间搜索文献,阅读并试图了解这个问题。“
长长说,弄清楚谁有什么样的数据。“有时这是一个挑战,”她说。“人们真的很喜欢使用数据来告知他们的决定,但有时他们只是没有正确的数据来做到这一点。弄清楚我们可以收集正确的数据的方式有时是我工作的一部分。“
一旦数据在手中,“挖掘”并理解它接下来。“这是基本背景研究的翻盖,”长说。“你”真正发现了实际在数据中的内容。这可能是乏味的,但有时你会发现你可能没有注意到的事情。“
弗吉尼亚长弗吉尼亚州长是梅德林天生的预测分析科学家。
长期以来还花了一些时间为内部和外部使用的教育材料,一般都解释了各种数据科学技术的工作。
“特别是所有的炒作,人们会看到机器学习等东西,看到外面的闪亮。他们“LL说,”哦,我们需要做到,“”她解释道。“每一天的一部分至少是一些解释的可能性以及它是如何工作的。”
工作的最佳和最糟糕的部分
会议是乔治最受欢迎的一天:“他们让我爱我的工作,”她说。
对于罗萨里奥而言,其过去的角色在Facebook的机器学习工程中包含了一个Stint,工作的最佳部分随着时间的推移而转移。
“当我在硅谷工作时,我最喜欢的部分是按摩数据,”他说。“数据经常以凌乱的格式来到我们,或者只能通过特定的软件可以理解。我将它转化为一种格式,以使其消化。“
作为顾问,他喜欢向人们展示数据可以做些什么。
“很多人都知道他们需要帮助数据,但他们不知道他们能做什么,”他说。“感觉就像是一个魔术师,打开他们的思想来解决可能性。那种探索和烫伤现在是我最喜欢的部分。“
长期的最爱是许多,包括研究要解决的问题的背景的初始阶段以及弄清楚揭示了获得必要数据,然后将其陷入其中。
虽然有些报道表明,数据科学家仍然花费过多的数量的“janitorial”任务,“我认为这是一个janitorial,”长长的说。“我认为它是挖掘和理解它的一部分。”
至于令人兴奋的比特较少,“我不太不必管理项目,”长说。这样做意味着“我经常不得不花时间在试图让自己的事情完成时管理所有其他人的优先事项。”
至于罗萨里奥,训练统计和数据科学,系统建设和软件工程是他更喜欢去强调的部分。
准备角色
数据科学需要相当大的教育,这三个专业人员也不例外,它没有秘密。她说,Lateveview Analytics“乔治”拥有MBA的电气和电子工程学士学位。
Rosario在统计数据和计算数学中持有BS,以及来自UCLA的计算机科学中的统计MS;他目前在那里的统计数据上完成了他的博士学位。
至于梅林林“长,她在行为神经科学中掌握了博士学位,专注于学习,记忆和动机。
“我厌倦了在数据之后跑步”长期吵架,参考科学世界进行的实验。“作为科学家的一半工作正在进行数据分析,我真的很喜欢那个方面。我也有兴趣做出实际差异。“
下一个边疆
事情从哪里开始?
“我认为未来有更多的数据来临,”乔治说,引用了事物互联网(物联网)的发展。“展望未来,所有高级和中管理角色都将纳入数据管理的某些方面。”
Rosario同意,越来越多地关注流数据意味着“需要做更多的工作,”罗萨里奥同意。“我们”LL可以更加重视开发可以合并数据流的算法和系统。我看到像IoT和流媒体数据是下一个边界的东西。“
他补充说,安全和隐私将是解决方式的主要问题。
数据科学家仍然预计是“独角兽”,长长的说,这意味着他们“重新要求一切单独做一切,包括所有编码,数据操纵,数据分析等。
“很难让一个人负责一切,”她说。“希望,不同类型的不同技能的不同类型的人将成为未来。”
建议的话语
对于考虑数据科学职业的人,罗萨里奥倡导至少追求硕士学位。他还建议试图在数据方面思考。
“我们都有我们周围的问题,无论是管理我们的财政还是计划度假,他说。“尝试考虑如何使用数据解决这些问题。询问数据是否存在,并尝试找到它。“
对于早期投资组合建设经验,共同建议表明,从诸如滑动的网站中找到数据集,然后找出可以使用它解决的问题。
“我建议逆转,”罗萨里奥说。“选择一个问题,然后找到你的数据来解决它。”
“我觉得最好的准备是某种感觉的科学方法,或者你如何接近问题,”梅德林州“长。“它将确定您如何处理数据并决定使用它。”
工具可以掌握,但“如何解决问题的敏感性是你需要擅长的东西,”她补充道。
当然,最终,关于数据科学家的最后一英里正在展示他们的结果,乔治指出。
“这是很多细节,”她说。“如果你是一个好的故事讲述者,如果你可以在其中编织一个故事,那么就没有什么比这更好。”