本篇文章4392字,读完约11分钟
本文首次在微信公共平台上发表:数据观察。 文案是作者个人的观点,不代表网络的角度。 投资者据此,风险请自己承担。
很多牛逼的企业都宣称在树立数据科学部门,这个部门该怎么组建,大家都在摸石头过河。
o‘reilly strata今年 六月份发布了报告 《analyzing the analyzers》,比较清晰的阐述了数据科学部门所需要的不同角色及其技能。
要点文案翻译如下:
数据科学家的分类研究做法自我认知
请被调查者用常用的5级标准(从完全同意到完全不同意)来回答 “我觉得自己是一个xx” 这样的问题,能够获得数据科学家的自我认知结果。调查结果将数据科学家分为以下四类:data businesspeople、data creatives、data developer、data researchers。
技能诉求
请被调查者对数据科学家所需的以下22项技能进行排序,拆析不同类型的数据科学家的技能要求。其中的ml是机器学习的简写,or指运筹学(operations research)
将它们结合起来拆析
根据受访者的自我认识和技能排序,可以识别出不同类型的数据科学家所需要的技能。
数据科学家的类别
data businesspeople
data businesspeople 往往专注于组织管理和怎么从数据项目中产生利润。他们往往将自己定位为领导或创业者,约 80% 的 data businesspeople 承担员工管理的责任。data businesspeople 还可能是咨询服务或合同类服务的提供者。data businesspeople 学历相对很高,大约 60% 拥有硕士以上学位,其中 mba 接近 25%;而且很多 data businesspeople 都有工科学位的背景。data businesspeople 往往操作真实数据,90% 以上偶尔会操作 gb 级别的数据。与其他数据科学家相比,data businesspeople 年龄稍微偏大,接近四分之一是女性(相比略高),仅有四分之一的 businesspeople 把自己称为数据科学家(相比略低)。
data creative
数据科学家往往可以独立完成一条龙的完善拆析过程:从数据提取,整合、并进行分层,进行统计或其他多而杂的拆析,创造引人注目的可视化诠释和效果,开发具有更宽广应用前景的数据工具。而 data creative 则是其中能力最广泛的数据科学家,他们能够综合采用各种工具和技术处理问题、能够像黑客马拉松那样革新产品原型,是典型的万事通型人才。与其他类的数据科学家相比,data creative 更具艺术家风范。与 data researcher 相似,data creative 也有丰富的的学术经验,大约 3/4 拥有院校授课或发表论文的经历,通常拥有经济学和统计学等行业的学位。但不同之处在于,仅有较少的 data creative 拥有博士学位。data creative 具有深厚的业务经验,80% 的 data creative 按合同从业(接项目?);40% 创立了公司,甚至比 data businesspeople 还多。data creative 还被认为是黑客。他们往往还可能有深厚的开源经验,业余为开源项目和开放数据项目做贡献。data creative 相对更年轻,男性越来越多。有意思的是,他们也是最积极的回应我们最后一个问题的:“你觉得本次调查是否对你有用?”
data developer
data developer 专注于处理数据管理的技术问题 —— 怎么获取,存储,以及学习。data developer 更倾向于将自己评价为科学家(在这一些上仅次于 data researcher)。对于哪些从事机器学习和关联的学术研究的人来讲,这是当然合理的。但是,还有一点 data developer,每日的从业仅仅是日复一日的开发代码。半数 data developer 具有计算机科学或计算机工程学位,约一半人为开源项目作出过贡献。越来越多 data developer 会强调自己具有机器学习/大数据技能。部分 data developer 做过咨询从业,承担过管理岗位、或为开放数据项目做出过贡献。
data researcher
走向“数据科学家”头衔的职业生涯路径中,最兴趣是从在学校研究物理或社会科学开始,也有统计学专业的。多个组织已经深刻认知到,即使这些学生在校期间所学专业与公司业务行业完全不同,但他们被训练出的利用数据了解多而杂过程的能力仍然极具价值。大部分具备统计技能的受访者,自认为是 data researcher。近 75% 的 data researcher 在同行评审期刊上发表过文案,半数以上拥有博士学位。(心理和政治科学学位也有可观的数字)。data researcher 很少创业,而且仅有半数具有管理经验。
关于大数据
下图描述了对于不同数量级数据集解决的调查结果:大多数数据科学家很少直接操作 tb 级以上的数据。
t型数据科学家
大多数成功的数据科学家既有丰富的专业经验,还至少在数据科学的某一方面深入钻研,如统计,大数据,或业务信息表达等。这就是20世纪90年代提出的所谓的“t形技能”模式:“t”字母顶部的横表示广博技能,而竖线表示在某个区域的深度钻研。t形人才能够更容易融入跨学科团队,也能够更高效地从业。数据科学行业与生俱来就具有协作性和创造性,哪些成功的专业的人士能够与数据库管理员,商务人士,以及其他具有多种互补从业技能的人合作,以使数据项目以革新的方法完成。
data businesspeople 具有顶级的商业能力,其他能力较弱。data researcher 往往具有非常深的统计关联技能,但通常说来,他们对于机器学习/大数据,商业,和编程妙招却相对低。data developer的模式可以被称为“π形”,拥有强大的编程妙招,较强的机器学习/大数据关联技能,而其他三个技能相对中庸。最后,data creative 是不像t形结构的,全部技能相对平均,既不最强,也不最弱。
数据科学家和组织结构数据人才来自哪里?
70% 的受访者至少拥有硕士学位,而科学行业的(社会学或物理学,而非数学、计算机、统计、或工程学科)达40%。
科学行业的研究生以上教育,提供了对真实数据的动手实践,不仅仅描述现象,还要评价理论和辨析角度。物理学和天文学教授了严格的统计思维,而粒子加速器和太空望远镜系统则提供了大量的需要小心解决的数据流。硬科学背景为任何类型的数据科学家,尤其是data developer提供了良好的培训。
另一方面,有人认为,社会科学也培养了大量的数据科学家。心理学家,经济学家,政治学家,以及其他组织,他们在从业中需要解决的来自真实世界的混乱的,嘈杂的数据。这些行业的数据科学家可以更快清理和汇总数据,利用先进的统计技术来理解因果关系,并深入思考有关数据可视化,展示和信息表达的问题。我们在 data researcher 和 data creative中看到很多这样的受访者。
经典计算机科学(机器学习)和应用统计学位也是非常比较有效的数据科学家的起点。机器学习的要点是大规模数据解决和算法、结合软件开发技能,自然应用于真实世界组织数据。多个应用统计学科则将咨询能力、专业行业知识、以及关键方面比较有效的数据科学结合在一起。
还有不少学校也开始培养一点新兴的学位,如拆析、数据可续、商务智能硕士等。
大多数当前的数据科学家往往涉足过多家行业,在不禁意之间获得了广泛而深入的行业知识。
从理论到实践:实习和指导
帕蒂尔()建议 “招收那些刚刚走出大学校园的聪明而有创意的人才,再把他们投入非常严格的实习计划中去。” 对于拥有足够预算,以及高级人才辅导项目的大型组织,这样做可能效果不错,但对于小企业,它的实用性似乎不太好。
对于小组织来讲,有个可行的替代方法(datagotham 年)—— 聘请专业的顾问,帮助招聘、培训、再整合和指导新鲜出校的数据科学家。donorschoose 意识到,雇佣数据科学家收集数据,在完成其慈善使命中具有巨大价值,他们与专家团队一同从业达5个星期完成雇佣。雇佣之前,专家帮助这个非营利性组织了解到数据科学家的作用,随后帮助新员工培训和指导,并设置了启动项目的成功路径。数据科学家的广泛的能力将对小组织非常有用,但必需有像这样革新的做法以确保其比较有效性。
团队和组织架构
首先,我们的数据显示,数据科学家应该是t形人才,具有多样技能,需要在技能互补的团队中最比较有效率。(达文波特 ;帕蒂尔 )。而不明白这一些的组织往往期望聘请一个可以做到一切的“神”。
其次,组织需要树立自己的数据科学团队,以比较有效的开展从业。数据科学团队即需要直接访问原始数据,也需要与决定者信息表达。根据我们的拆析,他们具备需要多方面的技能才能完全利用数据。他们还需要得到流程管理的支持,采纳和采用其结果。当数据科学团队的产出被期望为具有完善的生命周期的软件系统时,那么这个团队中就必需拥有足够的资源去进行测试,部署和系统维护,这一些至关重要。虽然我们的受访者都或多或少有一点编程妙招,并能够承担这类任务,但期望大多数 data businesspeople 或 data researchers 能够高效完成这些,还是个不现实的期望。在大型组织里,在数据科学团队上的资金投入,与其他团队之间的管理关系协调,包括数据基础设施和it员工,确实能够实现价值。(达文波特,年)
职业快速发展
公司中的数据科学家的角色不是一成不变的,也需要职业快速发展的晋升机会。具有多年数据科学家经验的员工,非常有价值,也非常难于替代。将工程师提升为领导角色需要充分衡量利与弊,还要考虑资深员工不想从事管理岗位的各种变数。在我们的调查者中,62%的承担着管理责任;这个数据能够显示有多少数据科学家愿意管理团队,而不是一个视管理为烦恼。
在大型组织中,保存数据科学家的另一个兴趣的潜在做法是设立轮岗计划(达文波特,年)。在入职培训之后,数据科学家可以在内部团队有计划的转岗。产品部门可能需要个性化客户模式;市场部门需要在可控实验(controlled experiments)方面的帮助;财务部门需要预测;运营部门需要流程优化。通过直接加入不同部门,数据科学家能够了解关键业务的价值观和技能,专注于部门最需要帮助的问题,并以最小代价提供处理方案。而且,通过阶段性轮岗,数据科学家可以获得更宝贵的技能和宽阔的视野,不断提升其数据科学技能。
复制源: wechat公共平台数据观察
标题:“牛逼企业都在树立数据科学部门 其实都摸石头过河”
地址:http://www.china-huali.com/cjxw/46904.html