Kaggle2018社区调研出炉:女性从业者比例降低,00后登上历史舞台!
时间:2019-03-02 06:52:29 来源: 杏耀 作者:匿名


无论是初学者还是大魔鬼,只要它渗透到数据科学和机器学习的世界中,对于Kaggle来说并不陌生。这个平台上的所有英雄都在这个平台上练习,崇拜众神,升级怪物,并使用媒体人的句子。 “简而言之,Kaggle是一名开发数据和机器学习的开发人员,展示了他的技能和名字。河流和湖泊。“

Kaggle专注于竞争平台和社区运营,专注于竞争平台和社区运营,并已成为Google收购的另一家行业公司:一个庞大的活跃用户群(具体数据从500,000到100万还有待确认),强大粘度。

每年,基于其庞大的数据科学用户,Kaggle社区开展调查以了解社区发展,并对数据科学和机器学习开发产生良好反馈。上个月,2018年Kaggle调查《2018 Kaggle机器学习和数据科学调研》成功完成并发布,以了解今年机器学习和数据科学发生了哪些新的变化。

数据源显示在右侧

该调查涉及用户信息,工作习惯,数据使用行为,数据分析工具和数据偏心算法等各方面的50个问题。共收集了23,859份有效问卷。

除了调查问卷本身,结合其他相关信息和可视化,我们可以得到一些有趣的故事。

是的,女性从业者仍在减少!

在上图中,我们使用超级英雄主题风格设计数据可视化,#batman(男性)和#wonderwoman(女性)

在这方面,男女问题一直存在而且没有改善。

根据Kaggle 2015年的调查,女性仅占数据科学工作的26%,而在2018年的调查中,女性仅占16.8%。与三年前相比,女性从业者的比例有所下降。

虽然调查结果与数据科学从业者的真实性别构成之间仍存在一些偏差,但这一结果在一定程度上反映了技术领域中女性角色的缺失。这显然不是一件好事。 “福布斯”杂志甚至认为,女性比例的不平衡导致女性的观点不足,导致一些“盲点”,这是极端事件的重要原因,如2018年的大规模罢工.00年后,90年后来,数据科学家占据了主力军上图显示了Kaggle用户的年龄分布。将条形图分解并重塑为可用知识的一种方法是减少其数量并以熟悉的形式对其进行分组。

数据从业者的年龄通常很小。根据调查数据,调查问卷的比例最高的是25-29岁的年龄组; 18-21岁的从业者也开始占据重要的比例。也就是说,至少在数据科学界,它只在00岁之后上台。

例如,今年9月,17岁的英国高中生Mikel Bober-Irizar成为Kaggle历史上最年轻的大师,并透露他的知识来自于自学。

是的,数据科学家非常富有!

问卷调查问题:您的年收入是多少?

将2018年调查结果与全球收入水平进行比较,可以发现23%的受访者跻身全球财富榜的前1%!

事实上,在美国,只有1%的精英级别,而年收入超过42万美元。大约23%的受访者认为他们达到了这个水平。

此外,约有6%的人在全球财富排名中排名前10%,而在美国,10%的人获得约166,000美元。

但是,这些数字反映了美国家庭收入水平。在全球范围内,年收入的前1%约为32,000。 60%的受访者跻身前1%。 60%与1%非常不同,因此全球范围内,这些数据不足以支持包容性断言,因为它不反映全球分布。

Kaggle Championships最常见的机器学习框架

根据调查结果,Kaggle用户使用的最长机器学习框架是Sci-Kit,占48%,TensorFlow占16%,Keras占14%。对于数据分析,大多数从业者建议您开始学习Python,这比第二和第三级中的R和SQL比率要高得多。

金砖国家正在成为新社区力量的发源地

新兴数据科学家来自哪里? 1145名新受访者被确定为“数据减少”,2018年,调查问卷被添加到来自美国,印度,中国,俄罗斯和巴西的100多个国家。按经济水平(美国,欧洲,金砖四国和世界其他国家)划分这些国家更有意义。从上图可以看出,金砖四国不仅贡献最大,而且在2018年以42%的增长率增长,并且是三大经济体中增长最快的经济体之一。 2018年,在“将用户定义为数据科学家”类别中,欧洲增加了302个用户,其中131个在美国,231个在世界其他地区,481个在金砖四国。关于增长率,根据预测,到2020年,金砖国家将超过欧洲和美国的总和。新加坡Kaggle用户占比最多,美国被挤出TOP5

查看每个国家/地区的用户数量似乎并未表明该国数据科学家的受欢迎程度。

当我们将该国的调查问卷与该国的人口进行比较时,我们可以看到更有意义的排名:数据科学家的普及。

该调查的标志是红顶国家,新加坡和以色列占据冠军,美国(最大的调查社区)是黑人,仅排名第六。

US表示每10,000个: 0.14

EU6表示每10,000 *: 0.09

金砖国家意味着*: 0.03(比美国少5倍)

从图中可以看出,美国和欧洲之间的差距约为50%。然而,英国意味着接近六个欧盟国家的平均水平,而不是美国的平均水平。这是否意味着我们放弃语言障碍作为解释差距的一个因素?注意:金砖四国和欧盟6国的平均值是全国平均值,受访者没有加权。

此外,在本节的视觉部分,您可以谈论美学思维:这种配色方案称为灰色红色,这是一个非常好的图表配色方案。与灰色等其他程序不同,它是中性的。但是,为了使其看起来更好,红色表面尽可能小,否则会产生视觉效果。灰灰色方案没有这个限制。然而,灰红色具有秘密优势。通常,在图表中使用三种颜色可能会造成混淆,但由于红色和任何灰色阴影之间的色度距离很大,我们可以通过使用黑色(85%灰色)作为第三种颜色来避免它。混乱的困惑。创新水平(约80%的相关性)每年,欧洲商学院,康奈尔大学和Wipo都会发布年度全球创新指数。 2018年,当选最具创新性的国家是瑞士。根据Spearman相关系数的计算,指数与用户患病率之间的相关性达到79%。

均值回归预测

上图添加了回归线。灰色部分代表SE水平的95%。不同的国家分布在线的上方和下方。以红色为标志的国家是日本,具有高水平的创新(y),但经济发展水平相对较低(x)。在这里,我们应用均值回归的标准来看看是否有一只看不见的手推动这些国家更接近均值(图中的虚线)。视觉支持

上图显示了最常见的可视化工具。这是着名的图表模板Marimekko和符号地图Shiva House的组合。符号意义:支持社区可视化工作(屋顶负载)的力量的支柱。 “列”的宽度表示每列支持多少工作/负载。右边的灰色列代表其他不太受欢迎的库,如D3,Shiny,Bokeh,Leaflet和Lattice。

最后,感兴趣的读者可以发布链接以获得完整的Kaggle 2018调查结果和相关数据。

本文首次发布在微信公众账号:大数据摘要中。本文内容属于作者个人观点,不代表和讯网的立场。投资者应承担采取适当行动的风险。

(编辑:何义华HN110)