how to be a data scientist 01

如何成为一名数据科学家

我们今天面临着诸多来自大数据和其他数据分析带来的困难,而数据科学正是对这些挑战的回应。

大数据是当今商业的基础资产,大数据与大数据相关的技术能够得到这么广泛地利用绝对不是巧合,现今诸多行业要么正在使用大数据,要么准备去使用大数据,尽管炒作得非常厉害,但是并不是昙花一现。对这些资源善加利用会带来诸多优势,而目前这种资源的日益丰富也是值得关注的信号,不仅要用,而且要快!在某些行业里,大数据目前还不能带来价值,因为这些行业的数据目前还是非常混乱的,属于“脏”数据。如何将这些数据进行清洗,并善加利用,这就是数据治理存在的意义。

大数据具有四个特性:

  • 体量

  • 高速

  • 多样
  • 准确

数据量非常大 并伴随着更快的增长趋势,

由于访问者来来去去以及不断有新的访问者加入,数据会持续流动

数据肯定是多种多样的

很自然,数据并不都是值得信任的

很自然地,并不是所有的行业都会被大数据运动施以相同的影响。基于这些公司在多大程度上依赖他们的数据以及数据会给予他们多大程度上的回报,他们可能视大数据为一座金矿,或者一项可有可无的投资。根据最近的统计,下面一些行业已经从中受益,或资产中的大部分即将受益于大数据:

  1. 零售业(特别是在提高生产力方面)
  2. 电信业(特别是在提高收益方面)
  3. 咨询业
  4. 医疗护理
  5. 航空运输
  6. 建筑业
  7. 食品加工
  8. 钢铁以及广义上的制造业
  9. 工业设备
  10. 汽车产业
  11. 客户关怀
  12. 金融服务
  13. 出版业
  14. 物流行业

因此需要的是把表面上看起来混乱的数据变成有效的(可操作的)数据科学家

数据科学家

第一次在正式会议中吸引关注是1996年在IFCS发表的《数据科学、分类以及相关方法》(Data Science,Classification and Related Methods)。直到2005年,“数据科学家”这个名称才第一次出现在文章中。特别是,在文章发表的那年,数据科学家被定义为“信息和数据科学家、数据库及软件工程师以及程序员、学科专家、博物馆馆长和专业注解者、图书馆管理员、档案管理员以及其他一些对成功管理数字化数据集的关键人物”。在2009年6月,数据科学家这一职务的重要性变得更加明显,正如Nathan Yau在FlowingData发表的文章《数据科学家的崛起》(Rise of the Data Scientist)一文中说的那样。自此,在数据科学方面的文章和引用得以快速增长。看看现在有多少会议是以这个名义组织的,这不只发生在学术界,同样也发生在工业界。不仅如此,由于许多在各自领域处于领导者的大公司(如亚马逊)都在各自的工作流程中使用了数据科学,这个趋势很可能会持续下去。同样,由于数据科学家这个职位适合于千变万化的数据世界需求,它也正变得包含许多新特征(如前沿数据分析技术的应用),而不再是一些原始需求了。