how to be a data scientist 02

数据科学这一术语的流行要早于大数据的出现,1962年 当john W. Tukey 写了《数据分析的未来》,他遇见了数据分析的新方法的崛起相比于方法论来说更像是一门科学。

2009年 朱扬勇与熊赟 两位重点实验室的研究员在数据学导论中提到 数据科学是一门新的科学,明显地不同于自然科学与社会科学。09年一月 Hal Varian(谷歌首席经济学家)提出,在接下来的十年,统计学家(当别人并不熟悉数据学时,也会被用来指数据科学家)将会是一个迷人的职业。09年六月, Nathan yau的文章《数据科学家的崛起》被刊载于 flowing data,数据科学家开始被大众所知。

大规模数据程序语言 比如 r pig ecl 的开发就是为了解决大数据问题,同时它们与hadoop 环境可以很好地融合。

新的替代性数据库结构包括 哈希表(jboss 数据网格、riak) B-树(mongodb、couchdb) 日志结构的合并树(Hbase cassandra)

在数据库内读写数据的方式是比较灵活弹性的,每一种类型都有它们适于 不适于的范畴。

举例来说,如果你有一个由上百万行列记录的大型数据库(如大型的数据仓库),要在这样的数据库中找到某一列中的最大值可能会超过很多人愿意等待的时间。同样的查询在列式数据库中(如HBase)用不了1秒。

聪明的工具、方法论和运用方法,查阅现有文档,并与熟悉亟待解决问题的不同领域的人士建立联系,把问题分解成可以被处理的小问题来逐渐解决。