上药三品,神与气精

曾因酒醉鞭名马 生怕情多累美人


  • 首页

  • 关于

  • 分类

  • 标签

  • 归档

  • 搜索

how to be a data scientist 03

发表于 2018-08-16 | 分类于 data science | 阅读次数:
字数统计: 429 | 阅读时长 ≈ 1

世界上没有两片相同的雪花,世界上也没有两个数据科学家拥有相同的技能和工作。大数据的工作包含许多问题,这也创造出许多天生就不一样的数据科学家分工。

  • 数据开发者
  • 数据研究者
  • 数据创意师
  • 数据商务人士
  • 混合/普适类型
  • 数据开发者是编程专家,但他们可能缺少数据科学家的其他几部分的技能,通常来自于IT行业。
  • 数据研究者是数据分析的专家,同时他们也能处理机器学习以及其他领域的最新技术。他们通常拥有博士学位,而且正在或曾经从事着学术研究。
  • 数据创意师相比于前两个类型的数据科学家显得更为全面,偏爱于使用开源软件,而且多才多艺。他们来自于各行各业,尽管通常来说,他们已经是数据科学家了。
  • 数据商务人士(即高级数据科学家)是数据科学家的最高等级,同时常常担任管理角色,相较于数据科学本身,他们更多地接近于商务世界。通常他们具有包括管理学学位在内的多重背景。
  • 混合/普适类型的数据科学家是最为平衡的,同时或多或少地培养了数据科学所需的各个方面。他们多面发展,具有各个类型的背景,但在经验的广度上,都亚于数据商务人士。通常,混合/普适的数据科学家会晋升为数据商务人士。

how to be a data scientist 02

发表于 2018-08-15 | 分类于 data science | 阅读次数:
字数统计: 474 | 阅读时长 ≈ 1

数据科学这一术语的流行要早于大数据的出现,1962年 当john W. Tukey 写了《数据分析的未来》,他遇见了数据分析的新方法的崛起相比于方法论来说更像是一门科学。

2009年 朱扬勇与熊赟 两位重点实验室的研究员在数据学导论中提到 数据科学是一门新的科学,明显地不同于自然科学与社会科学。09年一月 Hal Varian(谷歌首席经济学家)提出,在接下来的十年,统计学家(当别人并不熟悉数据学时,也会被用来指数据科学家)将会是一个迷人的职业。09年六月, Nathan yau的文章《数据科学家的崛起》被刊载于 flowing data,数据科学家开始被大众所知。

大规模数据程序语言 比如 r pig ecl 的开发就是为了解决大数据问题,同时它们与hadoop 环境可以很好地融合。

新的替代性数据库结构包括 哈希表(jboss 数据网格、riak) B-树(mongodb、couchdb) 日志结构的合并树(Hbase cassandra)

在数据库内读写数据的方式是比较灵活弹性的,每一种类型都有它们适于 不适于的范畴。

举例来说,如果你有一个由上百万行列记录的大型数据库(如大型的数据仓库),要在这样的数据库中找到某一列中的最大值可能会超过很多人愿意等待的时间。同样的查询在列式数据库中(如HBase)用不了1秒。

聪明的工具、方法论和运用方法,查阅现有文档,并与熟悉亟待解决问题的不同领域的人士建立联系,把问题分解成可以被处理的小问题来逐渐解决。

how to be a data scientist 01

发表于 2018-08-15 | 分类于 data science | 阅读次数:
字数统计: 953 | 阅读时长 ≈ 3

如何成为一名数据科学家

我们今天面临着诸多来自大数据和其他数据分析带来的困难,而数据科学正是对这些挑战的回应。

大数据是当今商业的基础资产,大数据与大数据相关的技术能够得到这么广泛地利用绝对不是巧合,现今诸多行业要么正在使用大数据,要么准备去使用大数据,尽管炒作得非常厉害,但是并不是昙花一现。对这些资源善加利用会带来诸多优势,而目前这种资源的日益丰富也是值得关注的信号,不仅要用,而且要快!在某些行业里,大数据目前还不能带来价值,因为这些行业的数据目前还是非常混乱的,属于“脏”数据。如何将这些数据进行清洗,并善加利用,这就是数据治理存在的意义。

大数据具有四个特性:

  • 体量

  • 高速

  • 多样
  • 准确

数据量非常大 并伴随着更快的增长趋势,

由于访问者来来去去以及不断有新的访问者加入,数据会持续流动

数据肯定是多种多样的

很自然,数据并不都是值得信任的

很自然地,并不是所有的行业都会被大数据运动施以相同的影响。基于这些公司在多大程度上依赖他们的数据以及数据会给予他们多大程度上的回报,他们可能视大数据为一座金矿,或者一项可有可无的投资。根据最近的统计,下面一些行业已经从中受益,或资产中的大部分即将受益于大数据:

  1. 零售业(特别是在提高生产力方面)
  2. 电信业(特别是在提高收益方面)
  3. 咨询业
  4. 医疗护理
  5. 航空运输
  6. 建筑业
  7. 食品加工
  8. 钢铁以及广义上的制造业
  9. 工业设备
  10. 汽车产业
  11. 客户关怀
  12. 金融服务
  13. 出版业
  14. 物流行业

因此需要的是把表面上看起来混乱的数据变成有效的(可操作的)数据科学家

数据科学家

第一次在正式会议中吸引关注是1996年在IFCS发表的《数据科学、分类以及相关方法》(Data Science,Classification and Related Methods)。直到2005年,“数据科学家”这个名称才第一次出现在文章中。特别是,在文章发表的那年,数据科学家被定义为“信息和数据科学家、数据库及软件工程师以及程序员、学科专家、博物馆馆长和专业注解者、图书馆管理员、档案管理员以及其他一些对成功管理数字化数据集的关键人物”。在2009年6月,数据科学家这一职务的重要性变得更加明显,正如Nathan Yau在FlowingData发表的文章《数据科学家的崛起》(Rise of the Data Scientist)一文中说的那样。自此,在数据科学方面的文章和引用得以快速增长。看看现在有多少会议是以这个名义组织的,这不只发生在学术界,同样也发生在工业界。不仅如此,由于许多在各自领域处于领导者的大公司(如亚马逊)都在各自的工作流程中使用了数据科学,这个趋势很可能会持续下去。同样,由于数据科学家这个职位适合于千变万化的数据世界需求,它也正变得包含许多新特征(如前沿数据分析技术的应用),而不再是一些原始需求了。

tensorflow-new

发表于 2018-08-15 | 阅读次数:
字数统计: 234 | 阅读时长 ≈ 1

如果你在研究深度学习或者是你的dataset非常庞大,那么tensorflow应该成为你最佳的机器模型选择。

目前已经广泛被用于发现新的行星、帮助医生筛查糖尿病患者等。开源、out of the box(开箱即用)

新工具 tf eager execution 可以像纯粹的python编程一样愉快地与代码进行交互,代码可以即时执行和逐行调试

keras + tf 更简单的神经网络

不仅仅是python 目前已经支持r swift js…

  • 在浏览器中完成一切 实时人体姿态估计 [地址] (https://storage.googleaois.com/tfjs-models/demos/posenet/camera.html)

  • lite for 小型设备

  • 专业的硬件 cloud tpu

  • tf.data 为你提供了快速灵活易于使用的处理流水线

  • tf hub 调用他人的代码为自己所用 可重用的预训练机器学习模型组件的存储库

why-sanic

发表于 2018-08-14 | 阅读次数:
字数统计: 140 | 阅读时长 ≈ 1
  • 使用sanic异步框架,简单,轻量,高效。
  • 使用uvloop为核心引擎,使sanic在很多情况下单机并发甚至不亚于Golang。
  • 使用asyncpg为数据库驱动,进行数据库连接,执行sql语句执行。
  • 使用aiohttp为Client,对其他微服务进行访问。
  • 使用peewee为ORM,但是只是用来做模型设计和migration。
  • 使用opentracing为分布式追踪系统。
  • 使用unittest做单元测试,并且使用mock来避免访问其他微服务。
  • 使用swagger做API标准,能自动生成API文档。
1…838485…109
John Cheung

John Cheung

improve your python skills

543 日志
33 分类
45 标签
RSS
GitHub Email
© 2020 John Cheung
本站访客数:
|
主题 — NexT.Pisces v5.1.4
博客全站共226.3k字