上药三品,神与气精

曾因酒醉鞭名马 生怕情多累美人


  • 首页

  • 关于

  • 分类

  • 标签

  • 归档

  • 搜索

how to be a data scientist 08

发表于 2018-08-16 | 分类于 data science | 阅读次数:
字数统计: 643 | 阅读时长 ≈ 2

一般经常使用的是hadoop 套件的备选工具 面向对象的编程语言 数据分析软件 虚拟化程序以及大数据集成系统

  1. MapReduce由Google创建,并且是Hadoop的主要组件。正如在之前的部分我们曾提到过的那样,这是任何大数据技术的核心。尽管这是Hadoop固有的特性,但它也可以在其他的大数据程序,例如MPP和NoSQL数据库(例如,MongoDB)。MapReduce最初是具有商业所有权的,但随着Yahoo在2006年提供了慷慨的资金支持,它以Hadoop的开源形式出现,并在两年内迅速受到广泛欢迎。作为一个著名的并行计算算法,它得以让数据库的查询建立在一个计算机集群上,任务可以分拆成小份,并跨越整个集群的节点。
  2. HDFS是Hadoop 分布式文件系统的简称,这是Hadoop系统所使用的文件系统。被Hadoop所处理的数据必须先导入到HDFS中,并备份在运行了Hadoop的计算机网络中。它的数据极限大约在30PB。
  3. Pig是针对Hadoop进行计算的一个高级编程语言(High-level programming language)。你可以将它视为Hadoop生态系统中各种操作的控制元件。它的性能是可扩展的。
  4. Hive是一个数据仓库程序,是以“类-SQL”语言进行访问使用的,他是为横跨Hadoop集群的数据设计的。并且它的性能是可扩展的。
  5. HBase、Sqoop以及Flume是Hadoop的数据库组件。HBase是一个可以运行在Hadoop环境上的列式数据库。它是基于Google的BigTable设计的,并且数据极限约为1PB。另外,它比直接在HDFS上访问数据要慢一些。这对于处理存在HBase里面的数据来说不是很好,对HBase对于归档和时间系列数据的计数很合适。Sqoop是一个将关系型数据库中的数据导入到HDFS中的程序。Flume与此类似,它关注于收集和导入各种数据源的日志和任务数据。
  6. Mahout是一个机器学习和数据挖掘算法的函数库,用于对存储在HDFS的数据进行处理。
  7. Zookeeper服务于Hadoop有一“群”各种各样功能的组件,所以调试管理以及协调程序是十分必要的。Zookeeper保证了整个套件的整合以及相对得简便操作。

选择合适的工具

分解问题

解决问题

how to be a data scientist 07

发表于 2018-08-16 | 分类于 data science | 阅读次数:
字数统计: 388 | 阅读时长 ≈ 1

社交圈 是职业的组成部分,使得他能够学习更多的技术、工具以及成为一个更优秀的数据科学家所应该知道的其他内容,通过同样的碰面,他可能会遇到一个导师,这就非常有价值,特别是在他职业生涯的早期

  1. 社交圈对成为数据科学家是至关重要的,特别是在职业生涯的早期阶段。
  2. 社交圈可以帮助你培养沟通技巧,并让你适应各种类型的人群,而这对于数据科学家来说十分重要。
  3. 在获取大数据科学领域以及其他相邻的领域中最近的革命性技术方面,社交圈可以是一个无价的资源。
  4. 数据科学家需要与学术界保持健康的关系,通过社交圈让自己跟进最新进展以及结识潜在的合作伙伴。
  5. 数据科学家需要立足现实,这可以通过社交圈去保持与商业世界的关系来达到。这可以帮助他更好地了解需要什么,并且除了带来工作机会之外,还可以让自己触及有趣的商业机会。

两种表示矩阵的方法

一种是matrix类 *默认的乘法是矩阵的乘法

另外一种是二维数组array *默认的乘法是hadamard乘法

大多数的情况下 我们使用第二种 也就是二维数组来表示矩阵

how to be a data scientist 06

发表于 2018-08-16 | 分类于 data science | 阅读次数:
字数统计: 286 | 阅读时长 ≈ 1

经验的取得

企业实战和学术研究的经验

UCI 机器学习知识库

kaggle

  1. 在Kaggle上参加一些数据科学竞赛,可以是以团队形式参加。
  2. 获得一个与之相关的实习职位。
  3. 如果你是一个硕士生,你的论文案例可以是一个有数据相关问题的公司。
  4. 在数据科学团体中做志愿者。
  5. 追随一位导师,例如在DataScienceCentral里的那种。

生产方面的项目经验:

如果有人不相信数学是简单的 那是因为他们还没有意识到人生有多复杂。

  • 标量scalar 其实就是数字

  • 矢量vector

  • 矩阵matrix 向量排列成为矩形矩阵

  • 单位矩阵 矩阵的对角线元素等于1

  • 对角矩阵 除去对角线元素外 其他元素都为0

  • 三角矩阵 对角线上方或者下方元素全部为0

矩阵的运算

  • 加减法
  • 乘法
  • 除法(逆矩阵)
  • 矩阵的转置

numpy上已经有了矩阵所有的矩阵运算 我们使用的时候 就是调用就可以了。

how to be a data scientist 05

发表于 2018-08-16 | 分类于 data science | 阅读次数:
字数统计: 247 | 阅读时长 ≈ 1

综合的编程能力

  • 辨别什么时候用什么工具
  • 微调你要使用的工具,订制成解决手中问题的利器
  • 如何去后续处理选择的工具所产生的结果
  • 思考解决问题的几个备选方案,并基于所能利用的资源对它们进行排序
  • 对数据分析工具足够的了解(例如,R、SPSS、SAS、Stata或Matlab)并掌握它们中的至少一个工具。
  • 大数据存储架构经验(例如,Hadoop、Hive等)
  • 其他可能是也可能不是有关数据科学工作的专业知识,例如视觉化、关系型数据库、用户建模、大数据集成处理系统。同时,还要有大数据领域的数据集的工作经验。
  • 数据科学领域进化的速度很快,所以你需要紧跟变化,特别是所用的工具,这样你就可以相应地调节自己的学习策略。

how to be a data scientist 04

发表于 2018-08-16 | 分类于 data science | 阅读次数:
字数统计: 194 | 阅读时长 ≈ 1

普通大众对数据科学家的概念认识往往十分肤浅,特征其实在于一系列独有的特点、气质、思维方式、抱负。

健康的好奇心必须伴随着自律,这样才能更脚踏实地。长期的兴趣比短暂、冲动或肤浅的好奇更加务实,会自然地被他所观察到的数据现象所吸引,并想要触及它们的全部。

  • 适应性(Adaptability)
  • 团队合作(teamwork)
  • 变通(Flexibility)
  • 研究(Research)
  • 关注细节(Attention to Detail)
  • 汇报(Reporting)

思维

综合式和跃进式

  • 掌握大数据的众多层面
  • 持续学习新知
  • 让自己熟悉大数据世界中的各种开放性问题与挑战,以及存在的各种机会
1…828384…109
John Cheung

John Cheung

improve your python skills

543 日志
33 分类
45 标签
RSS
GitHub Email
© 2020 John Cheung
本站访客数:
|
主题 — NexT.Pisces v5.1.4
博客全站共226.3k字