1.数据整合困难
半导体制造涉及的工序和设备非常多,各种英文名字的系统很多到现在都还没有完全搞清楚,数据也分散在各个系统中,有结构化的,也有非结构化的(各种wafer map),很多数据存在于设备的日志中,基本没有被使用过。即使要使用这些数据,也面临一些困难,比如有些设备数据我们没有权限访问,需要跟Vendor申请,有些数据Vendor做过加密,需要解密(如PDF的FDC raw trace数据,与厂商沟通很久,才能得到你想要的),有些设备数据服务器挂掉了,都没人知道,甚至找不到服务器维护人员(如Tel公司的WIS数据,应该很有价值,但是数据服务器直接挂掉好久了)。另外,这些数据一般缺少元数据,没有数据字典这种东西,你拿到这些数据,也要花费很长时间去理解数据,更不用说将所有这些系统的数据整合打通了。还好目前已经整清楚一部分数据了,包括传统的YMS数据(WAT,CP,Metrology,WIP)和tool数据(iEMS,FDC),后续有机会把半导体行业数据一点一点理清楚,设计一套公共数据模型(类似互联网数据中台),可以满足各种数据应用
2.组织架构不够完善
随着大数据兴起,公司高层还是非常重视大数据的,但在组织架构上并没有提升到很高的位置,毕竟对于半导体制造,大数据仍然属于边缘的Support部门。在IT部门下面有传统的EA(Engineering Analysis)部门,很多资源在做数据接口、数据解析、报表等工作,在YE,YAE等偏业务部门也有数据分析团队,他们更接近Fab的用户,有实际的use case,能积累一定的行业经验。现在公司又冒出了大数据团队,既有IT的EA下面一个小团队(主要是搞个大数据平台hadoop,在上面做一些数据分析和应用),也有YE下面的一个小团队(面向业务需求,提供大数据应用),这几波人经常没有形成合力,事情推动起来比较困难,IT里面搞大数据的,接触用户的机会比较少,经常会搞一些研究型的项目(如做各种correlation),并没有跟实际业务问题对接起来。业务部门的大数据团队面临数据整合的困难,面临巧妇难为无米之炊的困境,在数据没有整合好之前,很难做出大的成果,IT在数据方面是有优势的,它负责各种数据库系统,对数据更清楚一些。这几个团队如果能够整合成一个大数据部门,并在组织架构上上升一层,价值会体现的更加明显。另外,团队内部角色定位和分工也不是很清晰,按照EA1,EA2这种划分有意义吗?团队内部也没有形成很好的工作流程,各个小组工作互不相干,在一个部门内部甚至很少会有接触到。智能制造不仅体现在IT自动化和信息化水平上,未来更多要体现在数据应用上,要让数据提供智能决策和生产。
3、依赖外部大数据供应商
IT部门比较忙的事情,就是跟各种大数据分析厂商搞POC,采购各种分析工具,大数据分析技能没有提升多少,各种厂商的工具倒接触了不少(PDF的extensio,bistel eDatalyzer,nanometrics,spotfire),主要是部门没有资源做自主分析,很多大数据人才不会选择制造业,还有部门领导也不相信自己的团队能做出来,借着POC名义让大家学习人家是怎么做的。目前大数据分析厂商大多数是国外的,主要是国外半导体行业发展好,有大量的应用机会,这其实是国内大数据的一个机会,制造业的问题相对比较通用一些,是比较容易做出解决方案和软件工具的,随着国内半导体行业的发展,是有制造业大数据创业机会的。
4、传统方法使用大数据
半导体制造分析使用传统统计分析方法较多(DOE,ANOVA,boxplot,假设检验),这跟行业特点是有关系的,不像互联网更关注相关关系,制造业更关注因果关系,发现了问题,要找到问题的根本原因,才能解决问题,所以DOE的思想是比较好理解的。但是这些方法的缺陷也比较明显,半导体制程太复杂,影响因素太多,每个因素都做DOE,是非常低效的,这时候机器学习、深度学习的方法是可以大大提高解决问题效率的,用户对这块的接受度还是比较低的,他们对可解释性要求较高,其实机器学习有些基于规则的模型还是比较有价值的,要让用户接受这些将会是一个漫长的过程,要逐渐改变用户的观念。另外,在与用户沟通时,要主动引导用户,不要问用户需要什么(用户想要的就是各种correlation,boxplot,regression),要搞清楚用户面临的痛点,我们提供更好的解决方案帮他们解决就好了,而不是为用户提供他们所要的那些功能。