人工智能与数据挖掘
人工智能与数据挖掘
作为一个IT人,区分理解人工智能、机器学习、表示学习、深度学习、数据挖掘等是很有必要的~~~
1、人工智能是机器或软件展示出的智能,也是研究如何让计算机或计算机软件有智能行为的一个学术领域,主要研究的是如何模拟和扩展人类的 智能。人工智能所涉及的范围甚广,例如自然语言处理、图像识别、语音识别等。
人工智能分类:强人工智能和弱人工智能。前者是通过计算机来构造复杂的、拥有与人类智慧同样本质特性的机器,它有着我们所有的感知(甚至比人更多),我们所有的理性,可以像我们一样思考,也就是电影里面的机器人;后者是指擅长于单个方面的人工智能,例如垃圾邮件的自动识别,iPhone的助手siri,Pinterest上的图像分类,Facebook的人脸识别。
2、机器学习是研究如何让计算机在不被明确地编程的情况下具有学习能力,其实是人工智能发展到一定阶段的产物,也可以说是一种实现人工智能的方法。机器学习最基本的做法,是使用算法来解析数据、从中学习,然后对真实世界中的事件做出决策和预测。与传统的为解决特定任务、硬编码的软件程序不同,机器学习是用大量的数据来“训练”,通过各种算法从数据中学习如何完成任务。
目前机器学习研究的主要问题:回归、分类和聚类
机器学习主要的学习方式:监督学习、非监督学习、半监督学习和强化学习
机器学习的应用:数据挖掘、计算机视觉、自然语言处理、生物特征识别、语音、手写识别等
3、表示学习又称特征学习,指的是一套学习特征的学习,即将原始数据转化为一个可被机器学习任务高校利用的表示。
4、深度学习其实是机器学习领域中一个很小的方向,是机器学习的一个分支,是一种实现机器学习的优秀技术,是基于一个尝试使用多复杂结构处理层或多非线性变化来模型化高层次抽象的算法集,在多个层次上进行学习,对应不同层次的抽象。
深度学习的重要工具:感知机和神经网络(深度学习本身是神经网络算法的衍生)
蒙特利尔大学深度学习大神Yoshua Bengio在Deep learning一书中对这些概念做出了如下关系:
文献:龙飞、王永兴.深度学习:入门与实践[M].北京:清华大学出版社,2017:2-5
注:第一次用迅捷流程图软件作图,感觉不错的哟~
5、数据挖掘是对存储于数据库中的大量数据,通过查询和抽取方式(整理分析、归纳整合)获得以前未知的有用信息、模式和规则的过程,即是一个利用各种方法,从海量数据中提取隐含和潜在的,对决策有用的信息和知识的过程。
数据挖掘涉及面:商业智能、数据分析、市场营销等
数据挖掘技术的三大支柱:统计学、数据库和人工智能
数据挖掘的开发流程如下:
数据挖掘可以完成数据总结、分类、关联、聚类等任何工作,主要有以下特点:
第一,数据挖掘是一个过程,而非一个单纯的数据建模。
第二,数据挖掘方法是各种分析方法的集合。
第三,数据挖掘具有分析海量数据的能力。
第四,数据挖掘的最终目的是辅助决策。
数据挖掘和机器学习的联系:数据挖掘的工作一般都要通过机器学习提供的算法工具来实现,机器学习是完成数据挖掘工作的方法。
下面对数据挖掘作详尽的分析:
5.1 数据挖掘中的数据预处理
原始数据一般具有杂乱性、重复性、失真性和不完整性,然而高质量的数据是进行有效挖掘的起点和前提,挖掘的效果直接受到源数据质量的影响,因此,数据预处理是进行数据挖掘前期不可忽视,较为重要的一个环节。数据预处理技术包括数据整理、数据集成、数据变换、数据清洗、数据规约、数据离散化、数据简化等。
这里特别说一下专业术语“数据噪声”,其指的是错误值、离群值或孤立点。
噪声数据的平滑方法:分箱、聚类、回归(通过拟合线预测其他值)、计算机检查和人工检查结合
5.2 数据挖掘技术是大数据分析的核心
现代社会是一个信息社会,计算机技术迅速发展,数据急剧增长,我们存储的信息数据越来越多,也越来越乱。在如此大数据的压力和挑战下,如何从海量数据中发现有价值的知识模式,发现数据背后隐藏的有用信息,进一步指导我们的行业行为是我们面临的一个重要问题。基于以上问题,数据挖掘技术给予了很好的回答。数据挖掘能通过对数据的整理分析、归纳整合,挖掘并找出数据之间的潜在联系,进行高层次的分析,最后作出理想的决策或预测未来的发展趋势。一方面,大容量的数据分析需要数据挖掘技术来支撑;另一方面,大数据又为数据挖掘提出新的挑战,彰显数据挖掘强大的生命力。
5.3 数据挖掘技术的发展
随着数据挖掘技术研究的深入,你会发现还有一些难关需要攻克,具体看图(百度脑图制作):
5.4 数据挖掘常用技术
数据挖掘是机器学习发展而来的,因而机器学习、模式识别、人工智能领域的常规技术经过改进,大多数可以应用于数据挖掘。
5.5 数据挖掘常用的知识表示模式与方法
不同的数据挖掘系统一般采用不同的知识表示模式与方法