1.人工智能的起源和发展阶段
人工智能的定义
计算机的一个分支,它理解智能的本质,并产生一种全新的机器,以类似于人类智能的方式做出反应。研究和开发模拟和扩展人类智能的理论、方法、技术和应用系统的科学。代理的某个特征方面被精确地描述,以便机器可以模拟它。图灵测试(Turing test)是人类智能区分人工智能的一个实验,意思是评价者对着黑盒说话,没有接触。如果无法区分机器和人,说明这个人通过了图灵测试。
2.人工智能发展史
人工智能的理论基础得益于上个世纪逻辑学、计算机科学、信息论、控制论等学科的发展和融合。人工智能的理论基础是人的思维活动可以用机械的手段代替和完成。
主要贡献者,罗素,怀特海,希尔伯特,哥德尔,图灵等。
人工智能发展史(1956 -1974)
象征主义,基于逻辑推理的智能模拟方法模拟人的智能行为;专家系统包含大量的专家知识和经验,利用人类专家的知识和解决问题的方法来处理领域问题。
连接主义主张模仿人类神经元,用神经网络的连接机制实现人工智能,感知器的提出,早期的神经网络。
第一个寒冷的冬天(1974-1980)
局限性,人工智能使用的数据模型和手段有缺陷,被认为是玩具模型。
计算能力不足,在很多计算问题中,存在一个计算复杂度问题,使得计算任务复杂度呈指数级增长。
第二次浪潮(1980 ~2000年)
统计学派、统计专家取代了原来的专家系统。
机器学习,学习神经网络的逐步发展,用于模式识别;反向传播算法的出现加速了神经网络的发展。
第三次浪潮(2006年至今)
引入新的数学工具和力量,卷积神经网络和循环神经网络。
计算能力的提高,CPU的发展,GPU和TPU的出现。
大数据的广泛应用,使得大规模数据的收集、存储和分析成为可能。
人工智能的未来发展趋势
图像、视频和文本的生成和处理仍然是一个重要的发展方向。
5G技术的发展促进了物理计算、人工智能和物理计算的结合。
人工智能框架本身是基于人工智能方法论的。
3.人工智能的应用领域
目前主要有四个应用领域:图像处理、智能语音交互、自然语言处理和机器人技术。
图像识别和物体检测,
自动驾驶领域,人脸识别,安检等。
智能语音交互:
智能语音客服、现场字幕、机器翻译等。
自然语言处理、语义检索、信息分析等。
机器人,基于图像识别、物体检测、语音交互等。
4.人工智能,机器学习,深度学习
三者都有一个统一的目标,那就是赋予机器以人类的智能,让机器能够像人类一样思考和解决问题,做出决策。
机器学习实现人工智能的方式是用算法分析数据,从中学习数据的特征,做出归纳判断。
深度学习是机器学习的重要特征。利用非线性函数学习数据特征并做出判断,是图像、语音、文本等领域中机器练习的一个重要分支。
机器学习
机器学习的定义是通过计算手段,利用已有数据开发出能够预测新数据的模型,主要研究能够生成模型的算法。
基于学习策略的分类,根据经典学习策略是基于经典数学原理还是模拟人脑。
传统的机器学习是基于统计学、概率论、线性代数和数学原理,通过分析输入数据的模式来做出判断和预测。深度学习是机器学习的一个重要分支,它模拟人脑的感知和组织,构建人工神经网络,分析输入数据,并做出判断和
有监督学习,每组的输入数据都有明确的数据标识。学习过程就是比较学习预测结果,不断调整模型,直到预测结果达到一个预期的精度。应用场景、分类、回归等。无监督学习,输入数据不需要事先标记,没有目标变量,基于数据本身识别变量间的内在模式和特征。应用场景关联分析、聚类等。强化学习是一种试错式学习,是一种通过与环境的相互作用而获得的奖赏认知行为。目标是使代理人获得最大的报酬或达到特定的目标。输入数据,不需要事先给定任何数据,通过接受环境对动作的奖励来获取学习信息,输出模型参数,应用领域,机器人控制,计算机视觉,自然语言处理。传统机器学习与深度学习的比较
学习策略
传统的机器学习是基于统计学、概率论、线性代数等数学原理,通过分析输入数据的模式进行判断和预测。深度学习是机器学习的重要分支,它模拟人脑的感知和组织,通过构建人工神经网络,对输入数据进行分析,进行判断和预测。问题区域
传统机器学习,分类问题,邮件识别;回归,销售预测,股市预测等。聚类,用户画像;协同过滤等推荐系统。深度学习、图像识别、图像分类和检测等。语音交互
,语音交互、语音转换合成等。自然语言处理,机器翻译,语音识别等。算法对比传统机器学习分类:决策树、逻辑回归、随机森林等回归:线性回归,岭回归等。聚类:k-means,DBSCAN 等。形同过滤,Aprori、SVD 等。深度学习图像识别,卷积神经网络语音交互,循环神经网络、LSTM自然语言处理,循环神经网络、LSTM技术栈
传统机器学习分布式框架,Spark MLlib,MapReduce,Mahout单机开发框架,Sklearn支持语言,Python,C++,Scala硬件支持,CPU深度学习分布式开发框架,TensorFlow,PAI等单机开发框架,TensorFlow,PyThon,Keras,Caffe,PAI支持语言,Python,C++硬件支持,CPU、GPU、TPU执行时间
传统机器学习数据量:较小,MB、GB执行时间,分钟级别、小时级别深度习题GB、TB级别小时级别到天天级别5.深度学习的开发体系及工具
深度学习的理论支持
数学理论,微积分、线性代数、信息论、概率、图论
算法知识,机器学习,神经网络
开发技术,软件技术,硬件技术
深度学习的开发过程
总体流程
数据准备,数据集的准备,包含被标识和未被标识的数据。采集数据,准备用于学习训练的数据,包括训练集和测试集。对于监督学习还需要对数据进行标注。数据预处理,例如图片的灰度化,语音数据转换,数据整合等。特征工程,选择和提取合适的特征进行模型构建。将领域内的知识输入特征提取器,降低数据复杂度,使数据中的模式对学习锻打更加明显。使用算法或依据经验知识提取带分析数据主要特征。模型设计,依赖数据的收集和特征提取,根据一定的算法设计模型。判断待分析问题的所属类别,依据现有算法或自行构建算法模型,通过数据集上训练获得模型参数,评估函数好坏,即计算函数误差。数据预测,使用获得的模型进行预测。使用训练好的模型,对新输入新产生的数据进行预测。常用开发工具
TensorFlow,面向深度学习的开发框架,2015年11月由谷歌发布,可以很好的支持深度学习神经网络的各种算法,其应用也不局限于深度学习。前置知识需要Python开发,神经网络基础知识。Keras,高级神经网络API,用Python编写的一个高度模块化的神经网路库,能够以TensorFlow等作为后端运行,支持GPU和CPU,用户友好,高度模块化,可扩展性强,允许快速简单而快速的原型设计,支持快速实验。PyTorch,是在Python上的衍生,采用动态计算图,产生的tensor可以放在GPU中加速计算。Caffe,基于C++开发的深度学习框架,纯粹的C++/CUDA架构,支持命令行,Python和MATLAB接口,可以在CPU与GPU中无缝切换,速度快,模块化,前置知识,C++开发,神经网络基础,CUDA开发。阿里云人工智能开发工具PAI,为传统的机器学习和深度学习提供了数据处理,模型训练,服务部署到预测的一站式服务,组件云端交互式代码开发工具PAI-DSW,机器学习可视化开发工具PAI-Studio,模型在线部署服务PAI-EAS。阿里云的人工智能API服务,针对常见的人工智能应用场景提供API调用服务,人脸识别,自然语言处理,语音合成,图像识别等。用户直接对用API开发应用即可。6.自然语言处理
定义:自然语言处理是人工智能个语言领域的一个分支,研究如何处理及运用自然语言,让计算机利用信息的语义结构来理解人类语言的含义。
自然语言理解,理解给定的文本的含义,文本内每个单词的特性及结构可以被理解。
自然语言生成,从结构化数据中以可读的方式产生文本的过程,文本规划阶段,完成结构化数据中基础内容的规划,语句规划,从结构化数据中组合语句,表达信息流。实现,产生语法通顺的语句来表达文本。
基于神经网络的NLP的处理
语料的预处理分词次干提取磁性标注命名实体识别分块神经网络模型深层神经网络适用于词性标注,实体识别。循环神经网络,机器翻译,问答系统。递归神经网络,句子解析,情感分析。卷积神经网络,文本分类,语义提取。设计模型训练模型自然语言处理
目标,基于自然语言处理,对文本分词、停用词等处理,最后分析文本或文档的正负面评价。
机器翻译
目标,根据输入文本或文档,通过自然语言处理和神经网络将其翻译成目标语言的文本或文档。
知识图谱
更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索的质量。
知识抽取
基于自然语言处理非结构化的数据处理,实体命名识别,从文本中抽取实体,并对每个实体进行分类。关系抽取,把实体间的关系从文本中提取出来。实体统一,有些实体写法不一样,但是指向同一实体。
7.图像的智能处理
定义,计算机的分支领域,获取图像后,基于计算机技术处理,分析和理解图像,对图像中的客观对象构建明确而有意义的描述,基于图像做出对客观对象和场景有用的决策。
应用领域
图像分类,对图像中的主体对象进行判断,确定图像的类别。智能相册,图片分类,图片检索等。关键技术,卷积神经网络、对象检测,对图像中的多个对象进行识别,为其输出边界框和对象标签,同时确定其位置。应用场景,自动驾驶,车辆检测,运动目标检测,安防视屏等。关键技术,基于区域的卷积神经网络,扫描输入图像,通过寻找可能包含对象的区域,再在这些去运行卷积神经网络识别对象,基于SVM输出对象的边界框。目标追踪,在特定的场景,追踪某一个或者多个特定感兴趣对象的过程。应用场景,自动驾驶,视频分析等,关键技术,生成式方法,在当前帧对于目标区域进行建模,在下一帧寻找与模型最相似的区域,即预测位置,判别式方法,基于图像特征和机器学习,在当前帧成目标区域为正样本,背景区域为负样本,通过机器学习训练一个分类器,在下一帧中用喜爱美好的分类区寸照最优区域。语义分割,让计算机根据图像的语义,从像素的角度分割出图片中的不同对象,对图像中的每个元素进行标注,技术景,无人驾驶,医疗影像分析,机器人等。关键技术,全卷积神经网络技术。8.语音识别的基础
定义,以语音为研究对象,通过语音信号的处理和模式识别让机器自动识别和理解人类口述的语言。与声学、语言学、语音学、信息理论、模式识别、以及神经网络等科学有非常密切的关系。
基本原理,语音输入,语音信号的预处理,特征提取,识别模型匹配,识别结果。
构建方法,收集语音,语言数据库,信号的处理和知识挖掘,离线训练,生成声学模型和语言模型,在线识别。
语音识别系统
前端模块,端点的检测,降噪和特征的提取。
后端模块,利用声学和语言模型对用户说话的特征向量进行统计模式识别,得到其包含文字信息。
自适应反馈模块,对用户的语音进行自学习,对声学模型和语音模型进行必要的矫正,进一步提高识别的准确率。
对话系统
应用领域,搜索,连续语音识别中的搜素,寻找一个词模型序列以描述输入的语音信号,从而得到词解码系列,通常面向于一个狭窄的领域,词汇量有限的系统。
关键技术,采集声音波形,进行声音的分帧,波形的转换,举证变换。状态判断,判断词语出现的概率,完成语音的识别,基于神经网络的语音识别。
知识图谱
知识图谱是指语义网络库,既多关系图,包含多种类型的节点和多种类型的边,由goolegssi 2012年提出,把所有的不同种类的信息连接在一起得到一个关系网络图,从关系的角度去分析问题的能力。
图谱的构建过程,定义具体问题,数据的收集及预处理,知识图谱的设计,知识图谱的存储,基于知识图谱的开发及应用。
知识图谱的应用,语义搜索,更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。反欺诈的分别于识别,融合不同的数据源构成知识图谱,通过检测数据不一致性,绘制出知识图谱识别出潜在的欺诈风险。金融领域的情报分析等。