信息时代数据量很大。数据包含文字图片声音。数据需要处理。处理数据需要方法。传统方法不够用。机器学习方法出现了。机器学习让计算机自己学习。计算机从数据里找规律。计算机找到规律后能做决定。
机器学习分很多种。有监督学习很常用。有监督学习需要训练数据。训练数据有输入有输出。计算机学习输入输出的关系。学习完成后计算机能预测新数据的输出。比如识别猫的图片。输入是图片像素。输出是猫或不是猫。计算机看很多猫的图片。计算机记住猫的特征。以后看到新图片计算机能判断是不是猫。
无监督学习不一样。无监督学习没有输出数据。计算机自己找输入数据的结构。计算机把相似数据放在一起。这叫聚类。比如有一堆新闻文章。计算机按主题把文章分组。每组文章讲类似的事情。人不用告诉计算机主题是什么。计算机自己发现主题。
强化学习也不同。强化学习像训练宠物。计算机做动作。环境给反馈。好动作给奖励。坏动作给惩罚。计算机学习多做好动作。比如下棋程序。走一步棋是动作。赢了得奖励。输了得惩罚。计算机学习赢棋的走法。
机器学习需要算法。算法是计算步骤。线性回归是一种算法。它找输入输出的直线关系。比如房子面积和价格的关系。面积大价格高。直线描述这个关系。新房子知道面积就能估价格。
决策树是另一种算法。决策树像问问题。比如判断明天是否下雨。先问今天湿度高吗。湿度高可能下雨。湿度低可能不下雨。再问今天阴天吗。阴天可能下雨。晴天可能不下雨。一问一答形成树。新数据从树根走到树叶得到答案。
神经网络受人脑启发。神经网络有很多层。每层有很多节点。节点像脑细胞。节点之间连在一起。数据从输入层进入。经过隐藏层处理。从输出层出来。每层节点提取数据特征。底层提取简单特征。比如图片的边角。高层组合简单特征成复杂特征。比如眼睛鼻子脸。神经网络能学很复杂的关系。
支持向量机也常用。支持向量机找分界线。分界线分开不同类数据。比如纸上画点。有些红点有些蓝点。支持向量机画一条线。线分开红点和蓝点。新点落在哪边就属哪类。线要离两边点都远。这样分得最清楚。
机器学习需要评估。评估看模型好不好。训练数据训练模型。测试数据测试模型。测试数据没参加过训练。模型预测测试数据输出。预测对的比例叫准确率。准确率高模型好。准确率低模型差。
过拟合是个问题。模型在训练数据上很好。在测试数据上不好。模型太复杂了。模型记住了训练数据的噪声。模型没学会通用规律。就像学生死记硬背考题。考试题目一变就不会了。
欠拟合也是问题。模型在训练数据上就不好。模型太简单了。模型没抓住数据规律。就像学生没学明白。考试当然考不好。
解决办法有。解决过拟合可以简化模型。可以减少特征。可以加更多训练数据。解决欠拟合可以复杂化模型。可以增加特征。可以换更强大的算法。
机器学习应用广泛。谷歌百度用机器学习搜索。淘宝京东用机器学习推荐商品。微软苹果用机器学习识别语音。特斯拉用机器学习自动驾驶。医院用机器学习诊断疾病。银行用机器学习检测诈骗。机器学习的用处越来越多。
机器学习有挑战。数据质量很重要。垃圾进垃圾出。数据不干净结果不可靠。数据不够结果也不好。特征工程很重要。人选什么特征影响模型性能。人选特征靠经验靠尝试。
模型解释不容易。神经网络像黑箱子。输入进去输出出来。中间过程难理解。医生用机器学习诊断。想知道为什么是这个病。模型说不清楚。人不敢完全相信。
未来机器学习会更简单。自动机器学习技术出现了。计算机自己选算法自己调参数。人只需要提供数据。计算机完成剩下的事。机器学习会进入更多领域。更多普通人会使用机器学习。机器学习会成为常用工具。像电脑手机一样普通。