信息时代数据量很大。数据里面有很多有用的东西。人们想知道这些有用的东西。数据分析可以帮助人们。数据分析是一个工具。这个工具可以找到数据里面的规律。这些规律可以帮助做决定。企业喜欢数据分析。企业想赚更多钱。数据分析告诉企业怎么赚钱。企业知道客户喜欢什么。企业知道怎么卖东西更好。
数据分析有很多方法。统计方法很重要。统计方法可以处理数字。数字告诉我们事情的情况。平均数是一个例子。平均数告诉我们一般的情况。另一个方法是分类。分类把东西分成不同的组。同一组的东西很像。不同组的东西不像。人们喜欢分类。分类让事情变得简单。回归分析也是一个方法。回归分析看两个东西的关系。一个东西变化另一个东西也变化。人们想知道变化有多大。
数据挖掘是数据分析的一部分。数据挖掘找数据里面的秘密。这些秘密人们不知道。数据挖掘使用计算机。计算机算得很快。计算机可以看很多数据。人看不完这么多数据。数据挖掘找到的模式很复杂。人找不到这些复杂的模式。关联规则是一个例子。关联规则说两个事情一起发生。超市发现买啤酒的人常常买尿布。超市就把啤酒和尿布放在一起。这样卖得更多。
机器学习现在很流行。机器学习让计算机自己学习。计算机从数据里面学习。学习以后计算机可以做事情。识别图片是一个例子。计算机看很多猫的图片。计算机知道猫长什么样子。计算机再看新的图片。计算机知道图片里面有没有猫。机器学习有两种主要方式。一种方式叫监督学习。监督学习有答案。计算机学习数据和答案的关系。另一种方式叫无监督学习。无监督学习没有答案。计算机自己找数据的结构。
数据分析需要好的数据。坏的数据没有用。坏的数据给出错的答案。数据清洗很重要。数据清洗把坏的数据变成好的数据。数据可能不完整。缺少一些值。数据可能不对。年龄写了两百岁。数据可能不一样。有的用公斤有的用磅。数据清洗解决这些问题。数据清洗花很多时间。人们说数据分析一半时间在清洗数据。
数据可视化帮助理解数据。图表让人们看到数据。人眼很好。人眼能看到模式。散点图显示两个变量的关系。点在一起表示关系强。点分开表示关系弱。柱状图显示不同类的数量。高的柱子数量多。折线图显示变化。时间变化东西也变化。数据可视化让报告更好看。领导喜欢看图。领导很快明白意思。
数据分析在很多地方用。医疗用数据分析。医生想知道什么药有效。数据分析比较吃药的人和不吃药的人。数据分析告诉医生哪种药更好。银行用数据分析。银行想知道谁借钱不还。数据分析看很多信息。年龄工作借钱历史。银行找到可能不还钱的人。银行决定不借给这些人钱。商店用数据分析。商店想知道怎么摆东西卖得多。数据分析看顾客怎么走。顾客常去的地方放重要的东西。
数据分析有挑战。数据可能不对。数据可能太少。数据可能偏。偏的数据只代表一部分人。用偏的数据做决定会错。模型可能太复杂。太复杂的模型学坏了。模型记住数据不是理解规律。新数据来了模型错了。隐私是一个问题。数据分析需要数据。数据关于人。人不想别人知道自己的事。怎么用数据又不侵犯隐私很难。
未来数据分析会更重要。更多东西有数据。手表记录心跳。汽车记录开车习惯。冰箱记录吃什么。这些数据都可以分析。数据分析需要更多人。学数据分析有好处。找到好工作。帮助企业。帮助社会。
数据分析技术会进步。计算机会更聪明。计算机找到人找不到的模式。自动化数据分析会更多。计算机自己分析数据。计算机自己写报告。人只看结果。结果更准更快。
数据太多也是问题。数据太多看不过来。数据太多找到没用的模式。模式是真的但没有用。怎么选有用的模式很难。需要新的方法。新方法处理大数据。新方法找到真正有用的东西。
每个人应该懂一点数据分析。数据分析不神秘。数据分析帮助日常决定。买什么东西。去什么地方玩。懂数据分析决定更好。学校可以教简单数据分析。孩子学看图表。孩子学算平均数。这些知识有用。
数据分析是工具。工具好用但要看谁用。好人用工具做好事。坏人用工具做坏事。人们需要规则。规则保证数据用好。规则保护普通人。大家遵守规则。数据分析让世界更好。