您的位置 首页 IT产业经济

智能时代:大数据与智能革命重新定义未来 读书笔记 豆瓣评分 8.4

前言 人类的胜利 Google开发AlphaGo的最终目的,并非要证明计算机下棋比人强,而是要开发一种机器学习…

前言 人类的胜利


Google开发AlphaGo的最终目的,并非要证明计算机下棋比人强,而是要开发一种机器学习工具。

 

第一章 数据——人类建造文明的基石


现象、数据、信息和知识

信息是关于世界、人和事的描述,它比数据来得抽象。数据的最大作用在于承载信息。

对数据和信息进行处理后,人类就可以获得知识。

知识比信息更高一个层次,也更加抽象,它具有系统性的特征。

 

数据的作用:文明的基石

从观察中得出数据,是人类和动物的重要区别。

使用数据的标准流程:获取数据——分析数据——建立模型——预知未来

在过去数据的作用常常被人们忽视:数据量不足以至于在较短的时间里它的作用不明显;其次,数据和所想获得的信息之间的联系通常是间接的。

 

相关性:使用数据的钥匙

很多时候,我们无法直接获得信息,但是我们可以相关性的信息量化,然后通过数学模型,间接地得到所要的信息。

 

统计学:点石成金的魔棒

统计学是建立在概率论基础之上,收集、处理和分析数据,找到数据内在的关联性和规律性的学科。

越想要得到准确的统计结果,需要的统计数据量就越大。

统计所使用的数据必须和我们想统计的目标相一致。

 

数学模型:数据驱动方法的基础

在大多数复杂的应用中,需要通过数据建立起一个数学模型,以便在实际应用中使用。要建立数学模型就要解决两个问题:采用什么样的模型,模型的参数是多少。

只要数据量足够,就可以用若干个简单的模型取代一个复杂的模型,这种方法被称为数据驱动方法。

 

小结

从某种程度上讲,获得和利用数据的水平反映出文明的水平。

 

第二章 大数据和机器智能


大量数据的使用,最大的意义在于它能让计算机完成一些过去只有人类才能做到的事情,这最终将带来一场智能革命。

 

什么是机器智能

真正科学地定义什么是机器智能的还是电子计算机的奠基人阿兰图灵,他提出了图灵测试。

鸟非派:人工智能1.0。飞鸟派的人认为要实现人工智能,就是首先了解人类是如何产生智能的,然后让计算机按照人的思路去做。

 

另辟蹊径:统计+数据

在贾里尼克之前,语音识别主流的研究方法有两个特点:一是让计算机尽可能地模拟人的发音特点和听觉特征,二是利用人工智能的方法理解人所讲的完整的语句。

贾里尼克认为,语音识别不是一个人工智能的问题,而是一个通信问题。

贾里尼克开创数据驱动方法解决语音识别问题。

 

数据创造奇迹:量变到质变

如今如果所采用的方法无法利用数据量的优势,会被认为是落伍的。

进入21世纪后,由于互联网的出现,使得可用的数据量剧增,数据驱动方法的优势越来越明显,最终完成了从量变到质变的飞跃。

 

大数据的特征

大数据的特征包括:大量、多样性、及时性、全面性、数据思维。

 

变智能问题为数据问题

计算机利用数学模型,能够在棋盘的任何一个状态下评估出自己和对方获胜的概率。

机器智能对于回答“为什么(why)”问题,以及“怎么做(how)”的问题一直没找到好的办法。

 

结束语

决定今后20年经济发展的是大数据和由之而来的智能革命。

 

第三章 思维的革命


大数据是一种全新的思维方式。

今天,很多人的行为方式和思维方式其实依然没有摆脱机械思维。

 

思维方式决定科学成就:从欧几里得、托勒密到牛顿

欧几里得最大的成就是创立了基于公理化体系的几何学。

托勒密的方法论可以被概括为“通过观察获得数据模型的雏形,然后利用数据来细化模型”。

思维方式和方法远不如方法论对科学的发展至关重要。

牛顿通过他在数学、物理学、天文学和光学等诸多领域开创性的成绩,总结出了一种全新的方法论,不仅开创了科学的时代、理性的时代,而且开启了西方的近代社会。

 

工业革命,机械思维的结果

机械思维的重要特征——所有问题有一个通用的解决方法。

机械的广泛使用和机械的思维方式直接导致了人类迄今为止最为伟大的事件——工业革命。

机械思维的局限性更多来源于它否认不确定性和不可知性。

青霉素和其他抗生素的发明,实际上遵循了“分析找到原因,根据原因得到结果”。

 

世界的不确定性

不确定性是这个世界的重要特征。

对于股市上的操作也类似,当有人按照某个理论买或者卖股票时,其实给股市带来了一个相反的推动力,这导致股市在微观上走向和理论预测的方向相反。

世界上很多事情是难以用确定的公式或者规则来表示的。

 

熵——一种新的世界观

信息量的度量就等于不确定性的多少。

信息时代的方法论:谁掌握了信息,谁就能获取财富

当我们要对未知的时间寻找一个概率模型时,这个模型应当满足我们所有已经看到的数据,但是对未知的情况不要做任何主观假设。

 

大数据的本质

大数据的科学基础是信息论,它的本质就是利用信息消除不确定性。

 

从因果关系到强相关关系

在大数据时代,我们能够得益于一种新的思维方法——从大量的数据中直接找到答案,即使不知道原因。

 

数据公司Google

今天,各个搜索引擎都有一个度量用户点击数据和搜索结果相关性的模型,通常被称为“点击模型”。

一个搜索引擎使用的时间越长,数据的积累就越充分,对于这些长尾搜索就做得越准确。

Google的广告系统每次播放什么广告,不是由任何规则决定的,而完全是利用数据、挖掘相关性的结果。

 

小结

落后可怕的地方是思维方式的落后。

大数据思维和原有的机械思维并非完全对立,它更多的是对后者的补充。

 

第四章 大数据与商业


大数据思维不是抽象的,而是有一整套方法让人们能够通过数据寻找相关性,最后解决各种各样的难题。

 

从大数据中找规律

查处毒品种植的案例,我们看到了大数据思维的三个亮点:第一是用统计规律和个案对比,做到精准定位。第二是社会其实已经默认了在取证时利用相关性代替直接证据,第三是执法的成本在大数据时代会大幅下降。

 

巨大的商业利好:相关性、时效性和个性化的重要性

亚马逊在推荐商品方面做得最成功,今天它的销售额中有1/3是靠给用户推荐而产生的。

netflix的数据具有较强的时效性,它可以根据用户的反映很快调整它的市场策略。

 

大数据商业的共同点——尽在数据流中

利用从大数据得到的规律知道商业行为和其他行为时,数据的流向则是从整体到局部(双向)。

 

把控每一个细节

从酒吧数据分析案例会发现大数据可以让商业行为在准确把控宏观规律的同时,精确到每一个细节,从而提高利润。

普拉达的衣服价牌里藏着一个RFID芯片。

金风利用互联网将发电机的各种数据全部收集到公司,进行大数据分析。

 

重新认识穷举法——完备性带来的结果

对于新的、过去没有见过的情况,Google的服务器反应是非常及时的,即在第二次就能把新鲜的数据提供给用户使用。

Google自动驾驶汽车对于已经去过的地方都收集了非常完备的信息,因此,自动驾驶汽车每到一处,对周围的环境是非常了解的。

 

从历史经验看大数据的作用

新技术+原有产业=新产业

现有产业+大数据=新产业

现有产业+机器智能=新产业

 

技术改变商业模式

人类对服务的需求总是有的,而且随着科技进步,人们对服务的要求越来越高,因此它的利润就有保障。

在大数据时代,IT软件和服务业依然会是IT领域最好的行业,而且这个趋势将更加明显。

 

加(+)大数据缔造新产业

从宏观角度看,商家可以了解商品是通过什么渠道卖给了具体的消费者,从而优化它的销售网络;从微观角度看,它可以了解每一位顾客的生活,知道接下来每一个人需要什么。

未来产品的服务水平不完全取决于厂商对它的重视程度和相关技术,而更多要依靠智能化。

在未来我们可以看到,大数据和机器智能的工具就如同水和电这样的资源,由专门的公司提供给全社会使用。

 

小结

每次技术革命都会诞生新的思维方式和商业模式,企业只有在思维上跟上新的时代,才能在未来的商业中立于不败之地。

 

第五章 大数据和智能革命的技术挑战


只有当所有必要的技术都成熟时,技术革命才变为可能。

 

技术的拐点

1666年,牛顿发明了微积分,发现了力学三定律和万有引力定律,完成了光学分析,从此世界进入科学近代社会。

1905年,爱因斯坦完成了分子说,发现了光电效应,提出了狭义相对论,从此开启科学的现代社会。

1965年,摩尔博士提出了摩尔定律,同时在工业界大规模集成电路出现,从此开始了持续半个世纪的信息产业高速发展。

智能技术的拐点可能发生在从10年前开始到接下里的一二十年这一段时间。

 

数据的产生

大数据的第一个来源是电脑本身,第二个来源是传感器第三个来源是过去已经存在的、非数字化形式存储的信息数字化。

案例:采用RFID自动计价付款系统。

 

信息的存储

随着数据量剧增,查找和使用数据的时间会变得相当长,因此存储设备的读写速度也必须随着容量的增加而大幅提高。

 

传输的技术

到了移动互联网时代,第四道LTE的有效数据传输率达到2MB/s~10MB/s,增长了几十到上百倍。同时,WIFI在主要城市的覆盖率已经非常高,蓝牙也成了很多设备的标准配置,这才使得数据在产生后可以迅速传到服务器上。

 

信息的处理

应用大数据的一个前提就是能够将一个大的计算任务分到很多台便宜的服务器上去做并行计算。

 

数据收集:看似简单的难题

正是因为在收集数据时没有前提和假设,大数据分析才能给我们带来很多预想不到的惊喜,也才能使得大家觉得计算机变得很聪明了。

我们常常认为具有代表性的数据(样本数据),可能并不那么具有代表性。

在数据的收集过程中,非常忌讳那种“大胆设想,小心求证”的思维方式。

数据收集是一个开放性的话题,不存在唯一的、最佳的方法。但是最好的方法一定能够保证数据的全面性(完备性)和不变性。

 

数据存储的压力和数据表示的难题

案例:在邮件中,同一份附件在所有的邮件中只存一份。

信息存储相关技术并不局限在研究如何节省存储量上,还需要研究怎样存储信息才能便于使用。

大数据面临的另一个技术难题就是如何标准化数据格式,以便共享。

Google已经将protocol buffer(处理结构化数据的工具)数据格式开源出来供大家使用。

 

并行计算和实时处理:并非增加机器那么简单

并行运算存在问题:总有部分计算无法并行;无法保证每个小任务的计算量是相同的;计算需要实时性。

Dremel采用以数据列为优先的方式存储,而传统的数据库系统是以行为优秀方式存储。

 

数据挖掘:机器智能的关键

为了提高数据的信噪比,在使用数据之前,我们常常需要进行降噪处理,损失一部分数据,以提高信噪比。

用机器学习的专业术语来说就是“期望最大化”的过程:只要事先定出一个学习的目标,这些算法就会不断的优化模型,让它越来越接近真实的情况。

Google的突破在于找到了一种方法,可以将一个很大模型上百万参数同时训练的问题,简化为能够分布到上万台(甚至更多)服务器上的小问题,这样使得大型的人工神经网络训练成为可能。

 

数据安全的技术

数据安全有两层含义,首先是要保证用户的数据不损坏、不丢失,其次要保证数据不会被偷走或者盗用。

在美国黑市上,一条医疗记录的卖价是个人商业数据的50倍左右。

尽量将敏感信息放到不同的地方,以免多种敏感数据同时丢失。

通常人们在方便性和安全性方面会优先考虑方便性,这是人的天性使然。

案例:利用操作日志数据发现并制止异常的操作。

 

保护隐私:靠大数据长期挣钱的必要条件

制约权力最好的办法是使用权利

保护隐私最有效的办法是数据的采集者和使用者也是同样被监督的。

 

小结

大数据和机器智能的发展和应用过程,还会带来很多新的技术挑战,需要解决很多技术上的难题,比如对数据安全的考虑,对隐私保护的考虑等。

 

第六章 未来智能化产业


未来的农业

在条件恶劣之地,以色列人创造了令人咂舌的奇迹,许多农产品的单产量领先于世界先进水平。

灌溉系统中有传感器,能通过检测植物茎果的直径变化和地下湿度,来觉得对植物的灌溉量。

自动浇水的机器人droplet

 

未来体育

金州勇士队利用大数据制定战略,还利用实时数据及时调整比赛中的战术。

大数据对体育训练的帮助还在于分析和总结优秀选手的动作姿势。

 

未来的制造业

2011年德国提出工业4.0的概念,即通过数字化和智能化来提升制造业的水平。

机器人取代人类从事制造业的一个巨大优势在于,产品很容易按照个性化定制。

 

未来的医疗

降低医疗成本

从医疗本身讲,医疗成本高的前两个重要原因是药品的研制周期太长、费用高,以及医务人员培养的成本太高。

计算机在诊断和做手术等方面有三大优势:它们失误的可能性非常低;其次,他们的准确率很高;最后,他们稳定性非常好。

解决医疗资源短缺问题

自然语言处理专家和医生们让计算机理解人的语言,然后让它能够根据化验结果和病人的描述来诊断简单的疾病。

制药业的革命

李文森博士所倡导的为每一个患者设计个性化特效药的思路,如今已被制药行业和医学界普遍认可。

在未来,可能一种疾病会有不同的药品医疗,而不同的人会有不同的特效药。

人类是否可以长生不老

找到导致衰老的基因,同时修复我们身体细胞在复制时出错的基因,或许是一条人类延年益寿的有效途径。

 

未来的律师业

机器智能会逐渐取代律师做一些案例分析工作,使得诉讼的成本有可能大幅下降。

 

未来的记者和编辑

计算机写财经评论其实是根据以前很多报纸上多年积累的财经类的文章,训练出各类财经文章的模版,然后每次根据从财报中读出的信息,合成一篇文章。

 

小结

人类很多基本的需求并没有变,只是采用了新技术后,新产业会取代旧产业满足人类的需求。

 

第七章 智能革命和未来社会


智能化社会

智能化交通通常会建议一个每天最佳的上下班时间。

利用大数据管理交通可以根据实时流量和对未来流量的预测,调整交通信号灯的时间。

 

精细化社会

当数据从整体流向每一个细节时,我们可以让未来的社会变成一个精细化的社会。

追踪每一次交易

比特币实际上是一个由随机数算法产生的随机数,这个随机数在整个互联网上是唯一的,而且是可以验证其真伪的。

区块链+RFID

从标准到个性化的服务

智能的就诊指导系统会根据患者的情况和医生的情况帮助他们选择合适的医生。

智能时代,机器的智能水平足以为我们提供各种个性化的服务,同时能够做到成本和过去的标准化服务相当。

 

无隐私的社会

在中国,互联网公司并没有就数据的所有权明确的说明,而大部分用户也默认互联网公司拥有数据。

立法永远落后于案件发生的。

在商品经济比较发达的国家,法律对假货的处罚是把赔偿对象扩展到所有可能的受害者。

 

机器抢掉人的饭碗

三次技术革命都有一个共同的特点,那就是它们对当时的社会产生了巨大的冲击,都需要经过大约半个世纪甚至更长的时间才能消化掉。

从工业革命到黄金时代

工业革命带来了三个结果:人类过得好了,人类活得更长了,人类有自信和尊严了。

中国在1979年之后才真正完成了工业革命。

从第二次工业革命到镀金时代

德国为了输出产能,它最后不得不发动第一次世界大战。

依然没有消化完的信息革命

从全世界的范围看,消化掉信息革命的冲击波,或许还需要更长的时间。然而现在大数据和机器智能革命已经来敲门了。

解决问题只有靠时间

事实上,消化上一代劳动力主要靠的是等待他们逐渐退出劳务市场。

通用公司每辆汽车要支付1000多美元的退休员工福利。

智能革命的冲击

全球信息化带来的效率已经使得很多人无事可做,很少人制造出来的东西就足够全球人口消费。

高的税收意味着投入再生产的钱减少了。

其实社会公平只能反映在机会平等上,而不是结果的公平。

到了智能革命之后,任何简单动脑的工作都可能要消失,甚至那些现在从事所谓高大上职业的人,也会失去工作。

随着技术革命的发展,并非每一个人的发展机会都是越来越多的,反而可能是越来越少。

 

争当2%的人

回顾从工业革命开始的前三次重大技术革命,首先收益的是和那些产业相关的工、善于利用新技术的人。

 

小结

任何一次技术革命,最初收益的都是发展它、使用它的人。

本文来自惜文读书笔记,转载请注明出处:https://www.zaifj.com/1067.html

作者: Jordanmax

惜文读书笔记网站是一个分享读书笔记、阅读心得、笔记方法的网站。教你如何每年高效的看完52本书,同时完成52本书的读书笔记。无论你是小学生、中学生、教师还是上班族,都希望可以成为你的朋友。

发表评论

电子邮件地址不会被公开。 必填项已用*标注

返回顶部