炼数成金 门户 商业智能 人工智能 查看内容

IDC 预测到 2020 年 AI 市场规模超 470 亿美元,高质量专家是关键

2016-11-3 15:23| 发布者: 炼数成金_小数| 查看: 23276| 评论: 0|原作者: Thomas W. Dinsmore、Mark Hammond 等|来自: 新智元
摘要: 我们把机器学习定义为一种软件,它能从数据中提取高价值的知识,只需要很少的人类监督,有时候甚至不需要。学术界真正在研究机器学习的学者可能会反对把机器学习的定义局限在软件。但是,在工业界,机器学习就是软件 ...
管理 工具 算法 模型 机器学习
Machine-Learning-as-a-Service
(文/Thomas W. Dinsmore,独立咨询师和作家,擅长行业分析,拥有 IBM、微软等公司经历,曾在国际顶尖资讯公司 BCG 担任 Knowledge Expert)对于一个吸引了如此大的注意力的话题来说, 要找到一个精准的、让所有人都满意的机器学习定义是非常难的。更复杂的事情在于,大多数的机器学习,至少从产业的视角来看,看起来很像既有的分析和智能商务工具。

我们把机器学习定义为一种软件,它能从数据中提取高价值的知识,只需要很少的人类监督,有时候甚至不需要。学术界真正在研究机器学习的学者可能会反对把机器学习的定义局限在软件。但是,在工业界,机器学习就是软件。另外,如果我们把机器学习看成是一种软件,我们就能像评估其他的企业级软件一样对它进行衡量:许可执照、适用性、条款和安全等等。 初看,商业智能(BI)工具似乎已经满足我们对机器学习的定义,但是,定义中的关键词其实是:只需要很少的人类监督,有时候甚至不需要。

使用BI工具的操作者只需要10个双向交叉表来分析5个复杂变量之间的关系。如果变量增加到100个,相同的操作者需要4950个表格;如果变量为1000,需要的表格可能要上百万。机器学习软件能在极其短暂的时间内,找到大量的模型,并且在不需要人类分析师的介入下确定模型。

把机器学习当成价值链上的一个生产环节,这一比喻是有用的。机器学习“工厂”接收低价值的数据,产出高价值的知识,其形式可以是一个数学公式、一系列规则或者编程代码。机器学习产出的输出,也许是其他机器可以读懂的,或者是人类可以理解的东西,又或者是人和机器都能读懂的。总体上看,机器学习会以以下方式工作:

一个学习框架,为现实问题建模定义规则,其中包括一个或多个性能量化方式;
一个优化过程,会搜索一系列参数或者规则,我们把这一过程叫模型,能在已有的训练数据中提供较佳的表现;
依赖于部署,算法可能会自动地用新数据定义模型,不然就是人类用户来完成这一任务;
模型现在可以用于推理,可以在相同的软件中应用,也可扩展到其他的应用。

大多数机器学习框架可分为以下三类:

监督式学习,其目标是较精确地为数据集中众多变量中的一个变量的值建模。这种方法在预测问题上非常有用;
特征学习,或者无监督学习,其目标是为数据中多变量的特征进行建模。比如,在聚类任务中,其目标是把相同的例子聚到一组,所以需要被优化的性能参数可能是一个在不同聚类之间的距离数字;
增强学习框架通过不断地与环境进行交互学习,正如在机器人或者自动驾驶中那样。在较佳学习方式是交互时,增强学习特别适合。

其中,深度学习是一种机器学习方法,在多层次的网络中对高水平的模型进行建模。微软和谷歌等公司使用深度学习来解决语音识别、图像识别、3D 对象识别和自然语言处理等问题。

机器学习产业应用四大优势及局限
关于机器学习,最近大多数的消息都是关于新兴技术,比如自动驾驶、语音识别。这些创新很令人激动,但它们依然处于商业化的早期。今天,在产业界有其他许多普通的应用,机器学习也能产生价值。以下是几个例子: 

智能医疗。美国南北卡罗莱纳州医疗系统(CHS)使用机器学习来为病人的情况打分。管理经理能使用这些分数来为病人服务优先次序排名。系统能让CHS实现个性化医疗。使用这一系统之后,CHS的再入院率从21%降到了14%。
Cisco 使用机器学习来建立产品的个人购买倾向分数。销售能使用该预测来发现较好的推销对象。
PayPal 在采用机器学习来实时识别可疑交易之前,每个月因为诈骗损失1000万美元。

以上的例子由两个关键的特征:第一,机器学习的输出,也就是病人风险分数、可能的购买意向分数以及欺诈预测,都产生了巨大的价值。第二, 它们之所以有价值,是因为它们值得信任。

从上面的例子,也可以看到,机器学习在以下四个方面可以做得很好:

在多个变量中找到复杂的交互;
从原始数据中学习低水平的特征;
预测高技术的分类,比如图像分类;
处理非标签数据。一些现象是多个变量间复杂交互后产生的,比如节育的发生率不仅是一个包含性别和年龄的函数,而是这两个变量一起与其他要素作用的结果。虽然专家能使用统计学知识对这些变量进行建模,但其过程需要消耗大量的人力和时间。机器学习能自动识别出这一交互过程,并且不需要过多的人为监督。

统计技术的成功很大程度上取决于用于搜集数据的能力,这一过程要求大量的专业知识和技巧。作为一种规则,机器学习技术在混乱或者不完整的数据上能有稳定的表现。机器学习,尤其是深度学习,加以大量拥有独特价值的数据,会产生很好的效果,实际的应用包括语音识别、图像识别或者推荐引擎。机器学习能从非标签数据中进行学习。这里所说的“非标签”只的是缺乏对意义的定义。非标签的图像、视频、新闻等都是非标签数据。

比起统计学,机器学习产生的结果人类更难理解。这样,当分析的目标是属性或者方差分析时,机器学习的用处就不大。

一些研究者尝试解决这一“黑箱”问题,他们进行了验证和模拟测试,想要知道在提供新数据的情况下,模型会有什么表现。部分依赖关系分析(partial dependency analysis)的方法,让了解机器是如何学习模型表现的成为可能。

机器学习的另一个潜在缺陷是,常常会发生过拟合问题,其中算法会对训练数据的独特个性产生“记忆”。一些机器学习算法采用了“嵌入”(built-in)控制避免这一问题。 机器学习算法要求复杂的计算,需要大量的计算能力。近年来,计算成本急剧下降,但是,计算并不是免费的,所以管理机器学习负荷问题也是一个巨大挑战。计算的复杂度会让部署变得很困难。 Netflix 曾举办过一个机器学习挑战赛,并给冠军团队颁发了100万美元的奖金,后来,Netflix 发现部署冠军团队的模型成本过高,不得不放弃。

IDC 预测:到 2020 年 AI 市场规模将超过 470 亿美元
尽管存在缺陷,但根据 10 月 26 日国际数据公司(IDC)发布的报告《全球半年度认知/人工智能支出指南》(Worldwide Semiannual Cognitive/Artificial Intelligence Systems Spending Guide):各行各业对认知系统和人工智能(AI)的广泛采用,将使全球在这两方面的收入从 2016 年的近 80 亿美提升至 2020 年的 470 多亿美元。也就是说,从 2016 年至 2020 年期间,认知/AI解决方案的复合年均增长率将达到 55.1%。

根据日前 IDC 官网发布的新闻稿,IDC认知系统和内容分析研究总监 David Schubmehl 表示:“软件开发人员和终端用户组织已经开始将认知/人工智能部署到几乎所有类型的商业化应用或流程中。

“几家大型科技公司的动向以及AI创业公司爆发的风险投资市场表明,企业需要制定并施行能把这些宽泛的技术综合起来的策略。识别、理解以及使用实例,技术,以及认知/AI系统的增长机会,将成为大多数企业的差异因素,这些技术造成的数据干扰将十分严重。”

根据 IDC 的这份报告,认知/AI系统能够使用算法和基于规则的逻辑识别并响应数据流,因而能够在许多不同行业中自动实现多种功能。2016年,吸引最多投资的AI使用实例是自动客服代理、质管调查及推荐系统、诊疗系统、以及欺诈分析调查系统。另外,在未来五年中,最快实现收入增长的使用实例是公共安全和应急响应系统、新药研究及发现、诊疗系统、供应和物流、质管调查及推荐系统、以及车队管理系统。

总体预测中,认知/AI收入的半数将被投入到软件开发,其中也包括认知应用(例如文本和富媒体分析、标记、搜索、机器学习、分类、聚类、生成假设、回答问题、可视化、过滤、警报、以及导航)和利用智能发展、咨询及认知解决方案的认知软件平台。

认知应用支出作为较大、增长最快的类别,预计到 2020 年将达到 182 亿美元规模。认知/AI相关的服务(包括商业服务和IT咨询)是第二大收入类别,而硬件收入(疏远来源于购买服务器和存储器)的增长速度与软件的增长速度相当,未来五年里的 CAGR 将超过60%。
从地理层面看,北美(美国和加拿大)是迄今较大的认知/AI支出区域,2016 年这方面的收入达到 62 亿美元。预计欧洲、中东和非洲(EMEA)将继续保持第二大区域,但到 2020 年,包括日本在内的亚太地区在认知/AI方面的收入将基本接近 EMEA 地区水平。

机器学习兴起,催生算法经济
上周,在多伦多大学罗特曼管理学院组织的机器学习与智能市场会议中,多伦多大学罗特曼管理学院从事人工智能经济学研究的教授 Ajay Agrawal 比较了当前的 AI 热潮和 1995 年兴起的互联网潮流并将互联网与人工智能作了类比。

当互联网获得足够的主流牵引力后,就不再被视为一种新的技术;相反,它被视为一种全新的经济形式,互联网商业开始兴起。
Agrawal 认为,人类应该仔细思考深度学习等前沿 AI 技术将会如何重塑全球经济。

Gartner 分析认为:算法交易将会形成一个全球性的市场,世界各地的研究人员、工程师都能在这个市场上创造、分享乃至合成大规模的新算法;届时,算法也将变得像集装箱一样,能够任意组和扩展,从而搭建适用于不同应用的架构。也就是说,多个机器学习算法可以结合起来成为更强大的算法,从而更好地分析数据,充分发掘数据里的价值。
 
Gartner 曾发表报告,对算法经济可能带来的市场影响做出评估。Gartner 报告认为,算法经济将创造一个全新的市场,人们可以对各种算法进行买卖,为当下的公司汇聚大量的额外收入,并催生出全新一代的专业技术初创企业。
想象这样一个市场:数十亿的算法都是可以买卖的,每一个算法代表的是一种软件代码,能解决一个或多个技术难题,或者从物联网的指数级增长中创造一个新的机会,算法经济将会促进下一代机器对机器互动演进的巨大飞跃。

人们将会通过产品使用的算法来评价它的性能好坏。企业的竞争力也不仅仅在于大数据,还要有能够把数据转换为实际应用的算法。因此,CEO应该关注公司有产权的算法,而不仅仅是大数据。

开源 ≠ 获取,人才是领先新 AI 经济的关键
正在涌现的机器智能平台以“机器学习即服务”的方式,托管预训练过的模型,让企业能够更容易地启用机器学习,快速将其应用从原型转化成产品。当这种范式形成后,接入并使用不同的机器学习模型和服务以提供特定功能的能力将变得越来越有价值。

然而,也并非所有人都认为情势一片大好,有人明确对此表示出了担心。

初创公司 Bonsai AI 致力于“让所有人都能简单使用 AI 工具”,其创始人兼 CEO Mark Hammonk 认为,谷歌、Facebook、IBM 和微软在 AI 上投入了数十亿美元的研究经费,而且市场上还将会发生更多的兼并案例,不仅是来自这些巨头,还有一些已经意识到进入新兴智能经济的机会的公司,比如三星(前不久收购了 Siri 之父开发的“超级大脑” Viv 公司)。

更重要的是,这些公司逐渐把 AI 工具,尤其是深度学习平台开源,当然,这些工具能够以一种前所未有的节奏加速 AI 创新的步调,造福了整个开发者生态,而这也是实现许多人期待的“AI 无处不在”的必要步骤。

但是,Hammonk 表示,仅仅开放 AI 平台显然是不够的——开源不代表就能获取。一些低难度的技术和资源,比如 TensorFlow、Torch 等,对于专业用户来说是一个福利。但是,它们并没有把缺乏经验的开发者囊括进来。虽然投资巨大增长明显,但是对于AI来说,可获得性依然是一个巨大的难题。

科技作者 Francesco Corea 认为,这些开源 AI 的科技巨头在不付出成本且不承担副作用的情况下,让自己的技术得到了较好的扩展,同时,依然保留了独特的大型数据库、平台和巨大的投资潜力,这能让他们可以不断发展。

Hammonk 指出,我们正在接近 AI 一个发展阶段的终点,这一阶段被统计学统治,使用暴力编程的方法,对计算能力依赖非常大。虽然在过去几年间取得了长足进步,但最终我们会意识到,用统计学的方法来实现AI,在规模化上太难了。

AI 的下一发展阶段的主题将是让这一技术被更多的开发者使用,同时能应用到更多的设备上。在实现新的 AI 经济上,高质量的 AI 专家和数据科学家的缺乏是非常明显的。

根据 Evans Data 研究显示,全球开发者的人数有 2100万,而数据科学家约有1.8 万人。换句话说,世界上每个数据科学家都对应有超过1000名开发者。

这些开发者各有适应他们的组织的专长。他们知道自己想让系统和应用程序学会什么,但缺乏能实现这些想法的基本的 AI 知识。交给他们一堆机器学习算法,对他们来说,只是被要求掌握创造更好的学习系统的技巧,也就是说创造更优秀的学生。真正需要做的,是让他们利用现有的技能和知识,成为更好的教师。

抽象出这些基本机制能为开发者解锁 AI,让他们能够将专业知识应用到任何应用程序或系统上。假如你要雇佣一些开发者,你需要知道他们的价值不只体现在写代码的能力上,他们的专业知识和创造力才是应当努力拓展的“智能”。

虽然智能时代正在到来,剩下的问题是如何快速、高效地到达那里。Hammonk 表示,当软件开发者能够快速、高效地为应用程序注入智能,真正的知识经济就会到来。

编译来源:
http://www.nextplatform.com/2016/10/26/state-enterprise-machine-learning/
http://www.nextplatform.com/2016/10/28/new-intelligence-economy-get/
https://www.idc.com/getdoc.jsp?containerId=prUS41878616
http://techcrunch.com/2016/06/02/the-barbell-effect-of-machine-learning/

欢迎加入本站公开兴趣群
商业智能与数据分析群
兴趣范围包括各种让数据产生价值的办法,实际应用案例分享与讨论,分析工具,ETL工具,数据仓库,数据挖掘工具,报表系统等全方位知识
QQ群:81035754

鲜花

握手

雷人

路过

鸡蛋

最新评论

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

  GMT+8, 2017-12-12 22:00 , Processed in 0.249728 second(s), 24 queries .