潮科技 | 认知计算:“机器认知”与“人类认知”的碰撞

编者按:本文来自投稿,作者为微软资深科学家吴先超,36氪授权转发。

“人类认知”和“机器认知”

20世纪中后期,行为主义思潮逐渐衰落,计算机技术普及,数据科学兴起,认知革命随即爆发,认知科学由此出现。由于认知系统的复杂性,认知科学因此横跨了多个学科和研究领域,其研究理论旨在提供各种模型来描述人类认知。

人类的认知过程主要有两个阶段:首先,通过人体自身的感知器官来觉察周围的物理环境,外部信息由此输入。其次,输入的信息被传输到大脑进行复杂处理,如存储、学习等,然后将处理结果通过神经系统反馈给身体各部位。

随着计算机软硬件技术的高速发展、大数据时代的来临以及人工智能研究的兴起,认知计算逐渐成为人们关注的焦点。认知计算是认知科学、数据科学和一系列计算技术协同融合的新兴领域。

认知技术

人的一生在不断学习中,当大脑的认知能力达到一定程度的时候,便可举一反三,可以对信息进行不同维度的转化,转化结果又能够应用到其他维度,从而产生新信息和新观点。那当机器具备一定程度的认知智能时,能对已有的信息进行再创造吗?目前我们可以确定地说“能”。认知系统在训练的过程中模拟人的思维,通过持续学习,获得不断增强的智能性,逐步接近人类所具备的认知能力。人类的认知运用生物和自然的手段——大脑和心灵——来实现,而机器认知把认知看成一种计算,使用认知计算技术来实现。

认知计算使用计算学科的理论、方法和工具来为认知任务建模。它将大脑视为高度并行的信息处理器,使用各种模型来表示信息,并使用算法来转换和处理信息。能够实现认知计算系统的技术包括人工智能、机器学习、计算机视觉、机器人技术、书面和口头语言识别和理解、信息检索、大数据、物联网以及云计算。其中一些是使能技术,即一种处在基础科学理论和成熟产品研发之间的技术,其特点是带动作用,利用现有科学研究成果,寻找创新性应用思路,带动整个创新链的产品开发、产业化等。而另一些本身就是技术。

图源《认知计算导论》

艺术史学家Mazimilian Schich在文章《窃取想法的机器》中说到,“实际上,当人类思考时,我们大多数想法来自过去的经历,或者是被记录下来的别人的经历,我们极少想出彻底的新想法。机器也不例外。所谓的认知计算,无非就是一个深思熟虑的想法窃取机制,它由大量知识和复杂的算法过程来实现。人类的思想和认知计算里都含有这种窃取想法的过程,因为它们不仅能够窃取已有的想法,还能从一个给定的知识框架中窃取合理的潜在想法”。认知计算技术创造了一个能够独立人脑之外的具有学习能力的“聪慧大脑”。

机器认知是人类认知的延伸

人工智能出现之后,有两种声音此起彼伏,成为人类讨论的焦点。人们在经历人工智能带来的巨大变化的同时,又开始担心机器在未来的某一天取代人类,甚至消灭人类。科幻电影满足了人们的一切幻想和恐惧。2004年由威尔·史密斯主演的《我,机器人》,很好地诠释了阿西莫(被誉为世界科幻小说三巨头之一)在他的“机器人系列小说”中提出的机器人三大法则,即

  • 第一法则:机器人不得伤害人类,或坐视人类受到伤害;

  • 第二法则:除非违背第一法则,机器人必须服从人类的命令;

  • 第三法则:在不违背第一及第二法则下,机器人必须保护自己。

2015年的科幻电影《机械姬》却表达了机器人艾娃善于伪装自己的思想,通过甜言蜜语让人类爱上自己,然后再利用人类达到自己的目的。

但电影终究还是幻想,机器无法在短时间内取代人类的位置,或者说如果人类科学家有意强调人机协作的和谐关系,那么就不可能发生机器颠覆人类的事情。认知计算技术在现实生活的应用就体现了人机协作的和谐关系。在技术落地的过程中,我们能够看到人类的认知能力在机器的帮助下,得到了很大的提升。

认知计算技术之一:计算机视觉

计算机视觉技术赋予了机器“看”的能力。人类通过眼睛直观地分辨周围的环境,做出判断。计算机视觉技术的出现使机器通过算法进行人类识别、图像识别、视频分析等,并根据识别结果为人类的判断和决策提供参考。人类在这个过程中将减少某些重复性的工作,也能够避免去一些危险恶劣的环境中工作,从而转向机器目前还不能完全自主完成的工作层面。

计算机视觉应用场景可分为两大类:图像识别和人脸识别,每类又可继续化为动、静共四个类别,基本覆盖了目前计算机视觉的各项应用场景。计算机视觉领域最热门的应用场景可以说是人脸识别。人脸识别是基于人的脸部特征信息进行身份识别的一种生物识别技术。用摄像机或摄像头采集含有人脸的图像或视频流,并自动在图像中检测和跟踪人脸,进而对检测到的人脸进行脸部识别的一系列相关技术,通常也叫做人像识别、面部识别。例如远程身份认证、手机刷脸解锁,还有协助公安部门抓捕逃犯的人脸识别系统,住宅区的门禁系统等。未来,随着技术的不断突破,更多新功能、新场景的应用会出现在人们的生活中。

根据金智创新《人工智能行业研究报告》,计算机视觉架构从下至上依次为:

  • (1)基础层——核心芯片被Intel、Nvidia等传统芯片厂商把控,新型芯片厂商尚未崛起,规模应用有待时日;开源平台以谷歌的Tensorflow、Facebook的Caffe等为主其他企业的深度学习框架多为二次开发。

  • (2)技术层——算法,初创企业占优;云计算几乎被AWS、谷歌云、微软Azure、阿里云等垄断。

  • (3)应用层——垂直行业龙头占据场景,技术层初创企业向上渗透。根据IDC统计数据,2017年中国计算机视觉应用市场总规模约为15.5亿元,商汤、旷视、依图、云从四家企业市场份额共计达69.4%,预计2022年中国计算机视觉应用市场规模将达到146.1亿人民币。

认知计算技术之二:语音识别

智能语音技术赋予了机器“说和听”的能力。该技术的研究始于语音识别,随着信息技术的发展,智能语音技术已经融入人们的生活,成为获取信息和互动沟通最便捷、最有效的手段。当前语音识别的研究主要集中在模型的建立和提取方面,存在规模小、语言可移植性差、模型复杂、不能有效利用差别信息等问题。由于汉语发音的独特性,其识别性远高于英语,为了提高汉语的识别能力及准确性,汉语语音识别迫切需要解决的难点主要有:

1. 说话人的变化、不同时间同一说话人的同一句话的含义变化导致的语音差异;

2. 词汇量大小导致的识别单元的差异化选择;

3. 汉语方言众多导致的识别困难;

4. 汉语声调多样,提升了识别难度。

从行业发展趋势来看,近年来国内外智能语音市场发展迅速,全球市场五年间增长194.58%,国内市场五年期间增长432.33%。从市场格局来看,凭借较强的技术实力及技术积淀,Nuance、Google、Apple、Microsoft占据全球市场份额超八成,国内市场以科大讯飞为主,BAT,搜狗等公司都在这个方面开展相关业务,通过语音识别算法及硬件为客户提供语音识别、合成、交互等软件和解决方案。

认知计算技术之三:自然语言处理(NLP)

如果说智能语音技术为人机之间的交流创造了机会,那自然语言处理技术就是人机交互的道路上使人类与机器顺畅交流的重要依靠。自然语言处理是研究人与计算机交互的语言问题的技术。自然语言处理技术帮助机器理解和表达人类语言,人们可以用自己最习惯的语言来使用计算机,无需再花费大量的时间和精力学习各种计算机语言。因此这个过程并不简单,歧义的词汇和模糊的句子结构,用户不规范的输入和口语化的表达都会让机器在辨识的过程中充满挑战。

Google开源自然语言解析器及模型使语言理解更进一步。Google于2016年5月13日宣布开源全球最精准自然语言解析器SyntaxNet以及Google已经训练好的可用于分析英文文本的模型PaeseyMcParseface,这个模型在提取词之前的个体依存关系时,准确率超过94%,接近人类的水平96%-97%的范围。

自然语言处理是包括人机交互在内的许多AI应用基础。目前的具体应用形态包括机器翻译、信息提取、报告生成、自然语言问答、聊天机器人等。如微软Skype提供语言音-语言的实时翻译;NarrativeScience的quill软件是一款机器人记者,可以从大数据中解读并撰写文章,实现拟人化的写作,已广泛用于金融和新闻业。Apple、Facebook、微软纷纷发布聊天机器人。随着自然语言处理技术的发展,对话机器人发展演变的速度越来越快,从基本的通过程序编程便可以简单处理的聊天机器人,到可以理解人们意图并修正的高级自行学习机器人,对话机器人的技能越来越多,应用范围也越来越广,目前已广泛应用于家居、医疗、银行、电子商务及金融的领域。不同于语音识别等技术,自然语言处理技术有着更高的壁垒和更广泛的应用,因而出现了大公司和创业公司百花齐放的局面。国内的百度的DuerOS, 阿里的天猫精灵、腾讯的叮当、小米的小爱同学,依附大厂的背景建立生态,而创业公司也有蓦然认知、竹间智能、来也科技等,他们将对话机器人的应用推到了更加深入且垂直的领域。

认知计算技术之四:机器学习

机器拥有了人类讲话听音的能力,但这对于研发人员还不够,因为语音和自然语言识别只是机器学习的入口和出口,计算机的处理过程也是研究的重点。机器学习专门探索计算机怎样模拟或实现人类的学习行为过程,以获取新的知识和技能,重新组织已有的知识结构使之不断改善自身的性能。这意味着,机器人被造出来的那一刻,就像是一个新生儿的落地。之后,他会像小孩子成长的过程一样,实现自我学习“成长”。

机器学习开发平台的部署,包括数据获取、数据准备、模型训练、应用程序集成、模型运维、生产监控以及有明确KPI的业务治理过程。在这个过程中,由框架、算法模型、开发语言等各种工具赋能,由数据科学家、业务分析师、数据架构师和专业人员协作,基于数据建模,不断的进行概念验证,将好的模型部署到生产环境,协作以管理模型运维的全生命周期。

百度机器学习产品组合在提供丰富算法模型能力的基础上,也十分注重迁移学习能力、小样本模型训练能力,以及端到端模型应用能力,为各行业不同技术、数据基础的用户提供了针对性的产品,包括BML,EasyDL,AI Studio,飞桨Paddle。腾讯云的智能钛机器学习平台于2020年正式商业化,在此之前,已在金融行业、互联网行业等积累诸多私有化部署实践。阿里云PAI发布于2016年9月,2018年1月正式商业化。PAI平台的优势一方面在于重视机器学习系统级优化,另一方面在特征工程提取、模型训练等各个环节提供了丰富组件。

未来,机器学习能够应用到金融反欺诈,工业质检,设备预测性维护,智能投顾,量化投资,跨行业应用-销售预测,供应链预测,推荐系统等。

认知计算之五:知识图谱

人类在成长的过程中不断学习,不断积累经验,形成了一套自己的经验框架,以此来作为生活的参考。机器也被科学家们赋予了相似的能力。知识图谱的提出让机器变得更加渊博,拥有了认知世界的知识结构,这个结构也能够帮助机器更好的进行学习。

知识图谱技术可以应用于任何种类的数据:文本数据、结构化数据、多媒体数据、传感器、各类百科、WikiData等众包数据等。知识图谱涉及到的技术包括本体建模、知识表示、知识抽取、知识融合等,用以支撑语义搜索、智能问答、推荐等应用。腾讯云、IPIN以及第四范式等公司开展了相关的研究,这些业务能够为企业和个人提供大数据分析,辅助决策。

然而,知识图谱的技术栈比较长,且每项技术都较为复杂,技术研发周期长,需要多年的研究积累,导致了知识图谱技术难以普及,目前高校仅有少数实验室具备知识图谱全栈能力,而且实用化工具也不多,而具备知识图谱实施能力的公司也很少,很多公司虽然宣称具备知识图谱构建能力,但是事实上只有一个NLP构建能力或者图数据库能力。知识图谱平台的缺失是导致知识图谱技术无法有效传播的根本性瓶颈,这跟深度学习有多个平台形成了鲜明。只有当越来越多的开源或者商用化知识图谱平台出现了,才有可能有效解决知识图谱落地的困境。

产业图谱

如今,认知计算技术广泛地应用在金融、教育、建筑、安防、视频/娱乐/社交、法律、招聘、医疗、零售/电商以及新闻咨询行业,不同的技术在各方面为人们带来了便捷的生活,我们使用的智能家居、智能搜索、智能驾驶导航系统;在商店遇到的各种服务机器人、智能问询处;就医时,便捷的网上问诊,以及能够聊天的情感机器人等,逐渐改变了人类已有的生活习惯,向更简洁的方式靠近。

未来的方向,人机结合?

自人类诞生之日起,其探索和创新精神造就了现代化人类的今天。科技革命带来的颠覆性改变让人类对未来充满了无限遐想。在脑中植入芯片,进而扩大人类脑容量,在四肢上装上设备,使其受人类大脑控制……这是人类在自身认知世界,机器辅助认知世界之后,对未来设立的宏大目标。

麻省理工学院媒体实验室开发的一款可穿戴的无声语音输出-输入设备AlterEgo很好地诠释了机器对人类的巨大帮助。它被戴在头部、颈部和下颌上,可以在不发声的情况下将大脑语音中枢的脉冲输入转换为计算机上的文字。这个设备主要是帮助那些有语言障碍的人,如肌萎缩性脊髓侧索硬化症和多发性硬化症,以及其他病症的人进行交流。

马斯克7月9日在推特上发布消息说:8月28日发布脑机接口公司最新进展。希望在 2020 年底之前开始对人类患者进行试验。目前,已开始在老鼠身上进行测试,并与加州大学戴维斯分校合作用猴子实验。

类似的研究被更多的团队关注。机器能够很好的帮助人类,这是认知计算科学家们一直坚持的目标和原则。他们对机器如此信任,以至于愿意赋予机器“灵魂”,这个“灵魂”就是认知能力。

实现类似人脑的认知与判断、发现新的关联和模式、从而做出正确的决策等一系列的诉求,给认知计算技术的发展带来了新的机遇和挑战。

IDC曾预测,到2020年,50%的商业分析软件将包含基于认知计算功能的分析工具,同时认知服务将嵌入新的应用之中。但模拟人类智能的步伐才刚刚开始,未来会怎样,有无限可能。

Reference:

1. V.N. Gudivada: Cognitive Computing: Concepts, Architectures, Systems, and Applications

2. 陈敏:《认知计算导论》

3.《人工智能行业研究报告(金智创新行业研究中心)》

4. 知乎-投资观察-王晨:《2019人工智能行业研究报告》

5. 知乎-奥博财经:《人工智能行业研究报告(上篇)》

6.《IDC:2019年中国机器学习开发平台市场——市场需求空间广阔,发展潜力有待挖掘》

7. 知乎-东南大学计算机软件于理论教授-漆桂林:《知识图谱平台化助力知识图谱行业大发展》

8. 约翰·布罗克曼:《如何思考会思考的机器》