当前位置：首页>用车>养车修车>阿尔法狗的人工智能可应用在二手车领域

阿尔法狗的人工智能可应用在二手车领域

分享到

收藏评论 点击率：

编辑：郑雪芹 来源：二手车羊皮卷

2016年3月15日，轰动全球的围棋“人机大战”落下帷幕。Google DeepMind的阿尔法狗甫登擂台就先声夺人连下三城，第4盘机器出bug送出一局后，第5盘恢复正常的电脑再次以优异的表现取胜，从而以四胜一负的绝对优势横扫李世石九段。可以毫不夸张地说，围棋这个“人类智慧的最后堡垒”已在“人工智能”的凌厉攻势下宣告沦陷。

石破天惊的闲庭信步

阿尔法狗不仅赢了棋，而且赢得漂亮，甚至赢得轻松惬意。不信的话，请看zhe一步。

这步棋是此次比赛第3盘的第148手。3月12日那天，这一子落到棋盘上，网络实时转播间里，复旦出身的讲解员立刻用了“藐视”这个词。

当时的形势，是李世石在局面落后的逼迫下放出“胜负手”，在棋盘下方的白棋大阵里“翻江倒海般折腾”。李世石挑起的激烈劫争在证伪“不打劫密约”谣传的同时，把棋局推到了风口浪尖。以笔者粗浅的围棋水平判断，这个大劫的价值不少于80目，可谓一劫定胜负。

就在大劫迫在眉睫，几近炮火纷飞的时刻，阿尔法狗却悠悠然飘到棋盘上方，下了一步价值不小（考虑到后面可能的演变，大致是在25~40目之间）但是怎么说也不在“战线”上的棋。

“人工智能”的这个选择理性吗？

可以是，但有一个条件：那就是下出这一手的人（或者计算机）认定下方的大劫即便让对方多走一步照样是铁定打赢。而且，你必须对自己的计算力信心满满，对于算定了所有的可能没有丝毫的怀疑，坚定地相信计算和判断没有一丁点的错漏。既然这是一个反正赢定了的赌注，腾出手来顺个大官子级别的便宜，也就是符合逻辑的选择了。

这样一个理性选择的逻辑，倘若对面坐着个业余选手，自然是许多棋手都敢用的；但当对面坐着的是李世石，还有多少棋手敢用80目以上的决定胜负的大劫去赌？可是阿尔法狗就敢！而且实战下来，在局部“让先”了一步，平淡从容应对无误的阿尔法狗依然稳健地掌控全局，将李世石竭尽全力的疯狂反扑一一化解。双方战至176手，李世石再也无力反击，投子认输。

围棋的世界里，恰如其分，如此一手棋就是12段高手对9段的丝毫不带遮掩的藐视。或者，用喜欢武侠的朋友熟悉的方式再类比一下：记得黑木崖上东方不败就凭一根绣花针，一边挑开宝剑震飞长鞭，一边好整以暇地称赞“好剑法，好剑法”那一幕吗？就是跟那差不多，区别嘛就是这回东方不败赢了。

“可以一战”的“大局观”计算机学得会吗？

随着棋局的推进，从开战之前的不屑一顾到“机器人接管世界”的一片恐慌，历史上多次出现的人类面对陌生事物的本能表现再次浮出水面。

然则，对于了解神经元网络等等“人工智能”是怎么一回事的人来说，计算机下围棋从“业余选手让14子”到能够PK一位世界冠军的历程，在更大程度上，是一个资源整合路径设计的杰作。

在此，首先要旗帜鲜明地把话说清楚：很多人理解的那个“人工智能”是根本不存在的。计算机计算，那个东西永远不会思考。所谓人工智能，只不过是通过精心设计的模式路径把计算机的计算功能组织起来，使其整合之后在特定领域的外在表现貌似有“智能”，而已。譬如，在每一步平均几十个变化的国际象棋领域，使用棋局“评分”优化但今天看来仍是简单暴力的“剪枝”路径搜索，结合超级计算机“深蓝”的高速运算，早在1997 年的番棋较量当中便已掀翻世界棋王卡斯帕罗夫。

然而在长达数十年的探索当中，机器下出的围棋却长期停留在“弱智”水平。虽然，早年的“姜昆在最角上下了一子，电脑长考之后认输了”的笑话级早已过去，但直到几年前，仍是即便业余初段也能“一眼看出是机器下的棋”。问题出在哪里呢？

就在围棋牵涉的计算量实在是太大了。面对一张空盘，尽可海阔天空。国际象棋每步几十个变化，总共走个几十回合；而围棋每手可以多达数百个变化，一盘棋很正常地下到二百多甚至三百手以上。再考虑每手棋下面同等数量级的变化与再变化，倘若暴力硬算，指数级上升的计算量是无论如何吃不下来的----外在表现就是计算机不停地长考长考长考，就是不落子。

人脑的计算力远不如电脑，但却并不耽误下围棋。这是因为棋手会根据经验、判断乃至个人喜好，把绝大多数“无用”的变化过滤出去，只对很小一部分变化进行计算，并从中筛选一个相对的最优解。要让计算机学会下围棋，就必须复制人类思维的这个过程。只是，九段高手布局时认为应当落在右上星位还是下方大场，或是战斗中选择在左边转换还是朝中央打入，凭着的往往就是“可以一战”抑或“略占便宜”的“感觉”----高尚些就是“大局观”。一些大局观特别出众的棋手，有时甚至计算环节都省了，照着“感觉良好”的那个点“啪”的就拍下去了。这个来无踪去无影的颇有虚幻色彩的 “感觉”，计算机几十年也没学会。

没有至关重要的“感觉”，又无法承担天文数字的计算量，计算机别无它法，只得依赖事先的程序设定，粗暴武断地强行缩减搜索空间----这里的具体办法千奇百怪，但本质上都是这么回事----计算量是控制住了，但代价可想而知：在一个受到人为限制，而且每每是无理的严重不靠谱限制下的空间里优化，出来的不是现实世界里的最优解不用说是常态了。

阿尔法狗的革命性突破，就是找到了“感觉”的路径：神经元网络深度学习。

策略神经元与价值神经元：计算机的“人工智能”

DeepMind团队为阿尔法狗配备了两个相辅相成的“大脑”：提供落子推荐（MovePicker）的策略神经元（Policy Network）与负责形势判断（PositionEvaluator）的价值神经元（Value Network）。这里顺便说一句，坊间“策略网络”、“价值网络”的翻译是不确的，因为这里的Network是神经元网络Neural Network的简写，而不是通常所说的那个net。

策略神经元作为阿尔法狗内核跟人脑最相似的部分，就是提供上文所提“灵感”的“人工智能”。这是必须通过数以百万计的反复“学艺”，先是跟着人类多年积累下来的一盘又一盘名局打谱，然后从低到高不断跟人类对弈，直到“入段”之后自己跟自己下棋，一点一点培养出扫一眼棋盘就能看到哪里“可以一战”的“感觉”。

跟人类的学习过程很类似是吧。不仅如此，此类神经元网络还有一个类似人脑的特点：不知道为什么知道。更早更 “原始”的计算机工具，比如说线性或非线性回归分析，最后都可以给出公式亮出系数，并且报告哪个系数的权重是多少。可是阿尔法狗用的这类神经元，能够学会下棋，能够学会开车，但就是无法对学习成果给出一个像样的解释----没有公式，没有系数，什么都没有，最多给出一个拟合的输入端系数权重，还要即刻声明那只是一个估算，仅供参考。倘若阿尔法狗的策略神经元会说话，他/她会跟人类围棋高手一样说不清为什么要下在那里----就是“感觉”那个点好啊…

这个解释对人类或许已经足够了，内核里头必须计算解决问题的电脑却不能接受，于是价值神经元出场。这玩意，用木谷门提倡的语言形容，就是专业干“形势判断”的活。当策略神经元产生了“感觉”出来的十几几十个选择后，价值神经元就会一一研判倘若这么走了黑白双方赢棋的概率。有了整体形势判断，就可以进一步缩小排查范围，直到确定当前这一手落子的最佳位置。

对于围棋这个超级复杂的数学游戏，实际的变化当然还要更多一些：你还需要考虑这一手落下去，对方有许多不同的方案可以选择，然后下一回合又会出现多少变化….于是，通过蒙特卡洛树搜索，把以上两部“大脑”组合起来。在更有取胜希望的方向上，蒙特卡洛树生出更多的分枝树叶，策略脑与价值脑轮番开工在有限的用时里检视完全可能是几千个各式各样的图----作为参照的是，当年以强悍的计算著称的赵治勋九段，全盛时期一手棋大约算300个图。至于在哪一手上花费更多的时间来确保算透所有可能的变化，在神经元“大脑”运转状态恒定的前提下，取决于蒙特卡洛树搜索的宽度与深度。对此的控制可以是人为锁定，也可以放开来由机器定夺，最有可能的是一定的边界条件设置之内允许神经元网络随机应变。

这样的“大数据”，抑或是几个“思考网络”翻筋斗式互连互通的“深度学习”技术，笔者还是更愿意称之为自学习式的超级数据分析----早已不仅是在下棋，从无人驾驶到红绿灯控制，从消费信用评级到故障诊断排查，许多军用与民用领域都能找到这些“人工智能”的身影。不过，还是那句话：它们压根没有一点点智能，从来都是只会计算不会思考，然而这并不妨碍它们非凡的在许多方面已然超越人类的外在表现。

编辑：郑雪芹

分页导航