Serendipity,星星还是要还给宇宙的 阅读原文 近十年,人工智能技术的发展绝对算得上是一项改变我们日常生活方式的重要工具了。 在伊甸园的神话里,人类因为好奇希望得到知识,于是遭到惩罚,被上帝赶出天堂。但在伍尔索普庄园的神话里,不但没人惩罚牛顿,情况还正好相反。多亏他的好奇心,人类才能进一步了解宇宙,变得更加强大,并且离科技的天堂又近了一步。 幸运的是,我们目前正处于后者的时代,任何闪闪发光的创意,都将绽放属于它的七彩光芒,而这其中就包括闪闪发光的人工智能技术。 众所周知,2016 年,谷歌宣布了 AlphaGo 的横空出世。接着,其便迎来了与李世石的世纪人机大战,历经五局鏖战,最终以 4 比 1 的总分获得胜利。这件棋坛盛事,可以说是人工智能在公众视野里的最终一个引爆点了。 自此以后,人工智能便成为了一个公众口中热度很高的话题。基于人工智能的发展和应用,也开始陆陆续续地涌现,可谓是遍地开花。 近些年来,基于人工智能的产品更是推陈出新,遍地都是。 包括围棋和象棋等在内的各个棋牌类竞技游戏相继被人工智能攻破;微软搜索开始推出了自己的人工智能产品小冰;百度也开始用码农人肉测试自己的无人车了;Style Transfer 技术生成了各种千奇百怪的艺术图片;计算机视觉技术开始进入普通人的生活,同时也接入了如病例分析、医疗影像诊断等医学领域,并且取得了不俗的成果。 无论人们接不接受,都不能改变人工智能正在迅速渗透进我们日常生活的这个现实。 举个例子,人脸识别,乃至于图像识别技术的广泛引用,对我自己日常生活影响就很大。 疫情以后,学校门口开放了闸机,需要扫脸才能打开,而在宿舍门口也实行了扫脸开门的措施(同时提供测温功能),这便是人工智能在我实际生活当中的应用之一,而且很频率,校园里如此之多的同学,进出校门以及宿舍楼都需要刷脸。 此外,宿舍门口的无人售货机,扫脸便可实现一键付款,也是 AI 当中人脸识别技术的应用。杭州所有交通道路上的摄像头都可以识别违法行为的,靠的就是监控摄像头自动拍摄,以及之后的车牌图像识别技术。 这两项措施,就不仅仅局限于学校了,扫码付款和识别交通违法行为,在整个杭州乃至全国范围内都处于广泛部署及使用当中。 其次,就是推荐系统的广泛使用了,这对我们的影响同样巨大。 推荐算法的初心是让人看见更大,更感兴趣的世界,试图解决海量信息和人的匹配问题。其更多照顾用户的长期兴趣,以便增加用户的参与度,同时也对推荐内容的多样性,新鲜度有不同程度的要求。因此,相比于随机推送或者是按照热度推送的方式,基于个性化的人工智能推荐算法可能真正做到因材施教,提供具体到个人的推送服务。 淘宝的主页推荐,抖音和 bilibili 的视频,知乎的回答,网易云的每日推荐,都是推荐系统在我们日常生活当中的应用。 推荐算法的本质其实就算收集用户的信息、将其投喂给算法并得出预测结果,以此提供未来的喜好和隐性需求。人类是人工智能的设计和创造者,其本意是想通过机器学习和深度学习模型来帮助人类做出更好的决策,例如围棋和象棋的最佳落点,汽车驾驶的最佳路径决策等,其一直被用来寻找最优化或者相对优化解决方案的任务。 然而,但随着 AI 的发展,冷酷无情的模型和功力强大的算法在某些时候成了主宰,本应得以享受的人类却成了算法的奴隶和阶下囚。推荐算法的初心是让人看见更大的世界;而目前推荐算法的表现则是让人踏入更小的信息孤岛。人不再是模型的受益者,反倒被其所压榨,所剥削。 以点击率,阅读率,完整播放率等为目标,把每个人都陷入一座座的孤岛危机,造成极其强烈的社交媒体灾难。互联网不再是看到更大世界的平台,而是成为了一座座的信息孤岛制造机。 与此同理的是外卖算法,社交媒体靠的是点击率,阅读率、完播率,而外卖算法靠的则是不计其数的外卖小哥的配送数据,不断优化配送路径,缩减配送时间,提高配送效率。社交媒体把人逼到了精神的信息孤岛,而外卖算法把人逼到了物理的生存困境。 现如今,社交媒体的筛选算法,很大程度上决定着用户查阅的内容,对人类无穷无尽数据的重复强化反馈,使得 AI 把人类引向了女拳、南拳、恐怖主义等等的怪圈里,无法自拔,也无法自救。 算法像是一条流水线一样,每时每刻都捆绑、消耗着我们的经历,得到的不是摄取知识的快乐,只有驴子拉磨的劳累、空虚与寂寞。 由此可见,推荐系统是一把双刃剑,有利有弊。 我的看法是:首先,要限制社交媒体平台的数据,包括用户在平台上留下来的点击率、播放率、阅读率等数据,都做到更好更完善的保护;其次,互联网用户要更擅长利用搜索功能,而非肆意依靠推荐流和完成网上冲浪;接着,要主动输出一部分内容,以此来摆脱信息茧房;最后,要多多拥抱现实世界,减少互联网世界对我们个人时长的占用。 接着,便是人工智能的自然语言处理,这也是对人类日常生活影响很大的一方面发展。 2018 年,Google 发布了论文《Pre-training of Deep Bidirectional Transformers for Language Understanding》,文章中所提出的 BERT 模型,成功在高达 11 项的 NLP 任务中取得了 state of the art 的结果,赢得自然语言处理学界的一片赞誉之声。 自 2001 年 Bengio 等人提出第一个神经语言模型起,NLP 这项工作便在人工智能界开始了一项长足跋涉之旅。2013 年的词嵌入、2014 年的 sequence-to-sequence 模型、2015 年的注意力机制等等,一直到 2018 年 10 月推出的划时代意义的 BERT 模型,都表明 NLP 领域一直在不断地高速前进和蓬勃发展。 依然是 2018 年,在 NLP 领域大放光彩的 Bert 模型旁边,还站着另一位陪跑选手,在用自己的努力孤独地坚持着,向着更亮的远方默默前进,它便是 OpenAI GPT(Generative Pre-Training)。 最开始,GPT 只是个 12 层单向的 Transformer,而后,2019 年初的 GPT-2,提出了 meta-learning,用了 15 亿参数的大模型,将所有的 NLP 任务输入输出进行了整合,成为当时生成模型界的霸主。 2020 年,新一步的极限挑战又开始了,45TB 的训练数据,1750 亿个参数,1200 万美元的花费,造就了异常强大的 GPT-3 模型,GPT-3 像之前一样使用单向语言模型训练方式,但其将目光聚焦于更通用的 NLP 模型之上。 通过对大量文本进行预训练,然后对特定任务进行微调,证明了 GPT-3 在许多 NLP 任务和基准方面的巨大收获。实验显示,无论是在 Zero-shot、One-shot 还是 Few-shot 的情况下,GPT-3 都有着很好的表现。 据 OpenAI 的报道,截至目前目前已有超过 300 个 APP 开始使用 GPT-3,平均每天产出约 45 亿个词,更甚者,GPT-3 目前已经可以扮演虚拟角色,来与我们进行交互行为。有时候,GPT-3 的强大会远超我们的想象。 长江后浪推前浪,一年更比一年强,今年又有了很多新的进展,如浪潮发布的 2457 亿参数参数源 1.0 智能大模型,百度新发布的 NLP 预训练模型 ERNIE 等。 这些基于人工智能的自然语言处理技术模型,使得许多写文章,翻译,阅读理解以及预测工作量减少,语音助手开始出现并不断智能化,在诸如语音识别等应用场景的工具也越来越多地涌现出来。 最后,说点题外话,就答主的专业而言,想简单谈一下人工智能在网络安全领域对目前工作的改变。 相比于上述提到的各个行业来说,网络安全是一个较为传统的行业。因此,在很长的一段时间内,网络安全和机器学习技术是分开来演化和发展的,两者并无交集。基于规则和黑白名单以及人工分析等的检测方法已经发展了很久,使用的技术从规则、黑白名单、模型、沙箱,最后终于发展到了机器学习这条路上,实现了两者的成功会面。 存储和计算能力的爆发式增长,让我们获得了比以往更全面、实时地获取以及分断数据的潜在能力,但面对产生的海量信息.,如何快速准确地转化为业务需求则需要依赖一些非传统的手段。 就安全领域来说,原先依赖于规则的问题解法过于受限于编写规则的安全专家自身知识领域的广度和深度,以及对问题本质的理解能力。但我们都知道,安全漏洞层出不穷,攻击利用的方式多种多样,仅仅依赖于规则进行问题的发现,在现阶段的威胁形势下慢慢就显得不大够用了。依靠极其有限的网络专家总结的经验以及各大厂商之间的样本交换更是如此。 网络安全的防护对抗发展到今天,各种技术已经日趋专业和精细化,通过古老的string-match的防御方式越来越不能适应新的攻击环境。纵观安全行业近十余年的攻击方式,从最早的单机小工具发展到如今的分布式、大数据、自动化等攻击方式,防御的方式不得不随之不断升级,而结合机器学习是必须做出的决定。 例如,安全监控的建立可能会产生海量的 web 日志数据,如何通过这些数量巨大的数据来分析发现业务异常和安全问题呢?人工智能显然要比人工更加适合这项任务。 从网络安全的角度来看,借助人工智能这项如日中天的工具来解决日益复杂的安全问题是必然的选择;从人工智能的角度来看,网络安全问题或许是人工智能的下一个突破口也说不准。 其次,历史上,安全社区一直都是以防御的方式来使用机器学习(ML)的,例如对恶意二进制文件进行分类或发现异常网络流量。但是,在攻击方面,其实也有很多人工智能的参与,并且其效果胜过了人类。这方面不展开讲了,可以看看下面这篇回答: 人工智能已在哪些领域超越了人类的表现? 当然了,用机器学习来解决网络安全问题,本身也有很多缺点和不足,详见下面的回答: 为什么机器学习解决网络安全问题总是失败? 最后,人工智能问题下面的两极评论:过于狂热,认为人工智能是万能的,寄希望于 AI 马上达到正常人类的水平,甚至成为科幻作品中那样全知全能的存在;过于悲观,把 AI 看作的统计学里面的“拟合函数”换了个符号 ,毫无用处。 但是,我们应该保持理性的视角来看待人工智能,毕竟人工智能还只是一门年轻的学科。 就目前的进展来看,人工智能缺乏一定程度的溯源机制,这对于其跨领域的进行知识表达,以及更高级的“理解”和“全知全能”的实现,实际上是存在问题的,缺乏基本的智能阻碍了其合理性的问题,且人工智能界对溯因推理的关注还很少。 但是,我们的世界已经被算法改变的太多太多,知乎回答的推荐模型、视频网站的冷启动、网易音乐和淘宝的首页 / 每日推荐、Google 和 Bing 的搜索引擎智能问答...... AI 智能的发展,是持续前进的,不要悲观失望,也不要好大喜功。 首先,不要被目前不断编织的人工智能神话所欺骗,渴望从“摘尽的低矮果实”中立马寻觅出高处的人参果——尽管低处仍然也有好果子,尽管目前也有能承载起人们寻求新突破的希望性研究课题。 其次,不要对未来的人工智能发展悲观失望,曾经的理想是一张完整的拼图,接着被外界所打碎,放置在一旁不予理会,之后又重新粘贴了起来,表面上与原来比没什么不同,但内部多了份妥协与自我宽慰。有人因为拼图被打碎而崩溃,放弃,真可惜,他们通过这一道考验后,马上就会进入全新的一个阶段。 我希望我的所有家人、爱人,朋友,倘若遇到上述情况,都能够走过这一“打碎”阶段,而不是沈溺其中痛苦不堪,乃至离去——无论是对待人工智能,还是对待生活。 这些朋友,自然也包括正在阅读本答案的你,谢谢! 阅读原文