1. XenForo 1.5.14 中文版——支持中文搜索!现已发布!查看详情
  2. Xenforo 爱好者讨论群:215909318 XenForo专区

2020 年过去了,人工智能领域都有哪些突破?

本帖由 漂亮的石头2021-04-20 发布。版面名称:知乎日报

  1. 漂亮的石头

    漂亮的石头 版主 管理成员

    注册:
    2012-02-10
    帖子:
    486,293
    赞:
    46
    [​IMG] Serendipity,星星还是要还给宇宙的 阅读原文

    众所周知,2016 年,谷歌宣布了 AlphaGo 的横空出世。接着,其便迎来了与李世石的世纪人机大战,历经五局鏖战,最终以 4 比 1 的总分获得胜利。这件棋坛盛事,可以说是人工智能在公众视野里的最终一个引爆点了。

    自此以后,人工智能便成为了一个公众口中热度很高的话题。基于人工智能的发展和应用,也开始陆陆续续地涌现,可谓是遍地开花。

    2020 年的人工智能领域,则更是如此。

    对于公众而言,2020 年度最为出圈的人工智能领域突破性工作,当属 Deepmind 团队的 AlphaFold 2 了,我认为,其可以称得上是 2020 年的新版“AlphaGo”了。

    [​IMG]
    CASP13

    2020 年 11 月,在第 14 届蛋白质结构预测技术的关键测试(Critical Assessment of protein Structure Prediction,CASP)竞赛中,AlphaFold 2 得到了接近 90 分的成绩(中位分数为 92.4),表现良好,已经接近于实验取得结构的水平,并且全面碾压了来自学术界和产业界的其他竞争对手,完美地向世人展示了人工智能是如何来推动和加速新的科学发现的。

    [​IMG]
    蛋白质构成示意

    AlphaFold 2 的这一巨大突破,直接引爆了全网的热点,Nature、Science 纷纷报喜,生物届和 AI 领域的大牛们也集体祝贺,被誉为是“解决了五十年来生物学的大挑战”的巨大成就。哥大生物学助理教授 MohammedAlQuraishi 更是评价道:蛋白质结构 AI 从此进入了“ImageNet 时代”。

    [​IMG]
    CASP14:Z-scores 得分

    上图展示的,是该次比赛中的各小组Z-scores 的得分,其计算方法为样本值相对于总体平均值的差除以标准差,可以看出,AlphaFold 2 与第二名以及后面组的得分相差很大,明显好于平均水平,好到是可以当成离群点或者异常点来进行剔除的程度了。

    [​IMG]
    排名数据

    从排名数据中可以看到,AlphaFold 2 系统对所有蛋白靶点 3D 结构预测的中位 GDT 评分为 92.4 分,即使对于一些非常难以被解析的蛋白靶点,其也有 87 的分数,表现非常优异。

    其实,早在 2018 年,也就是第 13 届 CASP 比赛中,DeepMind 团队就用 CNN+Rosetta 组成的 AlphaFold 来预测蛋白质结构,首次参加 CASP 就拔得头筹,取得了第一名的好成绩。

    [​IMG]

    不过,第一版取得成功的主要原因还是算力问题,当时的后面几名小组如 C-I-TASSER、Multicom、C-QUARK 等也都利用了深度学习的技术,所以 AlphaFold 在方法论的设计上实际并无多少突破,当时的很多小组也和 DeepMind 团队一样,都是用 CNN 或者 RNN 来构建自己的模型,并实现已有方法的优化。这种情况对于以往的工作来说,也算是做出了不小的突破,但这种严重路径依赖的状态对于日益增长的算力来说并不是一个最佳的解决方案。

    而新的 AlphaFold 2,则可以说是从根本上完完全全的战胜了全部的竞争对手。正好比 AlphaGo 能下出各种匪夷所思的落子,以至于柯洁惊叹"自己这辈子都打败不了 AI 了"一样,许多人也对新的 AlphaFold 2 发出了如此高度的感慨,高呼其“解决了五十年来生物学的大挑战”。

    [​IMG]
    绿色实验结果,蓝色计算预测结果

    18 年的 AlphaFold 在 CASP13 中成功使用深度学习来预测距 MSA(Multiple sequence alignment,多序列比对)的残基距离,然后,将这些预测转换为电势,接着使用简单的梯度下降算法将其最小化(例如 L-BFGS)以找到良好的结构。而这个想法,在两年后的 CASP14 中仍然被许多研究小组采用,其中包括那些排名靠前的小组。

    [​IMG]
    协同进化方法如何从多序列比对(MSA)中提取有关蛋白质结构的信息的示意图

    但是,这一次,DeepMind 决定开发端到端模型。他们没有使用 MSA 来预测约束,而是创建了一种深度学习体系结构,该体系结构将 MSA 作为输入,最后输出完整的结构。不同于先生成残基之间距离再通过其他方法产生结构的方法,AlphaFlod2 这次使用了端到端的方法直接通过网络产生结构,还利用了 Attention Module 增强学习效果。

    他们建立了一个基于注意力机制的神经网络系统,使用 170,000 个结构组成的数据集,通过端到端进行了训练,并在之后通过不断地迭代,使得 AlphaFold 系统学习到了基于氨基酸序列,精确预测蛋白结构的强大能力。

    [​IMG]

    AlphaFold 2 将折叠好的蛋白质当成具有 3D 结构的“空间图”来处理,折叠的蛋白质可以被认为是“空间图”,那其中的氨基酸便自然成就为了“空间图”中的节点和线条。这种“空间图”的构建,对于理解蛋白质内的物理相互作用及其进化历史是非常重要的。

    通过上述这一套基于注意力机制的人工智能神经网络模型,CASP14 上使用的最新版 AlphaFold 2,可以高效的解析不同蛋白质的“空间图”结构,同时,系统会试图解释这个图的结构原理,并对它正在构建的隐式图进行推理。此外,模型还会使用进化相关的氨基酸序列,多序列比对(MSA)和对氨基酸对的表示来完善蛋白质结构的预测。另外,模型还使用了内部置信度度量指标,来对蛋白质结构进行衡量。

    [​IMG]

    虽然一部分氨基酸侧链的精确位置仍然是一个很大的难题,但 Alphafold 2 已经能够在很大程度上解决蛋白质结构的预测问题了。深度学习和 Attention model 等人工智能领域的方法在其中起到了巨大的决定性作用。

    但是,由于深度学习的部分不可解释性,Alphafold 2 也因此有了很多的质疑。

    其中便包括了德国马克斯·普朗克发育生物学研究所,蛋白质进化学系主任安德烈·卢帕斯。因此,他提出了一个特殊的挑战,即预测一种来自古细菌群中古细菌物种的膜蛋白。

    [​IMG]

    之后的一切表明,X- 射线晶体学显示的实验结果,完全符合 AlphaFold 2 模型返回的那张长着两个长长螺旋的蛋白质结构图像,这样的预测结果,不仅从实验层面上没有驳倒 AlphaFold 2,反而更进一步证实了 AlphaFold 2 的强大之所在。

    所以,若要问到 2020 年人工智能领域最伟大,同时也最具有突破性的成就,AlphaFold 2 自然是当之无愧的 NO.1 了。

    至少,是我心目中的 NO.1

    [​IMG]

    2018 年,AlphaFold 开始被用来预测蛋白质结构.

    同样是在 2018 年,Google 发布了论文《Pre-training of Deep Bidirectional Transformers for Language Understanding》,文章中所提出的 BERT 模型,成功在高达 11 项的 NLP 任务中取得了 state of the art 的结果,赢得自然语言处理学界的一片赞誉之声。

    自 2001 年 Bengio 等人提出第一个神经语言模型起,NLP 这项工作便在人工智能界开始了一项长足跋涉之旅。2013 年的词嵌入、2014 年的 sequence-to-sequence 模型、2015 年的注意力机制等等,一直到 2018 年 10 月推出的划时代意义的 BERT 模型,都表明 NLP 领域一直在不断地高速前进和蓬勃发展。

    [​IMG]

    依然是 2018 年,在 NLP 领域大放光彩的 Bert 模型旁边,还站着另一位陪跑选手,在用自己的努力孤独地坚持着,向着更亮的远方默默前进,它便是 OpenAI GPT(Generative Pre-Training)。

    最开始,GPT 只是个 12 层单向的 Transformer,而后,2019 年初的 GPT-2,提出了 meta-learning,用了 15 亿参数的大模型,将所有的 NLP 任务输入输出进行了整合,成为当时生成模型界的霸主。

    2020 年,新一步的极限挑战又开始了,45TB 的训练数据,1750 亿个参数,1200 万美元的花费,造就了异常强大的GPT-3模型,GPT-3 像之前一样使用单向语言模型训练方式,但其将目光聚焦于更通用的 NLP 模型之上。

    [​IMG]

    通过对大量文本进行预训练,然后对特定任务进行微调,证明了 GPT-3 在许多 NLP 任务和基准方面的巨大收获。实验显示,无论是在 Zero-shot、One-shot 还是 Few-shot 的情况下,GPT-3 都有着很好的表现。

    [​IMG]

    据 OpenAI 的报道,截至目前目前已有超过 300 个 APP 开始使用 GPT-3,平均每天产出约 45 亿个词,更甚者,GPT-3 目前已经可以扮演虚拟角色,来与我们进行交互行为。有时候,GPT-3 的强大会远超我们的想象。

    [​IMG]

    感谢各个互联网公司的巨额资金投入,更要感谢广大科研工作者们的不懈努力和认真钻研,让人工智能和我们的科学与生活越来越近,让我们愈发感受到了人工智能的魅力,和其带给这个世界的巨大变化。

    [​IMG]

    接下来几年,AI 还会高速发展吗?我认为答案是可以肯定的,目前,深度学习还处于发展的高峰阶段,接下来,随着 5G 的慢慢普及,更强算力芯片的不断涌现,边缘计算 + 云计算的持续进步,计算存储一体化的突破,我相信,未来一段时间,人工智能发展的脚步绝不会停止,相反,人工智能会更加大踏步的向前迈进。

    [​IMG]

    AI 也不光是纸上谈兵,实际上有很多的落地产品,也都或多或少影响到了人们的现实生活,自 AlphaGo 横空出世起,各类棋牌类竞技游戏相继被人工智能所攻破,接着,便是各类形形色色的产品开始问世。

    微软搜索开始推出了自己的人工智能产品小冰;百度也开始测试自己的无人车了;Style Transfer 技术生成了各种千奇百怪的艺术图片;计算机视觉技术开始进入普通人的生活,同时也接入了如病例分析、医疗影像诊断等医学领域,并且取得了不俗的成果。

    [​IMG]

    未来,AI 对人类的实际生活造成的影响只会越来越多,妄图一夜之间梨花漫地,自然是不现实的。但 AI 对生活造成的影响是逐步向我们走来的,无人驾驶,智能购物,更便捷的出行等,这都是我们一点点可以感受得到的,同时我也相信,以后会做的更好。

    [​IMG]

    未来可期,希望我们能够共同加油!

    阅读原文
     
正在加载...