微调,异常检测/AutoML/ML系统|工具/信息系统/躺而后立 阅读原文 2021 年伊始,我希望从一个从业者和研究者的角度谈谈我对数据挖掘领域和机器学习的一些期待。 首先在我看来最最最重要的就是可扩展性(scalability),也就是怎么把大规模智能模型部署到硬件上,并实时地进行预测和分析。去年和两家知名的业界金融公司(他们俩家加起来占到了全美信用卡结算的 70%)的机器学习负责人有过交流,大家面临的共同问题都是虽然机器学习模型在小规模数据上表现的确不错,比传统的规则模型和统计模型要好。但是部署到大规模的尺度上,需要处理每秒上千万的交易时,没有一个模型可以用且没有现成的部署。这就造成了一个尴尬的现状,在很多传统领域,想要做到实时预测,最缺的不是算法,而是系统和部署。这也是为什么我从 19 年开始转向了机器学习系统方向,研究怎么能高效的部署和使用算法。最近做了一系列加速传统模型的算法和系统,希望很快可以和大家见面。 而可扩展性的另一面就是轻量化和边缘计算(edge computing),比如怎么在移动设备(比如手机和智能手表)上部署机器学习和数据挖掘模型。这个需求是明显的,比如智能设备上有了越来越多的传感器,可能可以被用于实时检测健康状况和各种各样的风险。而移动设备上的运算能力和硬件都是有很大局限性的,因此对模型进行压缩、蒸馏,对数据进行降维等一系列操作就变得更为重要。因此我也对这一方向充满期待,如果能实现的话,物联网的智能性一定可以得到大幅度的提升。 而随着机器学习的发展,智能系统变得愈发精准,而“定制化”和“隐私”之间的冲突也变得越来越大。换句话说,我们希望智能系统对于我们的预测是精准但不侵犯隐私的。所以我对于未来智能系统的期待是如何在保护隐私的前提下做到足够定制化和精准化,这虽然有冲突但我们或许可以期待越来越被重视的差分隐私和联邦学习等。 随着模型复杂度爆炸式的增长,从开发者的角度而言我们也在想如何获得越来越便宜的运算能力。而未来的世界可能算力就是实力,对于复杂的问题我的算力就代表了实力。因此我对于未来的愿景也有如何得到更加便宜的算力,或者对于学术界和非盈利性组织提供更便宜的算力。如果哪个大企业刚好看到这个回答,欢迎联系资助我们的一系列开源项目的算力。AI for all! Free for all! 如果谈 2020 年的话,肯定逃不过新冠疫情。而这其实也引出了另一个充满了前景的方向,即用机器学习辅助生物制药,也欢迎关注我们在这个方向刚刚开源的第一个全面且大规模的数据集和 benchmark 集合(微调:TDC:机器学习 + 生物医药{数据集 +LB})。我们相信机器学习可以拓展到各行各业,最终帮助我们获得各个方面的提升。而其中最重要的,莫过于医疗健康。 每一年单看都是巨变的一年,而放到漫长的时间轴上都只是连续的微小的一点。在 2021 年的开头,很开心能抛砖引玉列出一些我很期待的方向,也算是过去一阵子的总结思考。 未来很远,明天很近。 阅读原文