马尔可夫|6篇杰出论文,普林斯顿获时间检验奖,NeurIPS 2021奖项出炉( 三 )


时间检验奖
NeurIPS 2021 时间检验奖颁给了论文《Online Learning for Latent Dirichlet Allocation》 。
这篇论文发表于 2010 年 , 论文作者是当时来自普林斯顿大学的 Matthew D. Hoffman、David M. Blei 和法国国家信息与自动化研究所的 Francis Bach 。
论文地址:https://proceedings.neurips.cc/paper/2010/file/71f6278d140af599e06ad9bf1ba03cb0-Paper.pdf
该论文提出了一种基于随机变分梯度的推理过程 , 用于在非常大的文本语料库上训练 LDA 模型 。 该论文通过理论证明了训练过程收敛到局部最优 。 令人惊讶的是 , 这种简单的随机梯度更新对应于证据下界(ELBO)目标的随机自然梯度 。 在实验方面 , 该论文首次表明 LDA 可以轻松地在数十万个文档的文本语料库上进行训练 , 使其成为解决「大数据」问题的实用技术 。 这个想法在 ML 社区产生了很大的影响 , 因为它为更通用的随机梯度变分推理过程提供了基础 。 在这篇论文之后 , 就不需要再使用完整的批训练过程进行变分推理了 。

马尔可夫|6篇杰出论文,普林斯顿获时间检验奖,NeurIPS 2021奖项出炉
文章图片

论文一作 Matthew D. Hoffman
数据集和基准 Track 最佳论文奖
今年 NeurIPS 推出了新的奖项 , 即数据集和基准 Track 最佳论文奖, 以表彰面向数据工作的研究 。 今年有两篇论文获得了该奖项 , 分别由加州大学洛杉矶分校、斯坦福大学的研究者摘得 。
获奖论文 1:Reduced, Reused and Recycled: The Life of a Dataset in Machine Learning Research

  • 作者:Bernard Koch、Emily Denton、Alex Hanna、Jacob Gates Foster
  • 机构:加州大学洛杉矶分校、谷歌研究院
  • 论文地址:https://openreview.net/pdf?id=zNQBIBKJRkd
获奖理由:本文分析了数千篇论文并研究了不同机器学习子社区中数据集使用的演变 , 以及数据集采集和创建之间的相互作用 。 该研究发现在大多数社区中 , 随着时间的推移 , 数据集的使用情况发生了演变 , 这些数据集来自少数机构 。 这种演变是有问题的 , 因为基准泛化会变差 , 放大数据集来源中存在的偏见 , 并且研究界更难接受新的数据集 。 这对整个机器学习社区来说需要提高警惕 , 让研究者更加批判性地来思考哪些数据集可用于基准测试 , 并让研究者更加重视创建新的、更多样化的数据集 。
获奖论文 2: ATOM3D: Tasks On Molecules in Three Dimensions
  • 作者:Raphael John Lamarre Townshend、Martin V?gele、Patricia Adriana Suriana、Alexander Derry、Alexander Powers、Yianni Laloudakis、Sidhika Balachandar、Bowen Jing、Brandon M. Anderson, Stephan Eismann、Risi Kondor、Russ Altman、Ron O. Dror
  • 机构:斯坦福大学
  • 论文地址:https://openreview.net/pdf?id=FkDZLpK1Ml2
获奖理由:本文介绍了一组基准数据集 , 其中包含小分子、生物聚合物的 3D 表示 , 涵盖单分子结构预测和生物分子之间的相互作用以及分子功能和设计工程任务 。 此外 , 该研究还将 3D 模型简单而强大的实现与具有 1D 或 2D 表示的 SOTA 模型进行基准测试 , 结果显示该数据集在低维对应物方面具有更好的性能 。 这项工作提供了如何为给定任务选择和设计模型的重要见解 。 该研究不仅提供了基准数据集 , 还提供了基线模型和开源工具来利用这些数据集和模型 , 大大降低了机器学习人员进入计算生物学和分子设计的门槛 。
【马尔可夫|6篇杰出论文,普林斯顿获时间检验奖,NeurIPS 2021奖项出炉】参考链接:https://blog.neurips.cc/2021/11/30/announcing-the-neurips-2021-award-recipients/

推荐阅读