数学家提出了使用神经网络处理嘈杂的高维数据的新方法
RUDN大学和柏林自由大学的数学家们提出了一种使用人工神经网络研究观测数据的概率分布的新方法。新方法可以更好地处理所谓的离群值,即输入数据对象与整体样本明显不同。该文章发表在《人工智能》杂志上。
通过人工神经网络恢复观测数据的概率分布是机器学习的最重要部分。该概率分布,不仅使我们能够预测系统的行为进行研究,而且要量化与预测是取得了不确定性。主要困难在于,通常仅观察到数据,但无法获得确切的概率分布。为了解决这个问题,使用了贝叶斯方法和其他类似的近似方法。但是它们的使用增加了神经网络的复杂性,因此使其训练更加复杂。
RUDN大学和柏林自由大学的数学家在神经网络中使用了确定性权重,这将有助于克服贝叶斯方法的局限性。他们开发了一种公式,可以正确估算观察到的数据分布的方差。在不同的数据上对提出的模型进行了测试:综合数据和真实数据;关于包含离群值的数据以及从中去除离群值的数据。新方法可以恢复以前无法达到的精度的概率分布。
RUDN大学和柏林自由大学的数学家将确定性权重用于神经网络,并使用网络输出来编码潜在变量的分布,以实现所需的边际分布。对此类网络的训练动力学进行分析后,尽管数据中存在异常值,但它们仍可获得正确估计观测数据方差的公式。所提出的模型已在不同数据上进行了测试:综合数据和真实数据。与其他现代方法相比,该新方法可以更高精度地恢复概率分布。使用AUC方法评估准确性(曲线下的面积是指图形下的面积,该面积允许根据网络估算的样本量“可靠”评估预测的均方误差; AUC得分越高,预测越好)。