工业大数据建模应慎用机器学习
创始人
2024-12-13 11:42:15
0

多年来,用机器学习方法(特别是神经网络方法)给工业对象建模一直是一种时髦的做法。但我主张慎用这种做法,认为这种方法时髦但不实用。有人或许会举出很多的例子和报道,说这类方法多好。在我看来,这类观点往往是被“幸存者偏差”蒙蔽,各种报道不一定靠谱。由于这个方法时髦,就适合写文章、适合做技术包装,故而相关的报道很多。但现实中用得多好就难说了。其次是:报道说机器学习得到的模型好用。但如果在传统方法上花足够的功夫,或许更好用。“名”和“实”的问题,值得思考。

很多人选用这类方法的一个原因,是传统的建模解决不了问题,只能试试它了,把机器学习当成了一根“救命稻草”。但在我看来:传统建模无法解决的问题,都可以归结为“数据质量”问题,包括数据的完整性、精度、频度、关联关系、分布区域等等。不从这些基础入手,很难解决问题。反之,把基础问题解决了,问题就不一定难了。

我主张慎用的一个重要原因,是工业对象建模的关键不仅仅是精度,还有稳定性、适用范围(所谓的可泛化性)等。对现实问题来说,稳定性往往比精度更重要。一股脑地把数据交给机器去学习一个复杂的函数,就很难保证稳定性和适用性。机器学习得到的模型或许在精度上会稍有提高,但很可能同时会出现过拟合问题。

不用机器学习用什么呢?我推荐用与“近邻方法”相关的方法。如黄金批次方法、CBR方法、KNN等。我把这类方法统称为“跟着学”的算法。这类方法也有许多技巧。比如:跟着谁学?再如,跟着学时需要根据实际情况进行矫正、补偿差异。矫正的方法,也有很多技巧。比如,矫正的时候需要一些矫正系数。这些矫正系数可能会随着时间发生变化。这些变化最好能用数据进行矫正。这种矫正,其实也可以理解为“机器学习”:不过,这样的机器学习往往非常简单。相比把整个模型进行机器学习,实践中要有效得多。

我有个经验:老方法往往难以解决老问题——除非有新的技术条件。在我的脑子里,“机器学习”其实已经是老方法了。所以,机器学习很难有好的效果。但“跟着学”这类方法往往更老,为什么会有效呢?因为这类方法的应用,往往伴随新的技术条件:工业大数据。容易理解:历史数据足够多的时候,才能找到合适的、“跟着学”的数据。过去,这个条件并不容易具备。现在,条件不一样了。

今天和朋友聊天时,谈到一个观点:大数据往往来自于多个对象的数据。模型本质是可以看成是对这些数据和信息的压缩。在压缩过程中,难免有信息的丢失。要把模型做得更好,可以考虑直接利用特定对象的(未经压缩的)历史数据,以便于对模型计算进行修正。

相关内容

热门资讯

原创 苹... 有不少朋友疑惑苹果iPhone 16 Pro和16 Pro Max有什么区别?该选择哪一款更好?各自...
2024年OPPO手机全攻略:... 手机已不仅仅是通讯工具,它更是我们记录生活、享受娱乐、提升工作效率的重要伙伴。随着科技的飞速发展,O...
2025年值得入手的2款智能手... 在科技飞速发展的今天,智能手表已成为我们生活中不可或缺的伙伴。无论是健康监测、信息提醒,还是时尚搭配...
原创 2... 从去年华为用上了麒麟芯片开始,华为的市场份额就蹭蹭的往上涨,当时抢购的人特别多,一时间还买不到现货,...
第五轮学科评估对比:西安交大突... 在之前的文章中,我们已经提及西安交通大学第五轮学科评估的表现可圈可点,新晋的3个A+学科:机械工程、...
vivo手机5g开关在哪里打开 vivo手机5G开关的打开方式可能因手机型号、系统版本及运营商网络支持情况的不同而有所差异。但总体来...
解决FaceTime无法使用的... FaceTime是苹果公司推出的一款视频通话应用,广泛应用于iPhone、iPad和Mac等设备上。...
steam官网无法访问?这个办... 对于广大游戏爱好者而言,Steam平台无疑是获取最新游戏资讯、购买游戏、与全球玩家互动的重要阵地。然...
原创 直... #热点周际赛# 随着科技的进步,儿童智能穿戴设备逐渐成为了家庭中的新宠。华为作为智能穿戴领域的领军者...
原创 麒... 为了普及原生鸿蒙(鸿蒙5.0),抢占更多的中端手机市场份额,华为nova系列今年开始计划一年两更,n...