集成学习训练模型的训练数据最好不一样吗
发布网友
发布时间:2022-04-20 21:49
我来回答
共1个回答
热心网友
时间:2023-09-09 09:49
选择合适的算法之外还需要选择合适的样本数据。那么工程师到底应该选择哪些样本数据、选择多少样本数据才最合适呢?来自于Google的工程师Malay Haldar最近发表了一篇题为《数据模型需要多少训练数据》的文章对此进行了介绍。
训练数据的质量和数量通常是决定一个模型性能的最关键因素。一旦训练数据准备好,其他的事情就顺理成章了。但是到底应该准备多少训练数据呢?答案是这取决于要执行的任务,要满足的性能,所拥有的输入特征、训练数据中的噪音、提取特征中的噪音以及模型的复杂程度等因素。而找出这些变量之间相互关系的方法就是在不同数据量的训练数据上训练模型并绘制学习曲线。但是这仅仅适合于已经有一定数量的训练数据的情况,如果是最开始的时候,或者说只有很少一点训练数据的情况,那应该怎么办呢?
与死板地给出所谓精确的“正确”答案相比,更靠谱的方法是通过估算