问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

机器学习的算法和普通《算法导论》里的算法有什么本质上的异同

发布网友 发布时间:2022-05-09 20:16

我来回答

2个回答

热心网友 时间:2023-10-17 07:52

作者:董可人
链接:http://www.hu.com/question/24976006/answer/29682806
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

算法导论里的算法本质上是对有精确解的问题,如何更有效率地求得这个解。这个效率可以是计算时间更短,也可以是计算过程所需要的空间更少。

一个简单的例子是,给定一个乱序数组,如何快速的将其按从小到大的顺序重新排列,或者找到其中的中位数。这些问题都有确定且唯一的答案,一般都会有一个笨方法(穷举或遍历),只要一步一步来就可以解,所谓算法只是如何精简步骤,更快更省事地找到这个解。这些算法处理的数据也都是结构简洁且干净的类型,比如数组,二叉树,图之类的数据结构。数据规模对于这些算法而言,影响的是计算所需的时间和空间,不会因为规模改变而影响算法本身的逻辑以及计算的结果。

机器学习要解决的问题一般没有精确解,也不能用穷举或遍历这种步骤明确的方法找到解,而且需要强调的是“学习”这个属性,即希望算法本身能够根据给定的数据或计算环境的改变而动态的发现新的规律,甚至改变算法程序的逻辑和行为。

举例来说,可以是把一千份文档归类到不同的几个类别里。最简单的可以是给定几个类别,比如新闻,小说,诗歌等,算法来根据文章内容自动划分到对应的类别里。这里可以看出这个问题即使让人做,也有很多模糊不能确定的地方,比如一篇法制晚报上的犯罪纪实是应该划到新闻,还是小说呢?或者说一篇长诗比如荷马史诗是应该归在小说还是诗歌呢?机器学习算法想要解决的,就是根据从文章内容里找到的规律,来自动的给出一个划分。而不同算法可以给出不同的解,这些解都可以是“正确”的,所以一般还需要人为设计一个评判标准来决定孰优孰劣。

也可以不事先给定类别,而是让算法自己去发现文章中的规律,把相似度高的文章划分到一起。这样不同的算法可能给出不同数量的类别划分,可能是三个,四个,或者五个,也都可以是“正确”的划分。甚至什么是“相似度”,不同算法也可以给出不同解释,可以是名词动词形容词的词频及比例,也可以是句子的语法结构等。

更进一步的,你可能还希望这个算法能够用来判断一份新的文档的类别。而输入的新文档越多,也会进一步扩大初始数据集的规模,规模变大以后,原来数据中不明显的规律可能就变明显了。比如说原来一千份文档中只有一篇议论文,可能大多算法都无法把它单独划出一个类别,但当你持续输入一百份议论文后,数据中议论文的比例就变成了101/1100,差不多10%,这时候算法就应该划分出单独的议论文类别。在这个意义上,数据本身也对算法有很大的影响,这也是和算法导论中的算法的一个本质区别。

技术上说,算法导论中的算法关注点在数据结构和计算复杂度,属于离散数学的一个分支,不涉及微积分等高等数学概念。机器学习的算法本身是基于概率,统计和优化(optimization)等理论和技术,从这个角度上说给人感觉更“数学”一点。

在具体的实现细节上,机器学习的算法会大量应用算法导论中的技术来改进计算效率。但需要强调这仅仅是对底层实现来说,在算法本身的逻辑上,二者没有太多联系。换句话说,算法导论中的技术可以帮助你写出更快的程序来运行机器学习算法,但是这对机器学习要解决的问题本身是没有什么帮助的。熟练使用二叉树散列表,准确估算一个图算法的复杂度,都没有任何可能帮助你猜到在女朋友过生日时送什么礼物最好(使用了机器学习算法的淘宝君却很可能知道!)。因此不要把它们看成是搭积木拼构件的关系。

最后,如果以上解释仍然让你费解,那么还有一个更通俗的解释:算法导论是教你如何数数,而机器学习基本上相当于星座算命。一个很机械,一个靠忽悠,差不多就是这样吧。
具体分析见链接:http://www.hu.com/question/24976006

热心网友 时间:2023-10-17 07:52

机器学习的算法在使用之前需要训练,而普通算法不需要,而训练需要大量的样本数据,比如说同样一个正弦sin()函数,如果用如果用机器学习算法来实现的话就需要很多这样的样本数据:
0=sin(0)
.......
1=sin(90)
从本质上来说,机器学习算法是总结已知的训练数据中的“规律”,然后用这个“规律”去计算未知的数据,而普通算不具有总结规律这个特性
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
干货| 如何利用PPT绘制手绘图像(内含视频教学)。 小米Mix2s开发者选项的设置与应用指南(探索小米Mix2s开发者选项)_百度... 我今年41岁女,我想问一买哪种养老保险更合算,可以一次买吗?要多少... 我们家有营业执照。我现在41岁了。养老保险如何来买?一年,交多少钱? 搅拌桩的两喷两搅怎么理解 ...上关于一喷二搅、二喷二搅、二喷三搅、二喷四搅的具体做法 两搅两喷与四搅四喷的区别 三轴搅拌桩两搅四喷是什么意思 梦幻西游将军令怎么解绑 EXCEL表,求值? 吃一口就上瘾的蒜香奶油鸡怎么做?有哪些步骤? 鸡有哪几种做法做出来是最好味道的? 鸡有什么好做法好吃的? 机器学习算法的定义或者概念是什么? 文胸尺码34/75B是什么意思? 鸡有哪些做法好吃 34码的文胸是多大 为什么或有资产和或有负债不能再财务报表内确认? 我问女友胸罩的大小 她说34码 是多大的 怎么看 求财会专业毕业论文题目,给的越多越好,最好是现阶段社会或企业最关注最有价值的课题,只要题目! 急急~~~为什么或有资产和或有负债不能再财务报表内确认 多谢啊 怎么判断有无对财务报表产生重大影响 或有事项 对经济成果的 影响 都有什么 哪里有好用的webp图片格式转换器呀? 卢浮宫的资料!!!哇!!! 红米note怎么关闭省电模式 红米note3屏幕怎样设置才能耗电少? 我现在基本上6千有银行流水半年可不可以去申请车贷? 红米note3省电模式如何恢复到未开启状态 红米Note4X怎么开启省电模式方法 鸡有多少种做法 怎么做鸡最好吃 鸡的做法有几种最好吃的 如何理解机器学习算法在大数据里面的应用 阻尼铰链价格介绍 2021年建党立卡大学生就业正策 陕西省2016年前脱贫的建档立卡大学生不能享受建档立卡补助吗? 断桥铝门窗一般用什么品牌比较好? oppor9s新系统更新后,怎么把微信声音设置成下载的铃声。 断桥铝窗什么牌子的好 网上买家具和实体店买家具的区别与注意事项有哪些? 陕西籍建档立卡大学生就读重庆学院如何申请助学金? 带屏风的办公桌怎么看质量好坏? 阳光房标准制造流程 陕西省省外的建档立卡大专生不能享受专生本建档立卡的招生计吗? 请问批墙、吊顶、铺地板、走线的顺序 陕西高考生怎么申请建档立卡?去上大学学费不够 各位网友大家好,我想问问,为啥陕西大学生建档立卡说给六千,最后下 衣柜的十大品牌有哪些 react-router是怎么实现单页面应用的 react-router 怎么执行的