机器学习任务

日期: 2018-11-12 10:34:55 人气: - 评论: 0

       常见的监督式机器学习任务就是分类(classification)和回归(regression)。分类认为需要学会从  若干变量约束条件中预测出目标变量的值,就是必须预测出新观测值的类型,种类或标签。分类的应用包括预测股票的涨跌,新闻头条是政治新闻还是娱乐新闻。回归问题需要预测连续变量的数值,比如预测新产品的销量,或者依据工作的描述预算工资水平等。与分类方式类似,回归问题需要监督学习。
       常见的无监督式机器学习任务是通过训练数据发现相关观测值的组别,称为类(clusters)。对应的 任务称为聚类(clustering),通过一些相似性度量方法把一些观测值分成同一类。聚类常用来分析 数据集。比如有一些影评数据,聚类算法可以分辨积极的和消极的影评。系统是不能给类加上“积  极”或“消极”的标签的;没有监督,系统只能通过相似性度量方法把观测值分成两类。聚类分析的应
用场景是用市场产品销售数据为客户分级。通过挖掘一组用户的共同属性,it视频网销售人员可以为这类客户提供定制服务。聚类还被用于互联网广播服务,比如有一些歌曲,聚类算法能够按风格流派把歌曲分组。通过不同的相似性度量方法,同样的聚类算法可能通过关键词来分组,也可能通过使用的乐器来分组。
       降维(Dimensionality reduction)是另一个常见的无监督学习任务。有些问题可能包含成千上万个解释变量,处理起来非常麻烦。另外,有些解释变量属于噪音,也有些完全是无边的变量,这些影响都会降低程序的归纳能力。降维是发现对响应变量影响最大的解释变量的过程。降维可以更容易的实现
       数据可视化。如不同面积房子的价格数据可视化,房子的面积可以画在x轴,其价格可以画在y轴,  很容易实现可视化。再加一个解释变量,也很容易可视化房屋价格的回归问题,比如房间里卫生间的数量可以画在z轴。但是,几千个解释变量的问题是不可能可视化的。