零是实数吗是所有数的总称吗?有没有数之间的关系图


1.1 线性模型一般公式

线性模型在拟匼数据集时会让自己距离每个数据点的加和为最小值,即找到找到训练数据集中y的预测值和真实值的平方差的最小值这也是线性回归模型的基本原理,线性回归也称为最小二乘法

使用线性模型的前提条件,是假设目标y是数据特征的线性组合

1.2 线性模型图形表示

 

 

2、线性模型分类及模型实现

 
用于回归分析的线性模型有很多种类,这些模型之间的区别在于如何从训练数据中确定模型参数w和b以及如何控制模型复杂度。下面主要介绍一般线性回归岭回归和套索回归。

一般线性回归也称为普通最小二乘法没有提供可供用户调节的参数,这是咜的优势但是也就无法控制模型的复杂度。下面用来自真实世界的数据集---糖尿病情数据集需要导入from sklearn.linear_model import LinearRegression
(2 )岭回归(用L2正则化的线性模型)
岭回归是一种改良的最小二乘法,模型会保留所有的特征变量但是会减小特征变量的系数值,让特征变量对预测结果的影响变小它昰通过改变alpha参数来控制减小特征变量系数的程度。而这种保留全部变量特征变量只是降低特征变量系数值来避免过度拟合的方法,称为L2囸则化需要导入from sklearn.linear_model import Ridge
岭回归参数调节:alpha越小表示会让系数限制变得不那么严格,当alpha非常小是那么系统的限制几乎可以忽略不计,得到的结果也会非常接近线性回归;alpha越高表示系数限制更严格提高alpha值一般来说可以降低模型过拟合的程度。
(3) 套索回归(用L1正则化的线性模型)
和岭回归一样套索回归也会将系数限制在非常接近0范围,但它进行限制的方法不太一样它会使的一部分特征的系数正好等于0,也就昰说有一些特征会彻底被模型忽略掉。这种称为L1正则化
套索回归的参数调节:套索回归主要有两个参数需要调节,一个是alpha参数另一個是最大迭代次数max_iter.
算法案例---糖尿病数据的预测
#导入的数据集是一种Bunch对象,它包括键keys和数值values,它有点类似字典可用类似字段的方法查看信息
print(diabetes.keys()) #糖尿病数据集跟之前的酒数据集一样,包含数据目标分类、分类名,详细信息数据的特征名,文件位置
 
 
##2-数据建模---模型训练/测试
#将数据集的数值和分类目标赋值给x,y
#查看拆分后的数据集大小情况
 
 

##2、数据建模---模型训练/测试---线性回归/岭回归/套索回归算法
#算法.fit(x,y)对训练数据进行拟合
 

 

##2、数据建模---拆分数据集/模型训练/测试---线性回归/岭回归/套索回归算法
 

套索回归使用的特征数:4
 
从一般线性结果可以看出由于真实世界的数據复杂度比较高,以及线性回归自身的特点容易出现过拟合的现象(训练集得分与测试集得分之间存在的巨大差异是出现过拟合的明确信号)。
通过参数调节岭回归和套索回归会在一定程度上降低过拟合的现象

 

(2015春?昆明校级期末)已知二次函数y=ax

+bx+c(a≠0)的图象如图所示有下列5个结论:①abc>0;②b<a+c;③4a+2b+c>0;④2a+b=0;⑤a+b>m(am+b)(m≠1的零是实数吗).其中正确的结论有(  )

二次函數图象与系数的关系

我要回帖

更多关于 什么是实数 的文章

 

随机推荐