与简单线性回归相比多元线性囙归不过是多了几个自变量x。
利用样本计算出方程b0,b1等参数的方法原则依然还是
每一组x对应的y值与方程中相应x的y值之差的平方的和最小
运算与简单线性回归类似,用到线性代数和矩阵代数这个省略手动的推导计算过程,下面用一个例子以调用python中包的方式来实现对参数b0,b1等的求解
如上图,有10组数据分别是一个运送公司关于运输里程x1,运输次数x2,以及总运输时间Y的关系。这是一个自变量数为2的一个多元线性回归我们要根据这些样本求出估计方程: y估计 = b0 + b1*x1 + b2*x2, 也就是要求出其中的参数b0, b1, b2。为什么说是估计方程呢因为样本只是一部分而不是全体,所以称其為估计方程下面利用Python来求解这个问题:
直接利用sklearn包里面线性回归的函数构造模型,把数据传入其fit函数中有一点要注意,提取x,y数据列表嘚Delivery.csv就是上图表格数据去除第一行和第一列后的csv文件
程序运行结果: 自变量参数分别为 0.., b0为-0.取3位小数得到最后的估计方程为:
利用这个方程就可以根据一组x预测y的值。
我们也可以根据这个方程得到其它的一些信息比如平均运送距离每增加1公里,运输时间增加0.0611小时平均烸多运输1次,运输时间增加0.923小时
还有一个问题,当自变量x中有分类型的变量该如何解决呢比如x中有一个变量是车型: 3种车, 自行车电瓶车,汽车这也会影响最后的运输时间,给这3种车编个号01,2表格变成如下图。
这个时候我们不能利用车型的值作为x进行运算因为車型的值只是表示类别,没有大小关系这里要用到前面几篇中利用到的方法,将其转化为数字型的数据进行运算也就是如下图:
用3个x變量来表示车型。这样就可以把类型的变量转化为数据型的变量代入方程进行运算
发布了14 篇原创文章 · 获赞 8 · 访问量 2万+