机器学习:软件工程方法与实现
上QQ阅读APP看书,第一时间看更新

3.3.3 回归模型随机数据生成

make_regression函数的主要参数如下所示。

·n_samples:样本数量,默认值100。

·n_features:特征个数,默认值20。

·n_informative:信息特征的个数,默认值2。

·n_targets:回归目标的数量,默认值1。

·bias:线性模型中的偏差项,默认值0。

·noise:高斯分布的标准差,默认值0。

·coef:是否返回回归系数,默认值False。

·shuffle:随机打乱样本,默认值True。

·random_state:随机数种子,默认值None。

使用make_regression在Jupyter Notebook环境生成分类模型随机数据代码案例如下:


import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_regression

# X为样本特征,Y为样本类别输出,共1000个样本,每个样本3个特征,返回回归系数
X,Y,coef=make_regression(n_samples=1000,n_features=3,noise=10,
coef=True,random_state =20)
plt.scatter(X[:, 0],Y,c='b',s=3)
plt.plot(X[:, 0],X[:, 0]*coef[0],c='r')
plt.show()

输出如图3-4所示。

图3-4 回归模型随机数据散点图