2022-01-10 加载数据

加载样本数据

from sklearn import datasets

digits = datasets.load_digits()

features = digits.data #x

target = digits.target #y

'''

load_boston

包含 503 个波士顿房价的观察值。这是一个用于研究回归算法的优质数据集。

load_iris

包含 150 个鸢尾花尺寸的观察值。这是一个用于研究分类算法的优质数据集。

load_digits

包含 1797 个手写数字图片的观察值。这是一个用于研究图像分类算法的优质数据

集。

'''

数据仿真

回归

from sklearn.datasets import make_regression #回归仿真

features, target, coefficients = make_regression(n_samples = 100, n_features = 3, n_informative = 3,

n_targets = 1, noise = 0.0, coef = True, random_state = 1)

分类

from sklearn.datasets import make_classification #分类仿真

features, target = make_classification(n_samples = 100, n_features = 3, n_informative = 3, n_redundant = 0,

n_classes = 2, weights = [.25, .75], random_state = 1)

聚类

from sklearn.datasets import make_blobs #聚类

features, target = make_blobs(n_samples = 100, n_features = 2, centers = 3, cluster_std = 0.5, shuffle = True,

random_state = 1)

读取数据

csv

dataframe = pd.read_csv(url)

excel

dataframe = pd.read_excel(url, sheetname=0, header=1) #sheetname=[0,1,2, "Monthly Sales"]

json

dataframe = pd.read_json(url, orient='columns') #orient 文件结构

#json_normalize，它能将半结构化的 JSON数据转换为 pandas 的 DataFrame 类型

SQL

import pandas as pd

from sqlalchemy import create_engine

database_connection = create_engine('sqlite:///sample.db')

dataframe = pd.read_sql_query('SELECT * FROM data', database_connection)

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。