机器学习数据集的基本概念

本文共668个字,预计阅读时间需要2分钟。

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。

——百度百科

下面是个人的理解


数据集名称GLIOMA

GIOMA包含两个矩阵,一个是实例矩阵(ins),另一个是标签矩阵(lab)

Ins矩阵大小50*4434,说明该GLIOMA数据集有50个实例(样本),有4434个特征,这50个实例(样本),每一个实例有一个对应的标签lab,标签就是类别。

打开Ins矩阵,有50行说明有50个实例(样本),有4434列说明有4434个特征(太多了显示不了),这里面的任意一个值(标量)叫做特征值,任意一列是特征向量(列向量),任意一行是实例向量(行向量)

打开lab矩阵

有50个标签,标签就是类别(比如1代表幼儿,2代表青年,以此类推),可以看到这是一个具有4个类别的数据集。


另外不要把实例与个体混淆,实例单指数据集中(原空间),实例的个数一般是不变的。个体是作为演化计算算法中的种群来说的,可以根据自己的喜好设置个体数量。比如PSO算法中的个体就是粒子。实例与个体有一点相似就是特征数(维度)相同。


数据集的下载(从UCI下载):

http://archive.ics.uci.edu/ml/index.php

当然下载的数据集可能标签和特征是放在一起的可以自己分开

读者评分
[评分人数: 3 平均分: 3.7]

1 位极客 “机器学习数据集的基本概念

评论