实验1:基于Weka的典型数据挖掘应用[亲测有效]

实验1:基于Weka的典型数据挖掘应用[亲测有效]#一、实验目标 理解数据挖掘的基本概念,掌握基于Weka工具的基本数据挖掘(分类、回归、聚类、关联规则分析)过程。 #二、实验内容 下载并安装Java环境(JDK 7.0 64位)。 下载并安装Wek

实验1:基于Weka的典型数据挖掘应用

一、实验目标

理解数据挖掘的基本概念,掌握基于Weka工具的基本数据挖掘(分类、回归、聚类、关联规则分析)过程。

二、实验内容

  1. 下载并安装Java环境(JDK 7.0 64位)。
  2. 下载并安装Weka 3.7版。
  3. 基于Weka的数据分类。
  4. 基于Weka的数据回归。
  5. 基于Weka的数据聚类。
  6. 基于Weka的关联规则分析。

三、实验步骤

1.下载并安装Java环境(JDK 7.0 64位)

(1)搜索JDK 7.0 64位版的下载,下载到本地磁盘并安装。

(2)配置系统环境变量PATH,在末尾补充JDK安装目录的bin子目录,以便于在任意位置都能执行Java程序。

2.下载并安装Weka 3.7版

实验1:基于Weka的典型数据挖掘应用[亲测有效]

3.基于Weka的数据分类

(1)读取“电费回收数据.csv”(逗号分隔列),作为原始数据。

读取文件后,将一些对数据分析无用的属性删除。
首先,删除CONS_NO(用户编号),用户编号是用来标识用户的,对数据分析没用。
然后,发现TQSC(欠费时长)为YMD(年月日)与RCVED_DATE(实收日期)之差,故删去YMD与RCVED_DATE。
其次,CUISHOU_COUNT(催收次数)全为0,删去;YM(年月)对数据分析无用,删去。

(2) 数据预处理:

a)将数值型字段规范化至[0,1]区间。

在Filter中选择weka.filters.unsupervised.attribute.Normalize,进行归一化。归一化的数据如下图所示。

实验1:基于Weka的典型数据挖掘应用[亲测有效]

b)调用特征选择算法(Select attributes),选择关键特征。

评价策略使用CfsSubsetEval,它根据属性子集中每一个特征的预测能力以及它们之间的关联性进行评估。
搜索方法使用BestFirst。
得到两个关键特征,分别为RCVED_AMT(实收金额)与TQSC(欠费时长)。

实验1:基于Weka的典型数据挖掘应用[亲测有效]

(3)分别使用决策树(J48)、随机森林(RandomForest)、神经网络(MultilayerPerceptron)、朴素贝叶斯(NaiveBayes)等算法对数据进行分类,取60%作为训练集,记录各算法的查准率(precision)、查全率(recall)、混淆矩阵与运行时间。

对数据进行分类,首先要对其进行离散化。
在Filter中选择weka.filters.unsupervised.attribute.Discretize,进行离散化。

对数据分类,需要数据为Nominal类型,但此时IS_BAD还是Number类型,在Filter中选择weka.filters.unsupervised.attribute.NumericToNominal进行类型转换。

(a)决策树(J48)

查准率:0.838
查全率:0.807
混淆矩阵:实验1:基于Weka的典型数据挖掘应用[亲测有效]
运行时间:2.27s

(b)随机森林(RandomForest)

查准率:0.837
查全率:0.807
混淆矩阵:实验1:基于Weka的典型数据挖掘应用[亲测有效]
运行时间:67.04s

(c)神经网络(MultilayerPerceptron)

(d)朴素贝叶斯(NaiveBayes)

查准率:0.837
查全率:0.807
混淆矩阵:实验1:基于Weka的典型数据挖掘应用[亲测有效]
运行时间:0.57s

4.基于Weka的回归分析

(1)读取“配网抢修数据.csv”,作为原始数据。

读取文件后,将一些对数据分析无用的属性删除,如:YMD(年月日)、REGION_ID(地区编号)

(2)数据预处理:

a)将数值型字段规范化至[0,1]区间。

在Filter中选择weka.filters.unsupervised.attribute.Normalize,进行归一化。归一化的数据如下图所示。

实验1:基于Weka的典型数据挖掘应用[亲测有效]

b)调用特征选择算法(Select attributes),选择关键特征。

评价策略使用CfsSubsetEval,搜索方法使用BestFirst。
得到三个关键特征,分别为HIGH_TEMP(开始气温)、MAX_VALUE(负荷最大值)和MIN_VALUE(负荷最小值)。

实验1:基于Weka的典型数据挖掘应用[亲测有效]

(3)分别使用随机森林(RandomForest)、神经网络(MultilayerPerceptron)、线性回归(LinearRegression)等算法对数据进行回归分析,取60%作为训练集,记录各算法的均方根误差(RMSE,Root Mean Squared Error)、相对误差(relative absolute error)与运行时间。

对数据进行回归分析前,先进行离散化。
在Filter中选择weka.filters.unsupervised.attribute.Discretize,进行离散化。

(a)随机森林(RandomForest)

均方根误差:108.7096
相对误差:18.7344%
运行时间:0.41s

(b)神经网络(MultilayerPerceptron)

均方根误差:134.6398
相对误差:29.0789%
运行时间:0.76s

(c)线性回归(LinearRegression)

均方根误差:144.0997
相对误差:30.2385 %
运行时间:0.01s

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
转载请注明出处: https://daima100.com/7419.html

(0)
上一篇 2023-03-20
下一篇 2023-03-20

相关推荐

  • Python List如何转换成JSON格式数据?

    Python List如何转换成JSON格式数据?在这个数字化的时代,数据的重要性随着人类社会的发展而日益凸显。而在Python编程语言中,常常需要使用JSON进行数据交互。因此,把Python List转换成JSON格式数据是一项常见的任务。下面,我们将详细介绍Python List如何转换成JSON格式数据。

    2024-05-06
    13
  • 罗景:连接效率优化实践[亲测有效]

    罗景:连接效率优化实践[亲测有效]分享嘉宾:罗景 58同城 高级架构师 编辑整理:洪鹏飞 内容来源:DataFun AI Talk《连接效率优化实践》 出品社区:DataFun **导读:**本次分享由以下几个部分构成—— 58的业务

    2023-05-22
    99
  • mysql 添加分区_mysql分区利弊

    mysql 添加分区_mysql分区利弊分区: 分区也是MySQL优化中的一个重要方式 将一个表中的数据和索引,分散到不同的文件中进行存储 通常情况下,一个表,对应一组数据和索引文件,一个表的数据和索引集中存储在这组文件中 当一个表出现了大

    2023-02-04
    103
  • 在Ubuntu系统上安装StoneDB数据库[亲测有效]

    在Ubuntu系统上安装StoneDB数据库[亲测有效]今天我会进行StoneDB数据库在Ubuntu 22.04系统下的安装。 严格按照官方文档的步骤执行,看看能否顺利安装。 准备Ubuntu系统 我已在虚拟机中安装好了Ubuntu 22.04版本的系统

    2023-06-03
    97
  • Python字典键值对删除方法详解

    Python字典键值对删除方法详解在Python语言中,字典(dictionary)是一种基本的数据结构。字典是由键(key)和值(value)构成的一种无序的集合,键和值之间通过冒号“:”连接。不过,有时候我们需要从字典中删除某些键值对,以满足我们的需求。本文将从多个方面详细阐述Python中删除字典键值对的方法。

    2024-05-10
    11
  • MySQL乱码问题[通俗易懂]

    MySQL乱码问题[通俗易懂]1 概述 乱码问题,除了编码不对应应该没有别的原因了。可以先查看一下自己的编码,进行MySQL命令行,使用 status; 或 show variables like '%char%&ap…

    2023-03-01
    116
  • Python检查库版本的方法

    Python检查库版本的方法在python中,我们经常需要使用各种各样的库或者第三方模块来实现自己的功能。而这些库的版本是不断更新的,为了避免出现一些不必要的错误或者是兼容性问题,我们需要对这些库的版本进行检查。br
    本文将从多个方面详细阐述Python检查库版本的方法。

    2024-05-04
    9
  • 中国PostgreSQL认证考试,证书类别、考试科目、及格分数、报名方式

    中国PostgreSQL认证考试,证书类别、考试科目、及格分数、报名方式关于PostgreSQL数据库认证 PostgreSQL认证培训,由中国PG分会打造的中国PG培训认证是目前国内唯一的PG技术等级认证 ,填补了国内PG技术领域相关空白,这对PG培训乃至PG技术的发…

    2023-02-20
    104

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注