TOP

数据挖掘可视化技术
2014-02-17 15:39:06 来源: 作者: 【 】 浏览:15101
赛题简介:介绍整个赛题的思路和整体要求                        

思路: 
      大数据时代,通过数据挖掘,可以对数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从而提取辅助商业决策的关键性信息。但是,当前数据可视化工具的种类、质量和灵活性较大地影响了数据挖掘系统的使用、解释能力和吸引力。丰富而灵活的数据挖掘结果可视化技术使抽象的信息以简明的形式呈现出来,加深用户对数据含义的理解,更好地了解数据之间的相互关系和发展趋势。 
      数据可视化技术凭借计算机的强大处理能力以及计算机图像和图形学基本算法以及可视化算法把数据转换为静态或动态图或图形呈现在人们的面前,并允许通过交互手段控制数据的抽取和画面的显示,使隐含于数据之中不可见的现象成为可见,为人们分析、理解数据、形成概念、找出规律提供了强有里的手。可视化技术已经成为数据挖掘不可或缺的一部分。 
整体要求: 
    数据挖掘结果可视化将数据挖掘后得到的知识和结果用以某种图形表现出来,其表现形式及交互方式可以非常丰富。用图形来表示数据挖掘结果,能使用户轻松地理解数据挖掘得到的信息,发现其中隐藏的特征、关系、模式和趋势等。                

赛题业务场景:描述赛题相关的真实企业业务背景。从真实场景中,适当简化或者提炼出适合比赛的赛题场景                            数据挖掘按照其功能以及应用来划分,主要有:关联规则、分类、聚类、社会网络分析等,可以应用到企业决策分析和管理的各个不同领域和阶段。 
      关联规则是挖掘发现大量数据中项集之间有趣的关联或相关联系。关联规则挖掘的一个典型例子是购物篮分析。关联规则挖掘算法常常会产生大量的规则,使用户分析和利用这些规则变得十分困难。分类是数据挖掘一个非常重要的研究领域,其目的就是将大量的数据集划分成一些具有相同特征和属性的子集。聚类,就是将一个数据单位的集合分割成几个称为簇或类别的子集,每个类中的数据都有相似性。社会网络理论提供了一个崭新的视角来看待我们的社会,它视社会交往为一个网络图,图中有许多节点,节点与节点间有相连的线段,即社会连带。 
      不同的数据挖掘方法都有相应的数据可视化方式。用直观且有效的方式来解释和评价所要挖掘的数据以及挖掘任务的结果,包括数据可视化结果可视化。 
      在数据可视化部分,实现折线图、条形图、散点图等。 
      在数据挖掘结果可视化方面,采用二维矩阵显示单对单的关联规则结果,使用平行坐标显示多对多的关联规则结果;使用树型结构和分层显示的方法展现决策树的结果;饼状图和二维散点图相结合的方式实现聚类结果的可视化;社会网络图能快速而清晰地反映节点之间关系和强弱。
    此外,可以通过简单的交互操作实现图像的响应与移动、设置观察条件来过滤信息等操作。            
功能性需求                            主要是实现两个方面的可视化:数据可视化和数据挖掘结果可视化。数据可视化可以从数据源读入数据,能够对一维、二维和多维数据进行观察,以指导数据挖掘。结果可视化实现对关联规则、分类、聚类或社会网络分析中的至少1种分析结果进行可视化。系统应该包括以下功能: 
  (1)数据源类型选择(10分) 
      整个系统所要处理的数据存储在本地计算机上或可以通过关系数据库进行网络连接。文件类型可以是 EXCEL、XML、CSV、ARFF、PMML中的某几种,也可以是自定义的数据结构。数据类型包括数据可视化所要观察的数据和结果可视化所要观察的结果数据。 
  (2)数据转换(20分) 
      将获取的原始数据转换成各种可视化图形所需要的数据形式。对简单图形来说,所要表现的数据结构比较简单,只需要简单的预处理。对于某些复杂图形来说,必须设计并实现合理的数据结构来存储其数据。 
  (3)可视化类型及图形选择(50分) 
      列出可供选择的可视化类型,分别是数据可视化和挖掘结果可视化,以及可视化类型中待选的图形类型。用户选择相应图形后系统将以默认设置显示数据。 
      在数据可视化部分,实现折线图、条形图、散点图等类型,将原始数据或清洗后数据的分布情况与统计信息以图形方式直观呈现给用户。 
      在数据挖掘结果可视化方面,实现以下可视化技术中的至少1种:采用二维矩阵显示单对单的关联规则结果,使用平行坐标显示多对多的关联规则结果;使用树型结构和分层显示的方法展现决策树的结果;用饼状图和二维散点图相结合的方式实现聚类结果的可视化;用网状图形中节点、线等元素表现社会网络中的对象、关系、属性等数据。
  (4)交互操作(20分)
    用户可参照各图形页面上的选项自定义参数,选择缩放,排序,查询,选择子集显示等交互手段,更新图表显示结果。            
非功能性需求                              (1)将数据转换成图表、图形进行可视化展示、分析,界面友好,效果炫丽;(30分)
      (2)多布局分析:提供不同的布局方式,展现实体间的关联关系。支持如:分组布局、网状布局、环状布局、层次布局、雷达布局、弹性布局等某些布局方式;(20分)
      (3)可以在可视化操作平台中手工添加实体、连线,导入数据、导入图表,图表抓拍、打印等基础功能。(20分)
      (4)支持各种图表操作:包括图表拖拽、导入/导出、放大/缩小、实体链接关系收缩/展开、关键实体强调等。(10分)
      (5)产品支持多种开发语言,可以无缝的嵌入到应用系统之中,方便灵活的对应用系统功能进行扩展。(10分)
  具备以下特性还可以加分: 
    (1)三维图形界面的视觉表示,如三维图形界面中节点及连线的表现形式; (加10分)                (2)支持在移动终端设备上进行数据可视化;(加10分)
其他限制条件:开发环境、实验平台、开发语言、数据库、编译器等限制条件                            开发环境:不限 
    开发语言:不限 
    操作系统:Windows  XP/Windows 7/Windows 8/Linux            
测试数据或平台:提供给参赛者的测试环境和测试数据。(可提供电子档)                            可以使用UCI Machine Learning  Repository网站(URL: http://archive.ics.uci.edu/ml/datasets.html)或(http://pajek.imfm.si/doku.php?id=data:urls:index)提供的测试数据集进行分析,也可以使用参赛团队自行提供的数据进行测试。
其他要求                        

提交相关文档: 
      需求规格书:详细描述课题的功能与非功能需求; 
      系统设计说明书:详细描述软件的架构、设计理念、算法思路等; 
      测试文档:描述测试环境的搭建、准备的测试数据、测试方法等; 
      程序源代码:指未编译的按照一定的程序设计语言规范书写的程序代码,包括代码结构说明书。 
  评分标准: 
      评分以综合方案技术可行性、功能性要求的实现程度和非功能性要求的实现程序三个方面进行。分别占总分值的20%,40%,40%。既要考虑系统解决思路的方向性,也要考虑实现过程中的可实现性以及对技术方案的先进性。

关键字: 责任编辑:cnsoft
】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部
分享到QQ空间
分享到: 
上一篇基于SCORM标准的资源学习平台 下一篇含百万/千万图元的可缩放矢量图形..

相关栏目