并行大数据挖掘工具箱-DODO
- 成果编号
- 09941
- 完成单位
- 南京大学
- 完成时间
- 2014年
- 成熟程度
- 试生产阶段
- 价格
- 面议
- 服务产业领域
- 电子信息
- 单位类别
- 985系统院所
科技计划 | 成果形式 |
---|---|
新技术、新产品 | |
合作方式 | 参加活动 |
技术转让、技术开发、技术咨询、技术服务、技术入股 |
|
专利情况 | |
正在申请 ,其中:发明专利 6 项 |
综合介绍 |
---|
DoDo工具箱研究并解决基于云计算平台的数据挖掘任务的重大关键问题,并同时实现基于云计算的大数据挖掘关键技术及应用平台,具体来说实现三个目标:通过对Hadoop系统进行封装,提供了一套用户友好的基于图形化界面的软件系统;提供了一套基于Hadoop框架的数据挖掘并行化算法;提供一个可扩展的易于使用的海量数据挖掘算法平台,开发者使用该平台进行面向大数据挖掘算法开发,并且进一步处理大数据。 |
创新要点 |
本工具箱的关键技术和创新点有四个:为Hadoop系统提供图形化界面,对大数据算法开发人员屏蔽底层的Hadoop系统命令系统细节,使得他们可以专注于大数据的处理,并且通过数据可视化扩展模块让开发人员更加方便的通过图形化的方式观测数据;为大数据建立元数据管理系统,大数据处理是以数据为核心的,而海量数据管理和传统数据管理又有很大的不同,本工具箱针对大数据的特性,提供基于xml文件的元数据和实体数据的结构化管理方式,从而用户可以方便的对数据进行查询等相关操作;本工具箱针对大数据处理并行化的需求,对常用的数据挖掘算法进行了并行化;本工具箱应用MVC变成架构开发,软件具有良好的模块化特征,具有良好的可扩展性和可维护性。Hadoop是成熟的大数据处理系统,而本工具箱的作为大数据处理和算法开发平台也具有良好的普适性,所以可以无缝的和很多具有大数据处理需求的业务相融合。 |
技术指标 |
1. 基本算法:WordCount,TF-IDF,排序,距离计算(Euclidean, Manhattan); 2. 聚类:K-means,Canopy,Graph Mining(the Shortest Path); 3. 分类与预测: KNN,Naive Bayesian,SVM,BP Neural Network 、Locally-Weighted、Linear Regression(LWLR) 、Logistic Regression; 4. 关联规则:Apriori 5. 协同过滤:User-Based Collaborative Filtering(CF),Item-Based CF 6. 中文处理:分词(具有新词学习和词库扩充功能) 7. 网页解析:VIPS,DOM-Tree,PageRank,InvertedIndexing 8. 数据管理:上传、删除、修改。 9. Hadoop平台管理:启动、关闭。 10. 算法管理:选择算法、修改算法参数。 任务提交。 任务进度显示。 |
其他说明 |
姓名 | 对接成功后可查看 | 所在部门 | 对接成功后可查看 |
---|---|---|---|
职务 | 对接成功后可查看 | 职称 | 对接成功后可查看 |
手机 | 对接成功后可查看 | 对接成功后可查看 | |
电话 | 对接成功后可查看 | 传真 | 对接成功后可查看 |
邮编 | 对接成功后可查看 | 通讯地址 | 对接成功后可查看 |
姓名 | 对接成功后可查看 | 所在部门 | 对接成功后可查看 |
---|---|---|---|
职务 | 对接成功后可查看 | 职称 | 对接成功后可查看 |
手机 | 对接成功后可查看 | 对接成功后可查看 | |
电话 | 对接成功后可查看 | 传真 | 对接成功后可查看 |
邮编 | 对接成功后可查看 | 通讯地址 | 对接成功后可查看 |