第十届中国软件杯大赛--B组赛题
赛题名称:非标准地址的标准化处理
组类:B组(高职)
决赛作品优化建议(2021年8月6日公布):
1、输出的测试结果保存成excel文件,数据格式参考《标准地址结构化数据样例.xlsx》。
数据格式为:
原地址名称 行政区划中文 街路巷中文 门牌号 门牌后缀中文 幢楼号 幢楼后缀中文 单元号 室号 室号后缀中文 地址类型
2、各类文档材料要更规范,内容要更加详实。PPT要突出项目的设计思路、创新之处(可选)及非标地址的标准化结果。
3、能否提升对“错误地址“类型非标地址的标准化处理结果,不强制要求。
官方答疑qq群:536673228
赛题简介:介绍整个赛题的实现目标、实用价值、涉及技术和整体要求 | 非标准地址的标准化处理 |
赛题业务场景:描述赛题相关的真实企业业务背景。从真实场景中,适当简化或者提炼出适合比赛的赛题场景 | 业务场景: 鉴于在大数据大融合的背景下,各个政府部门之间都在进行数据共享和数据交换,然而对于从其他部门交换来的数据中的地址信息(特别是:手写的快递包裹地址、公众主动填报信息中的地址等),很大可能性没有遵循统一的地址标准。为了能够对各类数据进行精准碰撞分析,以及将分析结果精准推送给相关地址的工作人员,所以需要将这些非标准地址转换标准地址。 本赛题在此大背景下,期望能够通过自然语言处理、规则匹配等技术进行非标地址的标准化处理,通信设备。 赛题场景: 参赛队伍基于大赛组织方提供的标准地址库和非标地址样本数据,设计出相关的匹配模型、开发出相关匹配算法,实现赛题中功能要求。 |
基本功能要求 | 1、标准地址分为:省、市、区县、街道、街路巷、楼门牌、楼栋、户室等基本信息。 2、非标准地址可能会出现的错误信息: 1)缺少省、市、区县等前置信息; 2)缺少街道、街路巷等中间信息; 3)出现小区名称的简写等; 4)出现错别字,如:栋(幢)等。 3、基于标准地址库的样本数据训练模型、挖掘地址匹配规则,从而匹配出准确的地址和最接近的地址。 |
非功能性要求 | 具备一定的性能优化设计,如并行、并发运行优化,自然语言处理性能优化、支持GPU运算加速。 |
实现条件:开发环境、实验平台、开发语言、数据库、编译器、涉及硬件等实现条件 | 1、Python、Java、C/C++等主流开发语言; 2、基于主流PC硬件运行(x86,x64),Linux操作系统,如Centos 6.x及以上,Ubuntu 16.x及其他内核与运行环境相兼容操作系统; 3、提供方便、简单的部署、运行脚本或说明,第三方依赖为官方安装包或官方认证仓库源,不依赖特定开发环境或定制设备。 |
测试数据或平台:提供给参赛者的测试环境和测试数据 | 将提供标准地址库和一定数据量的非标地址作为测试样本。对各参赛队伍提交的参赛作品进行验证时,将使用相同的验证集进行准确率与性能的测试。(如需测试数据,请发送邮件到cnsoftbei2021@skynj.com 申请) |
开发所需设备及设备指标需求说明 | 无其他设备需求 |
文档及其他要求 | 1、提供系统运行说明文档; 2、代码结构清晰,可读性强,可正常运行。 |
各评分项及大致占比 | 1、材料完整(20%) 提交的程序可运行(或有详实的演示录屏)、代码、文档完整清晰。 2、软件功能实现(40%)。 视功能是否完成进行评分。 3、系统运行准确性(30%) 按照对提供的非标准地址解析结果的准确性进行评分。 4、创新(10%) 功能完成的基础上,视算法创新性评定分数 |
初赛作品提交要求 | 源文件、可执行文件、相关设计和说明文档、ppt(包括:系统设计思路、代码架构思路、创新说明、运行效果等介绍)、演示视频(7分钟之内) |
【参赛团队作品中团队自主开发部分的软件作品著作权归参赛团队所有,其中具有市场应用及拓展的优秀作品,出题企业具有优先权,可以优先合作开发或者优先购买。另如基于该作品的任何合作升级开发、市场拓展等活动,以及在这一过程中所获得的任何商业费用,出题企业应与参赛团队协商解决。】
出题企业:中国擎天软件科技集团有限公司
官方答疑qq群:536673228
客服电话:010-88559646
大赛邮箱:cnsoftbei@qq.com
邮编:100048
联系地址:北京市海淀区紫竹院路66号赛迪大厦18层