联系我们:010-88559646

  老师群

170086145

  学生群

179326524

209318323

215410234

客服电话:010-88559646

基于深度学习的企业实体识别

时间:2020-07-21        来 源:中国软件杯

 第九届中国软件杯大赛--A组赛题(第二批赛题)


赛题名称:基于深度学习的企业实体识别

组类:A 本科及以上

赛题简介:介绍整个赛题的实现目标、实用价值、涉及技术和整体要求

随着深度学习技术的发展,文字识别与自然语言处理近年来受到广泛关注。结合文字识别与自然语言处理技术解决传统方法无法处理的问题,成为企业提高自身竞争力的重要利器。
本赛题要求使用基于深度学习的文字识别与自然语言处理技术,识别商铺广告牌图片中的文字,从识别出的文字中提取出商铺名称。此系统涉及文字检测、文字识别、命名实体识别三种技术。

 

赛题业务场景:描述赛题相关的真实企业业务背景。从真实场景中,适当简化或者提炼出适合比赛的赛题场景

企业实体识别主要应用在我们目前业务系统中的查证功能。查证功能的主要作用是将用户拍摄的店铺照片经过OCR识别后进行店铺名称的提取,然后通过店铺名称查询证照库,获取该店铺办理过的所有证照信息,方便用户进一步了解该店铺。在日常应用中,例如外出就餐时利用我们的系统随手拍摄要就餐的饭店门脸,系统会自动检测该饭店证照是否齐全以及所办证照的详细信息,方便用户做出就餐决策。

参赛者可以用附件提供的50张图片作为测试数据,提取出文字信息后汇总进Excel作为交付文件,此外附件还包括一个txt文件,文件中每行表示每张图片的标准输出。

基本功能要求

1、程序能够自动读取图片所在的文件夹路径。

2、从图片文件夹路径中顺序取出图片进行识别。

3、能够尽可能识别出图片中的所有文字,接着从文字中精确识别商铺名称。

4、 最终的识别结果以一份汇总的Excel交付,格式如下: 

1595313269543333.png

 

非功能性要求

 1.程序源码要求结构清晰。

 2.建议但不强求使用人工智能领域深度学习技术进行实现,其中文字识别可参考github上AdvancedEAST与AttentionOCR算法。

 3.建议使用GPU(图形处理器)加速计算。 

实现条件:开发环境、实验平台、开发语言、数据库、编译器、涉及硬件等实现条件

  1.操作系统可选Windows、Linux。

2.开发语言推荐使用Python3。

3.推荐使用TensorFlow或Keras或Pytorch实现模型训练,但不限其它机器学习工具。

4.请标注系统中哪些部分使用了开源代码、模型及出处。

测试数据或平台:提供给参赛者的测试环境和测试数据。

提供50张图片作为测试数据,此外还包括一个txt文件,文件中每行表示每张图片的标准输出。图片&txt下载:企业实体识别数据.zip

文字识别训练数据可以从 https://rrc.cvc.uab.es/(https://rrc.cvc.uab.es/?ch=16&com=downloads、   http://rctw.vlrlab.net/dataset/)中下载,自然语言处理训练数据可以在文字检测训练数据的基础上自行标注,也可以从其它途径获取商铺名称数据集作为训练数据。
样例:

1595312066975028.jpg 

开发所需设备及设备指标需求说明

 暂无



 

文档及其他要求

评审要点

 

(1)文字检测模块20分;

(2)文字识别模块20分;

(3)自然语言处理(命名实体识别)35分;

4)综合25分,系统最终达到的准确率、程序运行速度、代码规范性等。

备注:文字检测与文字识别可以是端到端模型,合计40分。

 

初赛作品提交要求

 

参赛者需制作项目展示的演示视频(7分钟以内)以及每个模块的说明文档;源代码。


出题企业:浪潮云服务集团有限公司

答疑老师:吴老师  wuyunxiang@inspur.com

 



主办单位

工业和信息化部

教育部

江苏省人民政府

承办单位

中国电子信息产业发展研究院

江苏省工业和信息化厅

江苏省教育厅

教育部高等学校计算机类专业教学指导委员会

信息技术新工科产学研联盟

执行单位

中国信息化周报

南京江北新区产业技术研创园

江苏软件产业人才发展基金会

南京市软件和信息服务集群发展促进机构

南京航空航天大学

关于我们

客服电话:010-88559646

邮编:100048

联系地址:北京市海淀区紫竹院路66号赛迪大厦18层

网站备案/许可证号:京ICP备05039896号-10     京公网安备 11010802020860号