TOP

智能问答系统设计与开发
2018-02-08 16:27:47 来源: 作者: 【 】 浏览:18426

第七届大赛--A组赛题


本赛题于2018.6.1修改了部分内容,请大家留意赛题中彩字部分!


赛题名称: 智能问答系统设计与开发

组类: A 本科及以上   

赛题简介:介绍整个赛题的思路和整体要求

智能客服系统是在大规模知识处理基础上发展起来的一项面向行业应用的,适用大规模知识处理、自然语言理解、知识管理、自动问答系统、推理等技术行业。

   针对自动问答系统,我们希望开发一套智能问答系统,该系统能够基于给定文档,提取知识并自动生成问答知识库,并能现问答系统(前、后台功能)基本能力。

赛题业务场景:描述赛题相关的真实企业业务背景。从真实场景中,适当简化或者提炼出适合比赛的赛题场景

知识库是智能客服/智能问答系统的关键竞争力之一,高质量的知识库构建是业界难题之一。目前业界大部分智能客服的知识库(QA对\问答对)构建都是通过人工构建,一个完善的知识库构建,需要耗费大量的人力。迫切需要有一套自动化方案,能够根据给定的文档(如产品手册、案例文档、用户指南等)等自动构建知识库(QA对)。

功能性需求

本次智能问答系统设计,分为前台、后台、知识库构建三个主要功能模块,其中前台是为问答操作提供界面,后台实现产品文档录入、知识库管理以及与前台通信、知识库构建根据录入文档实现“QA对”自动化生成。

    1、后台:请设计一个程序从文档中提取尽可能多且质量高的问答对,问题可以是由主题、关键词、短语构成,答案可以直接一个段落活语句组成。

    1)文档:格式html,数量大概是5w左右,所有文档类型都是用户指南、常见问题、产品手册

    2)知识库QA对格式:

   Q: 弹性云服务器的价格怎么计算的?

    A: 我们有按需、包年/包月两种计费方式,您可以根据您的实际情况选择不同的计费方式。

    Q: ……

    A: ……

  3)知识库管理:实现基本QA对删除、增加、查询等操作功能


2、前台:请设计一个程序,实现QA对话界面,该界面可以基于用户提问,自动连接后台、并从知识库寻找答案,并呈现给用户,前台问题可以是由主题、关键词、短语构成。


3、知识库构建:请设计一个程序,实现根据录入文档自动化生成知识库“QA对”,在尽可能多的提取问答对的前提下,使得问题的质量更高同时答案更准确,知识库内QA对不允许出现两个相同的问题。本部分为本赛题核心考察点:核心考察知识库实现准确性(详见任务评价指标),实现方法不限,可选择使用以下三种方式:

1)基于规则的QA对生成

2)基于NLP方法的QA对生成

3)基于机器学习/深度学习的QA对生成


注:基于NLP的QA对生成,建议考虑一下技术点:

1)文档结构树,主题/段落/语句分割

2)实体提取、关键词提取、语义特征提取

3)语句结构分析:同位语结构、动词修饰名词结构、句型分析

4)摘要提取、语句压缩和融合

5)问题模式分类

6)问题生成(语义模板法、ML生成法、深度学习)

7)问句泛化:关键词替换

8)句法转化:WH移动、主谓倒置等将陈述句转换为问句

9)问题语义完成度分析

10)文本阅读理解模型

非功能性需求

  1. 整个系统应该能比较快的响应,前、后台应该可以流畅使用。

  2. UI的设计应该符合常规的使用习惯。

  3. 需要提供完善的文档说明,如系统设计文档、知识库构建核心规则或算法设计文档等。

其他限制条件:开发环境、实验平台、开发语言、数据库、编译器等限制条件(请尽量明确)

1.  

知识库构建方法,如需使用机器学习、深度学习算法时,可选择使用华为云机器学习服务、深度学习服务

华为云机器学习服务介绍:

https://www.huaweicloud.com/product/mls.html

华为云深度学习服务介绍:

https://www.huaweicloud.com/product/dls.html 


2018年6月15日前,提供一批免费资源,先到先得,可发邮件申请

jinbo0726@163.com


2.   前、后台采用服务器端+移动端模式,服务器端可为Web服务器,移动端为APP(Android、IOS不限,一种即可)

测试数据或平台:提供给参赛者的测试环境和测试数据。

(可提供电子档)

1、测试数据和平台:

1)提供开发和测试所需的原始产品文档及验证所需配套QA对(测试数据于18年3月初提供)

2)允许使用选手通过其他数据训练调优模型


2、任务评价指标

1)前台+后台基本功能实现、文档:50%

2)知识库构建效果:50%

赛题评价时,使用另一组N测试文档以及若干个备选的QA对,测试知识库构建情况,主要评价标准如下:

a)命中问答对数:给定问题答案集合,在完全匹配的情况下,命中问题数/程序已挖掘问题数计算得分。占70%。

       b)答案准确度:在没有匹配问题情况下,根据问题答案合理性情况,BLUE指标得分。占30%。

开发所需设备及设备指标需求说明

其他要求



测试数据下载:http://www.cnsoftbei.com/upload_files/other/znwdxtsjykf_cssj.rar


word版赛题下载

智能问答系统设计与开发.doc



答疑老师联系方式:

金波 jinbo0726@163.com






关键字: 责任编辑:cnsoft
】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部
分享到QQ空间
分享到: 
上一篇可信数字资产存证应用 下一篇网店工商信息图片文字提取

相关栏目