TOP

比赛题目一:聚焦搜索引擎
2011-12-12 10:10:05 来源: 作者: 【 】 浏览:25217
 比赛题目一:
 
 
聚焦搜索引擎
 
 
赛题简介:介绍整个赛题的思路和整体要求
 
随着各种B2C、C2C、B2B的网站的成长和各种测评网站的建设。足不出户的网络购物已然成为大家生活中的一部分。但是随之而来想要从各种网站中找到最好、最划算的商品也非常困难。所以提供一个高质量的在线商品搜索平台无疑会为网络购物带来更好的未来。虽然用户可以通过Google、百度、Yahoo等通用搜索引擎,在海量的网络数据中取得一些信息。但是通用性搜索引擎也存在着一定的局限性,如:   
  1. 不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的信息。   
  2. 通用搜索引擎的目标是尽可能大的网络覆盖率,有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。  
  3. 万维网数据形式的丰富和网络技术的不断发展,图片、数据库、音频/视频多媒体等不同数据大量出现,通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力,不能很好地发现和获取。
  4. 通用搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查询。
为了解决上述问题,定向抓取相关网页资源的聚焦爬虫应运而生。聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。与通用爬虫不同,聚焦爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。
 
赛题业务场景:描述赛题相关的真实企业业务背景。从真实场景中,适当简化或者提炼出适合比赛的赛题场景
传统网络爬虫是一个通过网络,自动下载网页信息,并未搜索引擎提供信息来源的一个重要组成部分。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。在这个过程中对于URL的来源和内容不做强制性的要求,统一的提取关键字建立索引以备搜索引擎使用。
聚焦爬虫的特点从“聚焦”两字便可以体现,它的搜索和下载会只针对特定的信息和网站。需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。并会针对抓去的页面按照所需的信息进行分析、过滤,提取出有用的信息并建立相关索引。在后续的分析过程中得出的信息,将为后续的抓取过程给出反馈和指导。
针对目前各大网络购物平台的数据,提供一个聚焦于出售商品的网络爬虫无疑会为网络用户的购物行为带来更友好的搜索和对比。最终让用户能用最快的时间找到最合适的商品。
 
功能性需求
  1. 对网络上的各种商品建立统一数据模型
能够针对目前各种购物平台和测评网站给出的复杂信息,建立一套适用于各种不同类型商品的数据模型。如,笔记本电脑存在属性:品牌、CPU主频、内存、硬盘、电源、屏幕尺寸、操作系统、显卡、电池类型、重量等;服装存在属性:品牌、款式、尺码、颜色、面料、风格、季节等。对比笔记本和服装可以看出,不同类型的商品的属性数量和含义都各不相同,且存在较大的差异。
考核标准:  
  • 建立统一的数据模型存储数据(必须完成):统一的数据模型是通过多张表能够描述各种类型商品的基本属性,而不需要针对每种商品建立不同的存储表。
  • 模型的可扩展性(可选):可以方便的在模型中添加商品属性,而不需要大量重构表结构。
  • 模型的存取性能(可选):在保证前两点的基础之上,提升该数据模型存取数据的速度。
  • 对网页和数据的分析过滤
能够在指定的网页入口(如:http://www.taobao.comhttp://mobile.pconline.com.cn )中通过爬虫按照1中建立的模型分析商品的有效信息(基本属性),并保存相应数据信息。如:淘宝网针对某个商品的描述,除了基本属性外还包括了一些详细描述、商家信息、成交记录、付款方式等。我们需要剔除除了商品信息以外的部分,做到准确分析。
考核标准:
  • 可以自行设置网页入口(必须完成)
  • 准确找到网页中的属性信息(必须完成):如:下图中只有红色部分的信息为有效的商品信息。而针对退货说明等对于商品信息的建立是不需要分析处理的。
     

 


  • 利用商家其他信息指定搜索策略(可选):如部分商家的信誉等级较高(皇冠)、商品出货量较大,则认为该商家的商品信息较为可信,提高该商家的所有商品信息的爬取等级,重点爬取。反之如果一个商家评价较差、且几乎没有更新、没有成交,则认为商家的商品信息可信度不高,降低该商家等级,遇到该商家的URL可以放弃。
  • 针对网页分析结果和数据的展示
通过用户输入搜索关键字,可以展示用户所搜索的商品的相关信息。
考核标准:
  • 根据关键字,搜索商品信息,提供商品展示界面(必须完成)。
  • 展示商品价格、评价等信息(可选),如:近期商品的价格趋势图、购买数量趋势图等。
  • 提供商品的横向、纵向关联信息展示(可选),如:搜索HP EliteBook 6930P笔记本电脑,可以将相似属性(与该商品相同的价格区间、品牌、配置等信息)进行扩展展示。要求展示方式新颖、直观。
非功能性需求  
其他限制条件:开发环境、实验平台、开发语言、数据库、编译器等限制条件 对具体开发环境和语言不做要求。
测试数据或平台:提供给参赛者的测试环境和测试数据。(可提供电子档) 可自行选用http://www.taobao.comhttp://mobile.pconline.com.cn等主流网购和评测网站作为数据来源。
其他要求  

关键字: 责任编辑:cnsoft
】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部
分享到QQ空间
分享到: 
上一篇比赛题目二:时空数据的有损压缩.. 下一篇没有了

相关栏目