近期,搜狐旗下独立品牌搜狗搜索对搜狗实验室升级至二期。升级后的搜狗实验室,应网民和行业人士的需求,提供了学术论文资源共享,并公布了最近发表在国内外权威期刊与学术会议上的五篇论文。据了解,这几篇论文都是搜狐公司研发中心与清华大学智能技术与系统国家重点实验室合作研究的科研成果,是之前学术界不公开信息,这些文章无一例外的使用了搜狗实验室的语料和产品资源。
搜狗实验室二期一经推出,立即引起了清华、北航等国内一流高校师生的强烈关注,同时也得到了搜索引擎的从业人员和研究人士的普遍认可。
据悉,搜狗实验室在正式上线后的短短数月内,实验室的搜索引擎资料下次数已超过万次。这些被同行认为是机密的科研成果,搜狗实验室无偿的与业内研究人员和热爱搜索行业的有志者共同分享,以促进学术界的良好互动。搜狗实验室二期,还首次提供了互联网语料对应的链接关系库和互联网图片库共享。
互联网语料对应的链接关系库一直是搜索引擎相关研究人员重点关注的研究对象,在2006年11月份公布4000万页面对应的互联网语料库Sogou T之后,搜狗实验室已经接受了十几家研究单位的数据复制请求。为了进一步方便相关研究人员使用这部分语料资源,这次实验室二期的推出专门提取了对应互联网语料库Sogou T的链接关系库。这使得利用这部分数据尝试构建自己的“Page Rank”算法成为可能。
互联网新闻语料库对应的链接关系库一直是自然语言处理研究人员关注的对象,无论是文本分类,还是主题跟踪检测之类的研究项目,都离不开大规模的新闻语料库支持。搜狗实验室这次推出的语料库产品,来源于近5年来搜狐网新闻频道收集的近40万条科技新闻,其中相当一部分还含有编辑手工标注的关键词和分类信息。由于来源十分权威资料十分全面,这部分语料不仅可以供上述研究人员使用,而且也是中国科技发展在互联网上的一种忠实地反映与记录。
互联网图片库是图片检索核心研发成员精心制作的产品,其中不仅包括了十几万张图片的原始图片、缩略图,还包括了利用搜狗核心技术自动标注的关键词、描述文字等信息。除研究图像检索的研究人员之外,一般的技术爱好者也可以利用这个资源构建自己互联网图片库,丰富自己的设计素材。
搜狐公司副总裁王小川表示:搜狗实验室未来的一个方向是公开更多的搜索相关数据、资料和研究成果,并且利用这些成果包装出更多的创意产品,促进网友对搜索技术的理解和兴趣,并与各大研究机构共勉,推进搜索技术的发展和应用。