网站地图 万年历全能搜所公交查询
网站地图   万年历   全能搜所  公交查询
  • 您的位置 【搜联科技】 >> 网站优化(SEO) >> 搜索引擎技术及趋势
  • 搜索引擎技术及趋势

  • 作者:  来源:  日期:2007-3-20 10:58:46
  • 广告位招租,广告代号:page_txt_a
  •   召回率是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统(搜索引擎)的查全率;精度是检索出的相关文档数与检索出的文档总数的比率,衡量的是检索系统(搜索引擎)的查准率。对于一个检索系统来讲,召回率和精度不可能两全其美:召回率高时,精度低,精度高时,召回率低。所以常常用11种召回率下11种精度的平均值(即11点平均精度)来衡量一个检索系统的精度。对于搜索引擎系统来讲,因为没有一个搜索引擎系统能够搜集到所有的WEB网页,所以召回率很难计算。目前的搜索引擎系统都非常关心精度。

      影响一个搜索引擎系统的性能有很多因素,最主要的是信息检索模型,包括文档和查询的表示方法、评价文档和用户查询相关性的匹配策略、查询结果的排序方法和用户进行相关度反馈的机制

    三、主要技术

     一个搜索引擎由搜索器、索引器、检索器和用户接口等四个部分组成。

     1.搜索器

      搜索器的功能是在互联网中漫游,发现和搜集信息。它常常是一个计算机程序,日夜不停地运行。它要尽可能多、尽可能快地搜集各种类型的新信息,同时因为互联网上的信息更新很快,所以还要定期更新已经搜集过的旧信息,以避免死连接和无效连接。目前有两种搜集信息的策略:

     ● 从一个起始URL集合开始,顺着这些URL中的超链(Hyperlink),以宽度优先、深度优先或启发式方式循环地在互联网中发现信息。这些起始URL可以是任意的URL,但常常是一些非常流行、包含很多链接的站点(如Yahoo!)。

     ● 将Web空间按照域名、IP地址或国家域名划分,每个搜索器负责一个子空间的穷尽搜索。

     搜索器搜集的信息类型多种多样,包括HTML、XML、Newsgroup文章、FTP文件、字处理文档、多媒体信息。

     搜索器的实现常常用分布式、并行计算技术,以提高信息发现和更新的速度。商业搜索引擎的信息发现可以达到每天几百万网页。
    2.索引器

     索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。
      索引项有客观索引项和内容索引项两种:客观项与文档的语意内容无关,如作者名、URL、更新时间、编码、长度、链接流行度(Link Popularity)等等;内容索引项是用来反映文档内容的,如关键词及其权重、短语、单字等等。内容索引项可以分为单索引项和多索引项(或称短语索引项)两种。单索引项对于英文来讲是英语单词,比较容易提取,因为单词之间有天然的分隔符(空格);对于中文等连续书写的语言,必须进行词语的切分。
     在搜索引擎中,一般要给单索引项赋与一个权值,以表示该索引项对文档的区分度,同时用来计算查询结果的相关度。使用的方法一般有统计法、信息论法和概率法。短语索引项的提取方法有统计法、概率法和语言学法。

  • 广告位招租,广告代号:page_txt_b
  • 上一篇:你今天被封杀了吗?
    下一篇:搜索引擎垃圾技术--优化篇

Copyright © 广州网站建设广州网页设计,广州虚拟主机,广州域名注册,广州网站推广版权所有 2000-2008 广州搜联网络科技有限公司 
地址:广州市龙口西路219号聚龙大厦2005  电话:020-85626511  85626911    传真:85626911    邮箱:umum@163.com
广州搜联网络科技有限公司专业从事:网站建设,网页设计,搜索引擎优化,网站推广等服务。让客户更有效的利用信息技术,从中获得更大的社会效益和经济利益。