为您提供网站建设行业资讯、网站优化知识、主机域名邮箱、网站开发常见问题等
搜索引擎对网站内容的提取
发表日期:2015-03-28 资讯来源:佰牛科技 浏览:141

搜索引擎建立网页索引,处理的对象是文本文件。对于网络蜘蛛来说,抓取下来网页包括各种格式,包括html、图片、doc、pdf、多媒体、动态网页及其它格式等。这些文件抓取下来后,需要把这些文件中的文本信息提取出来。准确提取这些文档的信息,一方面对搜索引擎的搜索准确性有重要作用,另一方面对于网 络蜘蛛正确跟踪其它链接有一定影响。 对于doc、pdf等文档,这种由专业厂商提供的软件生成的文档,厂商都会提供相应的文本提取接口。网络蜘蛛只需要调用这些插件的接口,就可以轻松的提取文档中的文本信息和文件其它相关的信息。
HTML等文档不一样,HTML有一套自己的语法,通过不同的命令标识符来表示不同的字体、颜色、位置等版式, 提取文本信息时需要把这些标识符都过滤掉。过滤标识符并非难事,因为这些标识符都有一定的规则,只要按照不同的标识符取得相应的信息即可。但在识别这些信 息的时候,需要同步记录许多版式信息,例如文字的字体大小、是否是标题、是否是加粗显示、是否是页面的关键词等,这些信息有助于计算单词在网页中的重要程 度。同时,对于HTML网页来说,除了标题和正文以外,会有许多广告链接以及公共的频道链接,这些链接和文本正文一点关系也没有,在提取网页内容的时候, 也需要过滤这些无用的链接。例如某个网站有'产品介绍'频道,因为导航条在网站内每个网页都有,若不过滤导航条链接,在搜索'产品介绍'的时候,则网站内 每个网页都会搜索到,无疑会带来大量垃圾信息。过滤这些无效链接需要统计大量的网页结构规律,抽取一些共性,统一过滤;对于一些重要而结果特殊的网站,还需要个别处理。这就需要网络蜘蛛的设计有一定的扩展性。
对于多媒体、图片等文件,一般是通过链接的锚文本(即,链接文本)和相关的文件注释来判断这些文件的内容。例如有一个链接文字为'张曼玉照片',其链接指 向一张bmp格式的图片,那么网络蜘蛛就知道这张图片的内容是'张曼玉的照片'。这样,在搜索'张曼玉'和'照片'的时候都能让搜索引擎找到这张图片。另外,许多多媒体文件中有文件属性,考虑这些属性也可以更好的了解文件的内容。
动态网页一直是网络蜘蛛面临的难题。所谓动态网页,是相对于静态网页而言,是由程序自动生成的页面,这样的好处是可以快速统一更改网页风格,也可以减少网 页所占服务器的空间,但同样给网络蜘蛛的抓取带来一些麻烦。由于开发语言不断的增多,动态网页的类型也越来越多,如:asp、jsp、php等。这些类型的网页对于网络蜘蛛来说,可能还稍微容易一些。网络蜘蛛比较难于处理的是一些脚本语言(如VBScript和JavaScript)生成的网页,如果要完 善的处理好这些网页,网络蜘蛛需要有自己的脚本解释程序。对于许多数据是放在数据库的网站,需要通过本网站的数据库搜索才能获得信息,这些给网络蜘蛛的抓 取带来很大的困难。对于这类网站,如果网站设计者希望这些数据能被搜索引擎搜索,则需要提供一种可以遍历整个数据库内容的方法。
对于网页内容的提取,一直是网络蜘蛛中重要的技术。整个系统一般采用插件的形式,通过一个插件管理服务程序,遇到不同格式的网页采用不同的插件处理。这种 方式的好处在于扩充性好,以后每发现一种新的类型,就可以把其处理方式做成一个插件补充到插件管理服务程序之中。
- 内容标签:
- 搜索引擎
- 网站内容的提取
- p2p网站建设
- 网站开发建设
- 网页建设公司
- 上一条:网站页面的重定向知识
- 上一条:E-mail电子邮件地址的组成
- 相关资讯
-
联系我们-新盛娱乐客服开户注册电话15559858555
首页-新盛娱乐公司-电话【15559858555】【微信】新盛公司微同步【在线客服-15559858555】开户电话-客服开户-热线开户-咨询-联系-代理开户-在线开户-开户网址-注册开户-开账号-开会员
日期:2025-06-25 浏览:100 -
浅谈Seo工作中执行力的重要性
总的来说’PDCAR法则”就是制定好计划马上实施,计划实施完毕后,将整个计划执行的过程回顾一遍,仔细考虑每个细节,确认哪些部分成功了,哪些部分是失败的。
日期:2016-05-16 浏览:120 -
SEO大牛是如何“原创”网站文章的?
首先是收集长尾关键词,你可以去百度指数、百度相关搜索栏、百度知道问答或者软件等等地方收集到长尾关键词。有一点要注意的是,我们收集好关键词后要进行整理,把明显不相关的长尾词筛选,比如搜索钢管时会出现"钢管舞"这跟做钢管这一产品词没有帮助。
日期:2016-05-16 浏览:123 -
外链建设如何影响网站关键词排名
再次是外链的相关性远比数量重要,很多SEOER做外链基本不注重相关性,在他们看来,只要悬挂外链的网站有高权重即可,并且觉得外链做的越多越好,也就是说十分注重外链的数量,忽略的质量。
日期:2016-05-16 浏览:122 -
如何识别SEO中的水货?
百科中原理写的是向百度发送数据包。大哥,你发了也得人家接收执行才行。这边如果写成『缓存溢出可执行漏洞』,那还具有一定可行性。而忽悠大师是不会这么深入研究的,他们最擅长的就是抛出一套理论,让你觉得很高深,很有效,其实具体怎么执行,往往他们都说不出个所以然来。
日期:2016-05-16 浏览:120 -
精简优化代码是做好SEO优化必须的一个步骤
尽量采用局您的页面,局的益处是让搜索引擎爬虫能够更顺遂的、更快的、更友好的爬完您的页面局还可以年夜量缩减网页巨细,这在SEO优化工作中起到很大的浸染,不仅提高浏览的速度,更使得代码更精练、流利、更轻易放置更多内容。
日期:2016-05-16 浏览:121 -
对于于门第上网站seo优化的网站操作
网站题目:关于一度新站来说是很首要的,第二天你网站题目就成为了呵呵,这可是举例,百度引擎可没有喜爱网站题目没有断变来边去,新站要安靖做兴起,就要想好一度面前的题目,假如斯后需求批改,也最好正在网站有所根底的状况下,遏制修正。
日期:2016-05-16 浏览:130 -
SEO优化 文章隐藏的文本和链接算是作弊?
在网站底部添加闪动的友情链接,只需要拉动到网站底部就可以看到一排闪动,从源代码里面可以看到,也有添加到其他地方的(这个情况一般都是网站被黑了,网站怎么预防请看:网站被黑预防措施)
日期:2016-05-13 浏览:122