关于爬虫抓取JS、CSS、JSON

发表日期:2016-04-28   资讯来源:佰牛科技   浏览:131

这是一个存在多年、经常出现但又从来没有标准解决办法的问题:搜索引擎爬虫(尤其是百度)抓取JS、CSS、JSON文件,robots屏蔽依然抓取的情况。

这就引出了几个问题:

1、爬虫抓取JS、CSS是干什么的?

2、爬虫能否执行JS?

3、爬虫抓取JS对SEO有什么影响?

针对以上问题,佰牛网络【深圳网站建设】说下自己的看法:

第一个,爬虫抓取CSS,用于判断页面元素的重要程度,及保证快照显示的完整性;抓取JS,用于发现新链接,及判断是否存在作弊的情况

第二个, 会执行JS,但不确定所有的JS是否都会执行。像网上好多人说的'搜索引擎会直接忽略JS、iframe什么的,只抓取纯文本信息”,这从实际情况上站不住脚啊,如果搜索引擎对JS、iframe鸟都不鸟,那内些做黑帽的同学岂不爽死了(不懂为什么爽?请看前两篇关于黑帽的文章,你就懂了!)

第三个,这个不知道。某些情况下,可能会占用抓取配额,不过我经历的几个存在蜘蛛抓取JS的站,流量上并没有什么异常。

说到这,我的现在工作的站在上半年出现过这种情况,百度疯狂的抓json,robots屏蔽各种无效,然而流量上并没有下降等异常状况,本来依我的心理承受能力是根本不会在乎这种情况的┏ (゜ω゜)=☞,但是一查json的抓取比例着实让我菊花一紧,接近40%,是的,你没有看错,40%,假设百度一天抓100万页面,40万都是json这玩意。

然后发现日志中百度的抓取总量跟百度站长工具的抓取频次对不上,几次检查后发现,日志中的抓取总量 = 百度工具的抓取频次 + 日志中json的抓取总量。也就是说,对于百度给出的抓取频次数据,抓取json的部分是没有计算在内的,等于说是附赠的抓取。从这点看,应该对SEO没什么影响,不存在占用抓取配额的问题么,但看抓取比例总是非常蛋疼,还是决定解决下这个情况。

经过排查,发现有些页面包含一个功能:当页面被请求时先判断来访用户是否登录,如果登录则返回该用户历史访问的其他产品,如果未登录,则返回指定的内容。返回的内容转换成一个json文件(没错,就是百度疯狂抓的那个),然后传递到前台的js,js通过解析json文件,将解析json后的数据显示在前端界面。

用的是异步加载,从业务逻辑上看,对该页面的任何访问者,如果不执行这个js,相当于页面没加载完。

json路径是明文写在js里的,也不知道百度是把json的路径识别出来了还是执行js了,反正只要抓了包含这个功能的页面,都会顺带抓对应的json文件。

综上,预定的解决办法有两种:

第一种是直接把这个功能对应的JS删了

第二种是面对搜索引擎访问,不返回这个js。所以蜘蛛根本看不到,也就不会抓了

最后因为这个功能上线多月,但数据表现一直不好,点击率低,直接把这个功能砍了.......然后转天在看日志,json抓取量为0......

A、觉得有帮助就转一下喽,转一下又不会怀孕(๑•́ ₃ •̀๑)

B、暂定了几个更新的主题,麻烦在对话框中输入对应的编号,我会统计需求最多的那个优先更新

1)网站被DDOS、CC,SEO如何处理?

2)黑帽:寄生虫程序原理

3)SEO数据的获取与分析技巧

4)关键词数据分析

5)其他,你们定,直接在对话框输入

 

内容标签:
如何优化seo
seo网站内部优化
网页seo优化
深圳网站建设
{ solution_title }
相关资讯

【签约】深圳目路教育官网网站建设项目

目路SEEPATHS专注于为学生家庭提供教育升学的定制服务。团队持续运营超过8年,目前已经发展成为一家以升学结果为导向,多元化道路与学生背景条件相结合的高端专业、实现学生个性化升学规划的服务机构。

日期:2020-09-24    浏览:116

【签约】深圳中浩建设官网建设项目

深圳中浩建设实业有限公司成立于2000年,是一家专业从事沥青路面施工,集工程投资管理,沥青路面,彩色沥青路面,路面养护维修为一体的公司。

日期:2018-07-12    浏览:116

【签约】深圳财阜集团APP开发项目

财阜集团的是一家扎根香港,并专注于为所有客户和会员提供一站式海外资产配置及服务的综合集团。

日期:2019-05-03    浏览:111

【签约】大可智能教育信息网平台网站建设项目

大可智能教育信息网面向全国一线教师和学生,提供高考、留学、考级考试以及 各年级相关备课、迎考的专业资源。

日期:2017-09-20    浏览:111

【签约】深圳活石学院教育平台项目

活石学院,源自香港,提供DSE课程学习,留学权威,服务全球,以及服务香港本地中小幼升学,规划香港及海外大学本科留学,是业内首屈一指的香港教育专家。

日期:2018-11-03    浏览:109

网站长尾关键词优化的六大法宝

长尾关键词,按字面理解就是搜索长度长,有2至3个词组成的词语,而用户有可能会用的这些词进行搜索。那么,对于已经存在的长尾词需要怎么优化呢?接下来分享长尾词优化的六大法宝。

日期:2018-07-05    浏览:163

用户粘性提高才能够保证网站良性发展

网站优化都有很多公司来说都是非常重要的,因为如果你的网站上要是有更多的客户的话,那么势必要在网站优化上下一些功夫,如果网站是比较好的话,那么这种网站它的用户粘性相对来说应该是比较高的,因为用户粘性对于我们建站的人来说是非常的重要的,因为只有用户粘性能够提高的话,才能够保证我们的网站运营中能够良性发展。

日期:2018-07-05    浏览:154

这些网站图片优化小技巧十分受用

图片优化是网站要进行优化的一个十分重要的方面,传统意义上的优化仅仅只是图片要加alt标签或是仅仅压缩。但这样太过粗陋,以下带来详细技巧。

日期:2018-07-05    浏览:122