在网站建设过程中如何避免蜘蛛陷阱呢?
微wx笑 2020-11-21【网页网站】 5 0关键字: 蜘蛛陷阱 网站建设
网站的流量大部分都是来自搜索引擎,而网站的内容能否被搜索引擎的蜘蛛抓取,就在于网站建设的是否对蜘蛛友好了,如果存在蜘蛛陷阱的话,肯定对收录产生很大的影响!那么在网站建设过程中如何避免蜘蛛陷阱呢?看了十几篇相关文章,觉得还有自己想补充的,所以这里说一下。
鱼与熊掌不可兼得,在网站建设中,为了实现预期的功能,又希望搜索引擎的蜘蛛能很好的抓取收录页面内容,就需要做一些改变和取舍。
常见的蜘蛛陷阱,及避免方法:
1、登录要求
有些网站需要登录才能看到内容,这非常不利于搜索引擎蜘蛛的抓取,因为蜘蛛爬虫无法注册登录,也就抓取不到内容了。
有人说“如果网站拥有此功能,一定要及时取消。”,这是一刀切的做法。
正确的做法应该是设计上把不需要注册登录即可以访问的内容独立出来,只有那些必须登录才可以访问的内容才要求用户登录。
2、动态URL
SEO人员都知道,搜索引擎蜘蛛是不喜欢抓取动态URL的,所以,要把动态URL改成静态或者伪静态,这样才有利于蜘蛛的抓取。
什么是动态URL?
像“.../artices.asp?id=123”,扩展名是“.asp, .php, .cgi, .do, .aspx”等这些都是动态URL,页面内容都是动态可变的;
改成静态的就是根据“?id=123”等类似的参数生成静态的“.htm, .html”扩展名的文件,链接也改为对应的静态文件名;
改成伪静态的,可以通过Nginx、Apache的配置文件规则来实现;
3、强制用Cookies
有些网站为了实现一些功能,会强制使用Cookies,这就导致网站页面显示不正常,从而导致蜘蛛爬虫无法抓取网站页面。
能导致网站页面显示不正常,那还是动态页面,或服务器配置上强制使用Cookies,通常蜘蛛是只抓取分析HTML代码的。
4、框架结构
有些网站的框架结构不利于搜索引擎蜘蛛的抓取,如果遇到这样的框架,一定要及时更改。
这里的框架是“frameset, iframe”标签的框架,可不要理解成“vue, Bootstrap, .Net Framework”之类的哦!
5、各种跳转
对搜素引擎来说只对301跳转相对来说比较友好,对其他形式的跳转都是比较敏感,例如:JavaScrit跳转、MetaRefresh跳转、Flash跳转、302跳转。
我们来看看Nginx中的301跳转、302跳转
rewrite ^/(.*) https://www.ivu4e.com/$1 permanent; #301跳转
rewrite ^/(.*) https://www.ivu4e.com/$1 redirect; #302跳转
6、Flash
有些网站为了美观使用了Flash技术,这非常不利于搜索引擎蜘蛛的抓取,所以,想要让网站在搜索引擎中拥有良好的排名,就不要使用Flash技术。
这个在以前很流行,现在浏览已经宣布不支持Flash了,所以很多网站已经转为Gif或HTML5了,又或者是WebAssembly,已经不存在这样的问题了。
本文由 微wx笑 创作,采用 署名-非商业性使用-相同方式共享 4.0 许可协议,转载请附上原文出处链接及本声明。
原文链接:https://www.ivu4e.cn/blog/web/2020-11-21/555.html