让搜索引擎蜘蛛爬虫抓取全部内容

发布时间:2012-12-22浏览:

核心提示:让搜索引擎蜘蛛爬虫抓取全部内容

大家都知道虽然蜘蛛爬虫能爬到你的网页,但是它的味口很刁,如果你的内容不可口,它们很可能会转移到另外一个网站或网页,哪又该如何保证你的网页能吸引蜘蛛爬虫呢,减少被忽略的内容?

      1、文章的原创和标题的不重复

       标题是搜索引擎蜘蛛爬虫判断内容重复的首要因素,众所周知蜘蛛爬虫喜新厌旧。重复的内容不仅不让他降低对你的权重,而且会减少来访的次数和后期。

      2、精简页面

       通常蜘蛛爬虫在爬到一定大小的页面后会停止爬行,Google和雅虎看来在10万个字母处停止。如果你的页面太大,它就可能根本不会去爬。

       最经常导致页面内容冗长的是嵌入了Javascript代码,我们可以采用文件调用方式了解决。对于大量的网页内容,我们可以把打网页分开,不仅能提高关键词的密度,同时方便访客。

      3、验证HTML

       对于浏览器都是力争尽可能高质量的显现网页,而把编码的错误尽量隐藏,但是不幸的是,蜘蛛爬虫永远不这么宽容。对于网站应该尽量避免错误代码,可以通过W3c来验证或Firrfox Web Developer add on。

      4、让FLASH保留的内容不是你想收录的

       因为蜘蛛爬虫不能识别Flash的内容,所以对你不愿意被索引的内容,可以保留使用Flash,确实要的话,你可以提供其他HTML入口连入到HTML页面。

       如果你有一个完全由Flash内容建立的网站,并且你完全不能将其转化为HTML,你可以合理的使用IP Delivery技术。将蜘蛛爬虫引入到一个HTML页面。

      5、避免使用框架(Frames)

       框架是HTML编码的一种旧技术,可惜蜘蛛爬虫忽略框架内的任何内容,并寻找一个称为<noframe>的HTML标签,这个标签专门提供不支持框架的古老浏览器使用。建议完全去掉框架,创建一个完全没有框架的页面会一劳永逸。
 


前一篇:定做程序设计
后一篇:搜索引擎蜘蛛的抓取规律
分享到: