如果你注册了Google管理员工具,你肯定从后台看到了收录情况:如已抓取未编入,已发现未索引等。

下面具体解释一下,是什么意思。

已发现 – 尚未编入索引:Google已经发现了页面,但是还未进行抓取;谷歌曾经尝试进行抓取时发现过载情况,于是准备另外安排时间进行抓取。这里说的过载,意思是谷歌抓取队列中排入了过多的网页,暂时没有额外的抓取资源分配到该网页上,只能另外安排时间。

我认为这种情况与其说google没资源抓取,不如考虑下是否网站过载。现在Google不像以前了,收录越来越慢,挑剔得很。一旦发现你网站爬取时很卡,就会缓慢收录你的站。网站速度直接影响收录情况。考虑下空间是否达不到你的要求。对于主机空间,如果您是用来赚钱的,还是考虑vps,别用共享主机了。

已抓取 – 尚未编入索引:谷歌已经抓取了该网页,但暂时没有编入索引,可能会不定时安排编入索引,无需重复抓取。

这种情况:检查下文章质量,如果文章质量没问题,等待吧。或者做点外链。

被“noindex”标记排除了:网页自身采取了“noindex”标记屏蔽收录。

抓取异常:Google尝试抓取页面时出现了异常情况导致抓取失败。抓取异常并不意味着一定有问题,比如Wordpress网站的一些内部文件一般是不允许抓取的,也可能导致这个问题。确定下抓取异常的网页是不是网站的常规页面,包括产品页以及文章页面等。有时候服务器的不稳定也会导致谷歌无法访问、抓取网页。

上述2种情况,属于技术性错误,改掉就好了。

网页被排除还存在的可能有:网页会自动重定向、备用网页(有适当的规范标记)、软 404、已被 robots.txt 屏蔽、重复网页,用户未选定规范网页、未找到 (404)等。谷歌会抓取到网站很多资源,不光光是你认为的常规页面,查看这些原因影响到的具体网页,如果不是网站的常规页面,就无需过多在意。查找到的无意义页面,如果比较介意的话,可以通过robots协议进行屏蔽,不让谷歌抓取。