白杨SEO博客

白杨SEO,专注SEO十年,SEO流量实战派。版权声明:部分系用户投稿,侵权联系删,邮箱:2406352035@qq.com白杨SEO工具导航

您现在的位置是: 首页 > SEO案例 > 正文

解决网站不被百度收录的SEO案例思路参考学习

发布时间:2023-11-04 14:30:57 编辑:admin 浏览:329

    网站已经将近1年的时间在百度的收录少之又少。

    公司的人和说这个网站不收录,那到底是哪里不收录、怎么不收录完全不清楚,所以开始了数据整理和问题排查的工作。

    将网站按照类型做分类,分为了频道页、列表页、专题页、聚合页以及新闻页5类。然后和技术沟通将这5类URL全部导出(新闻页,由于很多考试相关的新闻具有时效性,所以只导出了30天的数据),然后按照不同的分类开始收录查询工作。最后收录查询的结果如下:





    如上图,发现公司人员和我反馈的网站不收录,具体的问题是在新闻页。而环球网校的新闻是面向考试的信息发布、资料发布等。是具有一定时效性的文章,按理说这么大的网站应该秒收才对。


    于是和相关人员要了网站最近7天的网站日志,技术给的是原始的网站日志,既包含了爬虫数据也包含了用户数据等等,没办法,只能清洗一下这些数据了。


    SEO清洗网站爬虫日志的流程


    1、先按照user-agent包含baiduspider的进行过滤,只保留包含baiduspider的数据,这样就拥有了百度爬虫的数据;

    2、但百度爬虫数据中,也有很多假爬虫,按照ip反查的思路,先把所有baiduspider的ip地址拿下来,然后去重;

    3、得到600多个不重复的唯一ip地址。对这些ip地址通过程序批量识别真假爬虫,最后是真爬虫的ip地址有82个;

    4、再在第一步的所有爬虫数据中进行过滤,只保留ip地址为真的百度爬虫的这82个。最后得到的数据就是真的爬虫数据了;

    5、将最近7天内发布的url在这个清洗后的日志中进行查询,最后发现所有的新页面在发布后的1分钟内爬虫都有抓取,可想抓取是多么的及时,并且在第二天、第三天都还会有对这篇文章的抓取。

    最终看到爬虫抓取的行为数据表现很好,应该不是抓取上出了问题。

    然而,在分析日志之前,也和技术、产品、运维同步了一个需求,需要1年前网站突然开始不收录那个大概时间节点他们各部门都做了什么改动。就在分析完日志的晚上,技术老大找到说,他想起来当年是因为网站被攻击,大量注入了很多的垃圾数据后,网站收录才出现异常的。

    可能知道问题就出在这里,但为了更全面的考究问题,还是让他们按规定把之前做的一些改动同步给我。

    第二天早上我就开始围绕网站被攻击的问题与技术进行了彻底的排查,看网站之前被注入的垃圾信息有没有清除干净。最后确认垃圾信息早就彻底清除了,且正确返回了404状态码和404错误页面。

    然后怀疑是不是百度没有修正我们的状态,被攻击的时候开始不收录正常,毕竟检测到了网站的风险,那时隔一年还是如此,一定是百度的问题。通过百度的反馈中心详细的说明了问题的始末,然后百度的技术也在一直排查,等了有一周时间没见回复,其他部门也把之前的一些调整和改动都给了,也确认那时大家的做法没有问题。


    于是,主动联系了百度站长平台的朋友,希望他们能够尽快处理,查明问题。


    可最后得到的结论是百度也没发现什么问题,据说几个部门的技术针对我的问题还各自筛查一遍,没找到问题。好吧,百度的兄弟已经给足了面子,能这么帮咱跟进需求很到位了。还是靠自己,这毕竟是CEO的第一个托付,一定要搞定。

    找了我们的编辑,询问并且检查文章本身的质量问题,大家和几年前一样,一直按部就班的发着信息,没什么变化。及时性、可读性、需求满足度都可以保证。具体是哪出了问题呢?

    思前想后,会想到问题的本质是开始于网站被攻击开始的,那如果真的是百度没反应过来的话,就要让百度重新对新闻页进行计算,以重新评估这类页面。于是有了对新闻页改版的念头。


    通过对页面的重新设计、丰富了内链的链接策略,也增加了很多广告自定义的场景。通过20多天的努力,新的页面上线了。

    由于网站每天发布的新闻很多,大约在几百条,所以写了一个收录查询的程序,每天这个程序都会自动查收录,然后以excel附件的形式发到邮箱,进行查看。

    就在新版的新闻页上线的第4天,收录率从之前每天的1~5个,突然有100多个了,收录率之前都是零点零几,现在有40%多了,又过一天82%,再过一天79%,又过一天85%,就这样80%上下持续了一周的时间,到了下周突然达到了97%,而且是秒收的。然后中间也有个别的天是浮动的。但整体都在95%上下。


    到这,认为收录问题彻底解决了,很多编辑的同事也早就知道了这个事情。现在几年过去了,策划的新闻页仍在,且收录情况一直良好。


    下面一天的收录情况:




    时间上有10分钟前、15分钟的。由于你也想查一下的话,而且整体数量也在几百条的数量上。


    思路总结:

    1、锁定网站不收录的是哪类型的页面,就像案例所说,最终锁定到了新闻页;

    2、思考网站不收录的这个时间点内,对网站有改动权限的人都做了什么,这些改动会不会是网站不收录的原因;

    3、分析网站的日志,看不收录的那个网站类目是不是有抓取,没抓取就是抓取问题,有抓取就不存在问题;

    4、当网站改动上没问题,抓取没问题。就在站长工具反馈中进行详细的反馈;

    5、反馈的同时也可以对该类型的模版页面进行适当的调整,例如增加链接入口、增加网页丰富度,新闻页提高原创比例,文章内容的质量程度。

    6、要是还不能收录的话,就对当前类型的模版页面进行大改版,重构页面进行尝试。


    内容来源网上,供排除参考学习~


关键字词