百度站长学院前几天公布了一个案例,里面提到一些细节,特别值得站长重视。
它这个页面对爬虫爬取做的优化,直接将图片二进制内容放到了html中导致页面长度过长,大小164K,导致内容不被百度收录。
百度:网页长度大于128k会影响甚至不收录
网站如果针爬虫做优化,那么网页的长度最要在128K以内,不要过长。不然爬虫抓取内容后,页面内容过长被截断,已抓取部分无法识别到主体内容,最终导致页面被认定为空短而不收录。
言下之意,这可能是百度技术缺陷导致,如果网页在128K以上,爬虫无法抓取就无法收录。如果各位站长的网站内容过长,尽量删除一部分不太重要的信息,以保证内容收录。
百度工程师建议:
1、不建议站点使用js生成主体内容,如js渲染出错,很可能导致页面内容读取错误,页面无法抓取
2、 如站点针对爬虫爬取做优化,建议页面长度在128k之内,不要过长
3、针对爬虫爬取做优化,请将主题内容放于前方,避免抓取截断造成的内容抓取不全
内容出处:,
声明:本网站所收集的部分公开资料来源于互联网,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。文章链接:http://www.yixao.com/baidu/2256.html
相关推荐
-
网站让百度快速收录的方法
网站作弊 原因: 比如堆积关键字,隐性文字等等.如果出现这样的情况,百度就算已经收录了你,别庆幸自己蒙混过关,因为在更新的时候也会慢慢剔除的,二级域名和博客交叉连接。 解决方法:赶快把自己的页面好好修改一下吧!另外,二级域名不要过分乱用.博客交叉连接现在无用了,里面留一两个连接就可以,多了去掉.分工找出我们网站堆积关键字。
-
百度悄然上线图片搜索竞价排名
网友称,在百度中搜索带有“长城”关键字的图片,在搜索结果中,排在前三位的长城图片均带有“推广”标识,且暗含旅游公司网站的链接,而此前百度图片搜索中只有文字链形式的广告存在。
-
全球各地著名搜索引擎大全
全球搜索引擎目录大全收集整理了全球主流的搜索引擎网站及各个国家知名的搜索引擎门户网站。若发现链接错误或者笔者贾思军暂时未添加的优秀搜索引擎网站请联系贾思军,我们会及时更正和添加新的网址。
-
百度升级蓝天算法:打击网站出租目录行为
百度搜索最近对算法更新了,全面升级“蓝天算法”2.0版本,主要针对高权重网站出租二级目录和二级域名行为,这是要开始加大清洗目录出租站点了吗? 百度这波更新蓝天算法”2.0,主要针对…
-
百度CEO李彦宏说为了盈利要暂时忘记盈利
9月下旬,百度董事长兼CEO李彦宏先后来到美国哥伦比亚大学和斯坦福大学演讲。从美国各大高校赶来的学生挤满了会场,很多没有座位的学生干脆站着或者坐在台阶上。李彦宏关于中国发展机遇的演讲不时引来阵阵掌声。演讲结束后,很多学生都堵在门口等候李彦宏签名合影。
-
NAS同步百度云全攻略!一篇打尽win虚拟机、黑群、Docker操作演示
之前我利用威联通TVS-951N实现了5G网卡直连iMac将其作为高速扩展盘使用,在客户端安装QSync应用实现客户端与NAS的热备功能,并利用QSync的版本控制实现了”改稿再多…
-
如何加入百度网站原创保护计划?
原创保护 1、如何加入原创保护? 2、数据如何正确提交? 3、网站收益是什么? 今天下午小编提前做好了日常工作,并且主动跟领导申请下午百度站长有直播可以学习原创保护知识!得到领导的…
-
你的网站在百度中的收录为什么会减少?
百度和谷歌作为搜索引擎行业内的龙头老大,当然是做网站建设的人既爱又怕的对象,尤其是在进行网站推广的时候,如果自己的网站的网页在百度中的收录量突然减少了不少,想必任何一个人都不愿意看到这样的结果。
-
百度文库文档数量突破500万大关
就在盛大电子书阅读器上线的时候,百度文库的“藏书”数量已经超过了五百万。 有几个数据,我罗列一下: 2009年11月12日,“百度文档”(当时的名字)正式开放,是划归到百度知道里面的一个资料分享平台。
-
百度系统升级看SEO行业的怪现象
5月20日,在这个特殊含义的日子里,百度似乎要跟我们这些SEOer开个玩笑,从早上起来,笔者手里的几十个企业站关键词排名全部掉落,几年的老站也未能幸免,也害怕是我一个人的网站被降权,所以就打开seowhy论坛,发现90%的企业站都是如此。