百度站长学院前几天公布了一个案例,里面提到一些细节,特别值得站长重视。
它这个页面对爬虫爬取做的优化,直接将图片二进制内容放到了html中导致页面长度过长,大小164K,导致内容不被百度收录。
百度:网页长度大于128k会影响甚至不收录
网站如果针爬虫做优化,那么网页的长度最要在128K以内,不要过长。不然爬虫抓取内容后,页面内容过长被截断,已抓取部分无法识别到主体内容,最终导致页面被认定为空短而不收录。
言下之意,这可能是百度技术缺陷导致,如果网页在128K以上,爬虫无法抓取就无法收录。如果各位站长的网站内容过长,尽量删除一部分不太重要的信息,以保证内容收录。
百度工程师建议:
1、不建议站点使用js生成主体内容,如js渲染出错,很可能导致页面内容读取错误,页面无法抓取
2、 如站点针对爬虫爬取做优化,建议页面长度在128k之内,不要过长
3、针对爬虫爬取做优化,请将主题内容放于前方,避免抓取截断造成的内容抓取不全
内容出处:,
声明:本网站所收集的部分公开资料来源于互联网,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。文章链接:http://www.yixao.com/baidu/2256.html
相关推荐
-
网站优化之高质量的外链从何而来
外链就是指从别的网站导入到自己网站的链接。导入链接对于网站优化来说是非常重要的一个过程。导入链接的质量直接决定了我们的网站在搜索引擎中的权重。 外链数不是越多越好。多未必就是好事。在于质量!
-
百度贴吧推广技巧你应明白什么?
新站或论坛搭建好后,除了丰富自己站的内容外,我想外链推广肯定非常重要。那你通常会想到几种推广方式?1.邮件群发(但这个很多人都很反感,而且垃圾邮件都过滤的很成功)2.知名站点、论坛留言、发表意见。3.写软文到各大知名站去推广
-
网站内容更新怎样让百度快速收录
现在我来谈谈百度对网站最新新发布的内容是怎样收录的,关于这个问题问题,首先给大家讨论一下百度对站点收录抓取基本原理,以方便大家更好的理解下面的列举的实例。
-
百度飞桨框架2.0正式版重磅发布,开发、训练、部署全面更新
在人工智能时代,深度学习框架下接芯片,上承各种应用,是“智能时代的操作系统”。近期,我国首个自主研发、功能完备、开源开放的产业级深度学习框架飞桨发布了2.0正式版,实现了一次跨时代…
-
百度空间用户数量突破1亿
2009年7月,中文世界最真诚的交友社区百度空间(http://hi.baidu.com)迎来其3周年华诞。据统计,截至目前,百度空间用户数已经突破1亿,在线用户数突破200万,成为国内最大的空间SNS社区平台之一。
-
百度移居“凤巢”自然搜索或给谷歌机会
百度的竞价排名模式近两年一直饱受业界的争议,之前有报道称百度这种盈利模式对于网民的搜索结果有很强的误导性,其中涉及到一些监控不严诸如医药、保健等关键词的搜索广告具有诱导性。百度也因此常常被迫“对薄公堂”。 据悉,百度专业版将在12月1日正式上线,届时百度专业版(凤巢)将接管所有推广位置,百度竞价排名将淡出百度推广管理平台。
-
百度首次发布《搜索引擎优化指南》
百度成立了“互联网创业者俱乐部”并发布了官方首份“百度搜索引擎优化指南”。我注意到,在提供“优化指南”的同时,百度还把一些产品心得融入了进去。在这份资料的描述上面来说,百度显示了很友好的一面,并没有把自己摆在很高的位置,做互联网产品的很值得一看。
-
百度区域门户战略PK腾讯门户分站
日前,由百度和河南日报报业集团共同打造的河南100度http://www.henan100.com/官网显示,制作进度已完成70%,离正式上线已经不远。这也是百度首次与地方主流媒体联手运营的地方城市门户网站。此前,百度帖吧曾经大规模与地方媒体合作,共建地区贴吧。当然,这种合作方式,并不能让贴吧具有媒体价值。
-
搜索引擎最近的变化分析
在百度和谷歌近期的变化中,都可以看出对友情链接这一块的调整,黑链接、博客链接、论坛签名连接、购买的链接、友情链接尽量不适宜多做,只要保证几个长期稳定合作及与网站内容相关的网站友情链接就可以了,以15个左右为佳,要不然就像58同城那样,疯狂做友情链接后,导致网站被降权。
-
百度框计算从数据模块到应用平台
最近,互联网最火热的概念是什么? 答案是框计算,没有任何悬念。今天,百度世界大会的大幕会徐徐拉开,框计算将由热点变成沸点。框计算是在去年的百度世界大会上由李彦宏提出来的。在这一年的时间里,框计算的表现又如何呢?总结一下,一共可以划分为三个阶段