- 关于搜狗spider:
-
Sogouspider User-Agent字段是什么?
Sogou web spider/4.0 和
Sogou inst spider/4.0
sogou spider 访问我的网站过快怎么办?sogou spider 对于同一个 IP 地址的服务器主机,只建立一个连接,抓取间隔速度控制在几秒一次。一个网页被收录后,最快也要过几天以后才
会去更新。如果持续不断地抓取您的网站,请注意您的网站上的网页是否每次访问都产生新的链接。
如果您认为 sogou spider 对于您的网站抓取过快,请与我们联系,最好能提供访问日志中sogou spider 访问的部分。点此投诉spider抓取过快
sogou spider 喜欢收录什么样的页面?A. 内容优良而独特的页面,如果您的页面内容和互联网上已存在的其他页面有高度的相似性,可能不会被 sogou spider 收录。
B. 链接层次较浅的页面,过深的链接层次,尤其是动态网页的链接,会被丢弃而不收录。
C. 如果是动态网页,请控制一下参数的数量和URL的长度。搜狗更偏好收录静态网页。
D. 重定向次数越多的页面,越有可能被 sogou spider 丢弃。
sogou spider 如何反应我网站上页面的更新?sogou spider 根据网页的重要性和历史变化情况来动态调整更新时间,更新已经抓取过的页面。
如何让 sogou spider 不抓我的网站?sogou spider 支持 robots 协议,您可以在网站的根目录放置 robots.txt。
robots.txt 的规则请参阅 http://www.robotstxt.org/。
但是新更新的 robots.txt 可能得过几个星期才能体现出效果来。
需要注意的是,被您禁止 sogou spider 收录的网页将不能在搜狗搜索引擎上检索到。
为什么我的网站已经加了robots.txt,还能在搜狗搜索出来?-
因为搜索引擎索引数据库的更新需要时间。虽然Sogouspider已经停止访问您网站上的网页,但搜狗搜索引擎数据库中已经建立的网页索引信
息,可能需要数月时间才会清除。另外也请检查您的robots配置是否正确。
如果您的拒绝被收录需求非常急迫,也可以通过投诉平台反馈请求处理。
我希望我的网站内容被搜狗索引但不被保存快照,我该怎么做?-
Sogouspider遵守互联网meta robots协议。您可以利用网页meta的设置,使搜狗显示只对该网页建索引,但并不在搜索结果中显示该网页的快
照。和robots的更新一样,因为搜索引擎索引数据库的更新需要时间,所以虽然您已经在网页中通过meta禁止了搜狗在搜索结果中显示该网页
的快照,但搜狗搜索引擎数据库中如果已经建立了网页索引信息,可能需要二至四周才会在线上生效。
sogou spider 会封锁那些网站?A. 作弊网站
B. 内容低劣的网站
C. 违反国家政策和法律的网站。