-
点击这里提交sitemap! - 关于sitemap:
- 搜狗可以通过站点地图发现通过其他传统抓取方式无法在贵网站发现的网页,一般的sitemap形式是XML文件,在其中列出网站中的网址以及关于每个网址的其他元数据(上次更新时间、更新频率、权重等)。即使您的网站已经被收录,也可以通过站点地图让搜狗更有效率地抓取,达到最优的收录效果。
以下情况站点地图将特别有用:
- 网站含动态内容。
- 您的网站中包含在搜狗spider抓取过程中不易发现的网页,例如含有富 AJAX 或图片内容的网页。
- 网站为新网站且指向该网站的链接不多。(搜狗spider会跟随链接从一个网页到另一个网页抓取网页,因此,如果您的网站没有很好的链接,我们可能很难发现它。)
- 网站有大量内容页存档,这些内容页彼此之间没有很好地链接,或根本就没有链接。
搜狗不保证一定会抓取所有列入sitemap的网址并建立索引。但是,我们会使用站点地图中的数据了解网站的结构,这样可以让我们改进抓取工具,并在之后能更好地对网站进行抓取收录。采用sitemap协议,网民将在更大范围内访问到您网站中的内容,进而为您的网站带来潜在的流量。
- 搜狗sitemap协议:
搜狗sitemap协议是搜狗支持的网页收录标准,站长可以将网站中的网页url制作成标准的sitemap文件,用于指引搜狗搜索引擎快速、全面的抓取或更新网站上内容及处理错误信息。
搜狗遵守 sitemaps.org 所定义的站点地图协议 0.9。因此,使用站点地图协议 0.9 为搜狗创建的站点地图和采用 sitemaps.org 标准为其他搜索引擎创建的站点地图兼容。标准sitemap协议说明:
- 1.Sitemap采用.xml格式
- 2.Sitemap可以使用utf-8编码和GBK编码
- 3.为节省带宽可以采用gzip格式压缩Sitemap文件
- 4.一个Sitemap文件中最多可包含50000个url,并且应小于10MB。
XML标签说明:
标签
是否必须填写
具体说明
<urlset>
必须填写
只填写 <urlset> ,Sitemap文件最顶层的标签,
其他标签都必须包含在它内部。<url>
必须填写
每一条网址记录的父标签,下面的标签都必须包含在它内部
<loc>
必须填写
该页面Url, 长度不能大于1024
<lastmod>
可以选择
页面最后的更新时间,通常使用YYYY-MM-DD格式
<changefreq>
可以选择
该页面可能发生更新的频率,值可选为:
- always
- hourly
- daily
- weekly
- mothly
- yearly
- never
<priority>
可以选择
此网页相对其他网页的优先级,有效值范围从0.0 到1.0。
sitemap举例说明:<?xml version="1.0" encoding="UTF-8"?>
<urlset>
<url>
<loc>http://www.example.com/</loc>
<lastmod>2011-11-11</lastmod>
<changefreq>always</changefreq>
<priority>0.8</priority>
</url>
</urlset>
- 文本格式sitemap说明:
- 您可以提供纯文本文件,其中每行包含一个网址。
- 文本文件格式举例:
- http://www.example.com/catalog?item=1
- http://www.example.com/catalog?item=2
此文本文件需要遵循以下:- 文本文件每行都必须有一个网址。网址中不能有换行。
- 您必须指定完整的网址,包括 http。
- 每个文本文件最多可包含 50,000 个网址,并且不大于10MB(10,485,760字节)。如果网站所包含的网址超过 50,000 个,则可将列表分割成多个文本文件,然后分别添加每个文件。
- 文本文件需使用 UTF-8 编码或GBK编码。
- 文本文件不应包含网址列表以外的任何信息。
对于有多个Sitemap的站点,可以以一个名为sitemap_index.xml的索引文件来指定Sitemap的位置。
您必须:
- 以
<sitemapindex> 作为开始标记,以 </sitemapindex>作为结束标记。 - 每个 sitemap 包含一个
条目作为 XML 父标记。 - 每个
父标记包含一个 子标记条目。 - Sitemap Index文件可以使用utf-8编码和GBK编码。
- Sitemap Index中包含的Sitemap数不能大于50000个。
标签
是否必须填写
具体说明
<sitemapindex>
必须填写
Sitemap Index文件最顶层的标签,其它标签都必须包含在该标签内
<sitemap>
必须填写
每一条sitemap记录的父标签,之后的其它标签都必须包含在该标签内
<loc>
必须填写
识别sitemap位置的url,长度不能超过1024
<lastmod>
可以选择
识别相对sitemap文件的修改时间,该Sitemap文件最后的更新时间,通常使用YYYY-MM-DD格式
- sitemap协议类型:
- 搜狗sitemap协议支持提交收录网页列表以及死链列表。
收录网页列表用于指引搜狗搜索引擎快速、全面的抓取网站上内容。您可以使用XML格式、文本格式以及sitemap索引文件提交。
死链列表用于提交您网站上被删除或者权限发生变动以及可能为隐私相关的网页列表,指引搜狗搜索引擎快速屏蔽这些网页。
死链列表目前只能使用文本格式在搜狗站长平台提交。- 协议包含范围:
sitemap文件的包含范围以主域为单位。
如果您验证了http://www.example.com/这个网站,那么sitemap文件中可以包含http://www.example.com/、http://example.com/、http://bbs.example.com/等所有example.com主域下站点中的网址。- 常见问题:
- 1.sitemap都支持哪些格式?
支持XML格式和TXT文本格式
- 2.我的 Sitemap 可以有多大?
单个Sitemap 应该小于 10MB(10,485,759字节),所包含的网址数最多为 50,000 个。 如果您网站包含的网址超过 50,000 个或您的 Sitemap 超过 10MB,则需要创建多个 Sitemap 文件,并且需要使用 Sitemap 索引文件。
Sitemap 索引文件应该小于 10MB(10,485,759字节),且最多可以包含1000个sitemap。 3. 我可以提交多少个sitemap数据?提交的sitemap会都被搜狗收录吗?- 3.我可以提交多少个sitemap数据?提交的sitemap会都被搜狗收录吗?
平台对于提交sitemap的数量没有限制。每个sitemap文件最多可包含 50,000 个网址,并且应该小于 10MB(10,485,759字节)。
您提交的sitemap或sitemap文件中的所有URL不一定完全被收录,搜狗会根据数据的具体情况来判别,但会根据网站结构来调整抓取策略,达到最优的收录效果- 4.sitemap提交后,多久能被搜狗抓取?
sitemap数据提交后,一般在1小时内会被搜狗处理。处理完成的时间视文件大小而定。
- 5. sitemap提交后,还需要大量的人力进行维护吗?
不需要,您可以根据具体情况进行定期维护。
- 6.应该将 Sitemap 文件放在哪里?
建议将 Sitemap 放在 HTML 服务器的根目录中,即 http://www.example.com/sitemap.xml。
某些情况下,例如您公司网站允许对应不同的目录划分写入权限,这时您或许希望在网站上针对不同的路径创建不同的Sitemap。
如果您有上传到 “http://www.example.com/路径/sitemap.xml” 的权限,那么您可以针对 “http://www.example.com/路径/” 创建不同的sitemap 。- 7.我的网站拥有几千万个网址;我可以只提交最近更改过的网址吗?
您可以在少数频繁更改的 Sitemap 中列出已更新的网址,然后使用 Sitemap 索引文件中的 lastmod 标记识别这些 Sitemap 文件。
随后,搜狗即可逐步抓取这些已更改的Sitemap。- 8.Sitemap 中的网址需要完整地指定吗?
是的。您需要在网址中提供协议。例如,http://www.example.com/ 对 Sitemap 来说是有效网址,而 www.example.com 则不是。
- 9.我的网站同时具有“http”和“https”格式的网址。需要把它们都列出来吗?
请在 Sitemap 中只列出一种格式的网址。包含多种格式的网址可能会导致抓取工具无法完整地抓取网站。
- 10.网址在 Sitemap 中的位置是否会影响它的使用?
不会。网址在 Sitemap 中的位置并不会影响搜狗对它的识别或使用方式。
- 11.我可以压缩我的 Sitemap 吗?它们是否需要用 gzip 压缩?
可以。请使用 gzip 压缩 Sitemap。无论压缩与否,Sitemap 应该小于 10MB(10,485,759字节)。
- 12.XML格式的 Sitemap 中,“priority”标签会影响我的网页在搜索结果中的排名吗?
不会。Sitemap 中的“priority”标签只是说明该网址相对于您自己网站上其他网址的重要性,并不会影响网页在搜索结果中的排名。
- 13.我提供了协议文件后,搜狗是不是就不再抓取我的网站了?
不是。sitemap开放协议只是搜索引擎原有收录方式的一种补充,而不是完全的取代。
- 14.一个站点可以提交多个不同的XML地吗?
不可以,否则会被识别为作弊。
- 15.哪些要求容易被我忽略,而导致全部或部分论坛内容收录失败?
- <link>标签中必须提供完整的相关内容,请不要省略部分内容,也不要增加不相关的内容。
- 标签中的所有内容如URL、标题等,若包含以下特殊符号如“&”“<”“>”等,需要根据XML规范进行转义;这些特殊符号仅针对半角符号而言,全角符号无需进行转义。
- 字符编码必须严格符合XML声明中的规范,例如XML声明为<?xml version="1.0" encoding="GB2312" ?>,若不完全是标准GB2312规范的编码,会导致部分数据丢失
- 16.如果我在使用协议或提交 Sitemap 时遇到其他问题怎么办?
如果您在使用协议时还有问题,可以参考sitemaps.org的详细说明。
如果还有问题,可以邮件联系我们。
想查看更多关于收录的问题,请参见 关于收录 章节。