今天,推來客與你分享當(dāng)你開始建立一個(gè)網(wǎng)站時(shí)應(yīng)該理解的第一件事,也就是在訪問一個(gè)網(wǎng)站時(shí)應(yīng)該訪問的第一件事??隙ㄓ腥瞬碌绞鞘裁戳?。沒錯,就是機(jī)器人的功能和寫法。
?
一、什么是機(jī)器人?有什么用?
“機(jī)器人”被一些同行稱為“蘿卜絲“,是搜索引擎的機(jī)器協(xié)議。全稱是“網(wǎng)絡(luò)爬蟲排除協(xié)議”。該網(wǎng)站通過機(jī)器人協(xié)議告訴搜索引擎哪些頁面可以被抓取,哪些頁面不能被抓取。
因?yàn)榫W(wǎng)站的很多目錄如果被抓取的話是有風(fēng)險(xiǎn)的,或者是因?yàn)橛驘o法抓取的,所以有必要告訴蜘蛛俠你的網(wǎng)站是否被允許。
Robots放在網(wǎng)站根目錄下,名字叫robots.txt
二、機(jī)器人有哪些指令?
機(jī)器人的指令很簡單。只有三個(gè)說明。一般我們也會把地圖放在上面,這樣蜘蛛抓到機(jī)器人后就可以直接沿著地圖爬了。
用戶代理:該指令定義了該指令的下列內(nèi)容對哪些蜘蛛有效。默認(rèn)情況下,所有蜘蛛都可以爬行。如果此指令指定了特定的蜘蛛,則此指令后面的內(nèi)容對特定的蜘蛛有效。
Disallow:這個(gè)指令定義了哪些蜘蛛是禁止爬行的,因?yàn)橛行┤丝赡苷J(rèn)為網(wǎng)站肯定想被爬行。不對,如果是背景或者私人文件,我相信沒有人愿意被搶。
Allow:該指令定義允許蜘蛛捕捉什么內(nèi)容。如果某些內(nèi)容被允許,而其他內(nèi)容被拒絕,則可以使用該指令。大多數(shù)網(wǎng)站只使用禁止說明。
Sitemap:顧名思義,就是我們常說的站點(diǎn)地圖。這里就不詳細(xì)介紹站點(diǎn)地圖了,推來客的WEO會在下一節(jié)詳細(xì)介紹站點(diǎn)地圖的功能和用法。我們把站點(diǎn)地圖放在Robots下面,方便蜘蛛直接訪問Robots的時(shí)候訪問你的地圖。
第三,機(jī)器人的書寫方式
1.用戶代理:用于定義蜘蛛名稱:常見的蜘蛛名稱包括Baiduspider、Googlebot、MSNBot、Baiduspider-image、YoudaoBot、搜狗網(wǎng)蜘蛛、搜狗inst ?spider、搜狗蜘蛛2、搜狗博客、搜狗新聞蜘蛛、搜狗獵戶座蜘蛛、Sosospider、盤古蜘蛛、JikeSpider、yisouspider、EasouSpider。
2、禁止:
用來定義什么是不允許蜘蛛爬行的。在機(jī)器人中最難使用的東西,也是最常見的問題就是allow命令?;蛘哒麄€(gè)機(jī)器人的本質(zhì)在于不允許。如果你很好地學(xué)習(xí)了這個(gè)指令的用法,你就能寫出完美的機(jī)器人。這里我將列出一些最常用的不允許用法。
嚴(yán)禁搶全站:
不允許: /
禁止woniuseo目錄在根目錄下爬行:
Disallow: /woniuseo/
禁止在根目錄下的woniuseo目錄中抓取單個(gè)頁面的woniuseo.html:
不允許:/woniuseo/woniuseo.html
禁止全站遏制?已爬網(wǎng)的頁面:
不允許: /*?*
禁止包含woniuseo的頁面在全站被抓??;
不允許: /*woniuseo*
帶后綴的頁面。禁止對整個(gè)站點(diǎn)中的aspx進(jìn)行爬網(wǎng):
Disallow: /*。aspx$
禁止對帶后綴的文件進(jìn)行爬網(wǎng)。全站jpg:
Disallow:/*。jpb$
3.Allow:
Allow命令通常不會單獨(dú)使用。Allow命令通常允許首先對目錄進(jìn)行爬網(wǎng),然后禁止對所有其他頁面進(jìn)行爬網(wǎng)。
允許對所有頁面進(jìn)行爬網(wǎng):
Allow: /
允許對woniuseo目錄進(jìn)行爬網(wǎng):
Allow: /woniuseo/
允許爬行。html頁面:
Allow: /*。html$
允許抓取。jpg圖片:
Allow: /*。jpg$
第四,機(jī)器人的應(yīng)用
推來客
自己的網(wǎng)站的robots文件是這樣寫的:
User-agent: *Disallow: /wp-admin/Disallow: /wp-content/Disallow: /wp-includes/Disallow: /tag/Disallow: /wp-config.phpAllow: /
sitemap:http://www.woniuseo.com/sitemap.xml
禁止所有搜索引擎抓取所有頁面:
User-agent: *
Disallow: /
這種情況一般用在新站建好還沒正式上線,不希望蜘蛛抓取時(shí)。
禁止百度蜘蛛抓取所有頁面:
User-agent: Baiduspider
Disallow: /
淘寶就因?yàn)榕c百度的利益關(guān)系,從2008年就禁止百度抓取它所有頁面了。
僅允許百度蜘蛛抓取所有頁面:
User-agent: Baiduspider
Allow: /
User-agent: *
Disallow: /
禁止所有蜘蛛抓取特定的目錄和頁面,允許其它所有:
User-agent: *
Disallow: /sys-admin/
Disallow: /aboutwoniu.html
Allow: /
僅允許蜘蛛抓取.html的頁面與.jpg的圖片:
User-agent:*
Allow: /*.html$
Allow: /*.jpg$
Disallow:/
禁止所有動態(tài)的頁面的抓取,允許其它:
User-agent: *
Disallow: /*?*
Allow: /
允許某個(gè)目錄下某個(gè)目錄被抓取,禁止其它
User-agent: *
Allow: /woniuseo/woniuseo/
Disallow:/woniuseo/
五、 關(guān)于robots的網(wǎng)絡(luò)大事件
淘寶封殺
2008年9月8日,淘寶網(wǎng)宣布封殺百度爬蟲,百度忍痛遵守爬蟲協(xié)議。因?yàn)橐坏┢茐膮f(xié)議,用戶的隱私和利益就無法得到保障,搜索網(wǎng)站就談不到人性關(guān)懷
京東封殺
2011年10月25日,京東商城正式將一淘網(wǎng)的搜索爬蟲屏蔽,以防止一淘網(wǎng)對其的內(nèi)容抓取。
BE違規(guī)抓取Evay
美國BE拍賣公司無視Ebey公司網(wǎng)站 robots協(xié)議,終于2000年2月被告上法庭,最終被判Be侵權(quán)。
360搜索無視r(shí)obots協(xié)議
2012年8月,360綜合搜索被指違反robots協(xié)議,被業(yè)內(nèi)指為“違規(guī)”警告。
如果大家看完上面的指令還有疑問一話,請大家訪問“推來客SEO博客”留言或者直接加入 推來客SEO博客 的官方群,找博主來看大家的Disallow應(yīng)該怎么寫才對。關(guān)于Robots的用法還有很多很多,推來客SEO 在這里沒法一一列舉出來,如果大家對Robots還有疑問。請大家訪問“推來客SEO博客”。在這里,我會給大家量解答大家的疑問。另外我也會在自己的博客里面分享更多SEO相關(guān)的知識,希望能夠?qū)Υ蠹襍EO的道路有一點(diǎn)幫助。
我們專注高端建站,小程序開發(fā)、軟件系統(tǒng)定制開發(fā)、BUG修復(fù)、物聯(lián)網(wǎng)開發(fā)、各類API接口對接開發(fā)等。十余年開發(fā)經(jīng)驗(yàn),每一個(gè)項(xiàng)目承諾做到滿意為止,多一次對比,一定讓您多一份收獲!