99资源 在线视频|美女人妻自慰淫叫|日韩欧美乱伦电影|超碰按摩国产超碰|av全球免费不卡|加勒比无码一区人妻|国产高清一区视频高清|一区二区三区精品伊人|无码加勒比人妻高清|久草中文在线一区蜜乳

搜索結果的排序算法:搜索引擎的spider是互聯(lián)網上的謙謙正人

2012/3/21 14:52:42   閱讀:2140    發(fā)布者:2140


  海內的搜索引擎注冊還沒有形成市場,但在國外是很發(fā)達的工業(yè),每年以200%的速度增長,它們叫seo,即search engine optimization。 ” 越來越多的網站開始追求收入追求pageview,它們開始欺騙搜索引擎,它們在meta tag中塞進成堆的樞紐字,塞進跟自己的網站內容無關的但是流行的樞紐字。起初,meta tag是很好用的,那時候,老實的webmaster們如實的填寫網站摘要,如實的列出跟他的網站最相關的樞紐字,搜索引擎?zhèn)冏ト?、索引、檢索這些老實的meta tag,并作為搜索結果排序的重要依據(jù),然后,是一段息事寧人的甜美時光。現(xiàn)在流行的太極鏈、鳳凰鏈這些超鏈群,就存在被當做spam的可能性。。。
。 “一旦有適當?shù)睦麧?,資本就大膽勇敢起來……有50%的利潤,他就鋌而走險;有100%的利潤,他就敢轔轢一切人間法律;有300%的利潤,他就敢犯任何罪行,甚至冒絞首的危險。

  從某種角度來說,幾乎是spam在推動著搜索引擎的提高,良久良久以前的一天,搜索引擎?zhèn)優(yōu)榱怂阉鹘Y果能更正確,為了能把最相關的搜索結果排在前面,發(fā)明了meta tag。
  歲月迅速流逝,甜蜜時光擋不住資本的力量。
  作弊者以進為退,開始第二輪攻擊,他們在正文中大量使用與網頁背景相同顏色的樞紐字,在image tags中塞進樞紐字,在網頁代碼加入“看不見的注釋”。群眾的力量是巨大的,搜索引擎的相關性被破壞了。
  搜索引擎在與spam的長期戰(zhàn)爭中總是處于不利地位(這很等閑理解,搜索引擎公司真正考慮搜索結果相關性和排序的只有幾個人,而互聯(lián)網上整天琢磨怎么對付搜索引擎的有幾萬幾十萬webmaster),所以對spam的懲罰很嚴厲,事實上,所有的搜索引擎對它們認定的spam行為,通常只有一種懲罰:永久屏蔽。
  搜索引擎?zhèn)儗ψ鞅渍唛_始第一輪反擊,但是無力的,它們的做法是:在排序時更多的依靠網頁正文而不是meta tag。
  但是,嚴肅的懲罰從來只是無能者推卸責任的借口,而不能真正的改善狀況。 ” 作弊者從來就不怕懲罰,當互聯(lián)網狂潮來臨,追求pageview的作弊者們更是毫無所懼。
  善良是善良者的墓志銘,卑鄙是卑鄙者的通行證”,作弊者眼見常規(guī)武器無效,開始利用搜索引擎的真誠。這種方法叫做cloaking。于是,作弊者精心制作了兩個網站,一個專供網友訪問,一個專供搜索引擎訪問,每當發(fā)現(xiàn)訪問哀求來自搜索引擎時,就返回專供搜索引擎看的能令搜索引擎滿足的網頁,而正常訪問者只能看到另一個截然不同的網站。搜索引擎能做的只是嚴肅的懲罰被發(fā)現(xiàn)的spam,以警告作弊者,發(fā)展到今天的結果是,所有的搜索引擎對它們認定的spam行為,只有一種懲罰:永久屏蔽。
  深圳網站建設:搜索引擎?zhèn)?,由于它們道德上的弱點,由于有些手段不愿用,所以無法完全辨別cloaking網站,也就無法完全對付作弊者。 “一旦有適當?shù)睦麧?,資本就大膽勇敢起來……有50%的利潤,他就鋌而走險;有100%的利潤,他就敢轔轢一切人間法律;有300%的利潤,他就敢犯任何罪行,甚至冒絞首的危險。這第三輪攻擊,作弊者大勝。
  搜索引擎的spider是互聯(lián)網上的謙謙正人,它們訪問任何網站都會自報身份,并且查閱網站的訪問劃定,完全按照各網站的規(guī)矩來辦事。
  一個網頁,說它自己是什么,它就是什么嗎?物以類聚,假如它說的是真的,那么指向這個網頁的鏈接應該來自具有同類內容的網頁,所以指向這個網頁的鏈接可以被用來驗證這個網頁的相關性。
  無可奈何的搜索引擎,只有去尋找新的相關性排序依據(jù),只有去尋找作弊者不能控制的排序依據(jù),只有去網站以外尋找排序的依據(jù),搜索引擎,真的別無選擇。
  于是,開始泛起了超鏈分析,泛起了pagerank。
  但是pagerank也帶來了一些不請自來的錯誤排序因素:新站不如舊站,小站不如大站,專業(yè)站不如通俗站。
  而一個歷史悠久的老網站、大網站、通俗網站,即使它已久不更新,或者內容遠不如某些小網站,卻可以獲得很高的排名。一個新網站,一個小網站,一個專業(yè)網站,它的內容再好,由于不可能迅速得到大量的超鏈,所以無法得到合適的排名,即使它的內容是無與倫比的。所以,在超鏈分析中,gov和edu網站通常被賦予較高的排名,來自gov和edu的超鏈也有更高的價值。
  誰,最不可能出于貪婪而作弊?誰,最可能如實提供網頁內容?是政府網站,和教育網站。
  這種seo方法被稱為link firm。這種方法剛泛起時還算有效,不外很快就不行了,由于一個網站是否有大量來自內容不相干網頁的鏈接,或者一個不是搜索引擎的網站給出大量不相干的鏈接還不難判定。
  只是,讓計算機學會理解和評價網頁內容嗎?似乎仍是很遙遠的事情;花大量的人力一個個網頁評估么?這肯定是虧本的貿易行為,只有靠志愿者。
  一種搜索結果的排序算法,假如更多的是基于概念、主題、基于網頁內容的質量,而不是網絡上互相鏈來鏈去的超鏈的重要性,那么搜索結果的相關性在本質上會更好。而每當發(fā)現(xiàn)一個link firm,那些使用了該link firm的網站就全部死翹翹。 odp庶幾近之,但也只能點擊,用樞紐字搜索時仍是無法跟超鏈分析的結果比擬。我在wmw的論壇上看過一個家伙的帖子,說他的網站被封了,但他覺得自己很干凈,沒有做spam,所以主動去問google封他網站的原因,原來僅僅是由于他用了一個link firm,真是可憐.

  當超鏈分析剛出來時,seo界一片悲觀論調,以為這是無法作弊的,seo業(yè)完蛋了(就象近期各搜索引擎紛紛收費,seo業(yè)更覺得自己遠景慘淡,實在固然搜索引擎排名市場的大頭要給搜索引擎?zhèn)儯玸eo仍是有錢賺的,究竟,只有勞動模范有下崗的可能,從來沒聽說騙子會失業(yè)的),但是,道高一尺魔高一丈,很快seo們發(fā)現(xiàn)了對付超鏈分析的方法:你不是喜歡鏈接么,好,我就做大量的網站,預備大量的鏈接,哪個客戶出錢,我所有的網頁都給它一個鏈接。