亚洲AV无码乱码在线观看不卡|最新大伊香蕉精品视频在线|亚洲不卡av一区二区|国产美女无遮挡免费

登錄論壇 | 注冊會(huì)員 設(shè)為首頁 | 收藏本站
當(dāng)前位置 : 首頁>IT娛樂>互聯(lián)網(wǎng)>正文
 
谷歌算法統(tǒng)治互聯(lián)網(wǎng)的秘訣

http://m.yibo1263.com 2010-2-26 8:40:10  來源:東北IT網(wǎng)  編輯:東三省
 
 “熱狗”與“煮狗”

  以谷歌確定同義詞的方法為例。辛格表示:“我們很早就有了一個(gè)有趣的發(fā)現(xiàn),那就是用戶會(huì)更改查詢的關(guān)鍵詞。比如有人會(huì)搜索‘dog’,然后改成‘puppy’,因此搜索引擎就會(huì)得知‘dog’和‘puppy’可能是可以互換的。引擎也會(huì)知道,當(dāng)你燒(boil)水時(shí),水會(huì)變熱(hot)。我們從人類的語義中學(xué)習(xí),這是一個(gè)很大的進(jìn)步!

  但這也有障礙。谷歌的同義詞系統(tǒng)知道“dog”和“puppy”類似,沸(boiling)水是熱的(hot)。但它同時(shí)會(huì)認(rèn)為“hot dog”(香腸夾心面包)和“boiling puppy”(煮狗)是一樣的。通過路德維!ぞS特根斯坦(Ludwig Wittgenstein)的理論,該問題于2002年得以解決。該理論涉及上下文如何決定詞語的意思。當(dāng)谷歌抓取并存儲(chǔ)數(shù)以億計(jì)的文件和網(wǎng)頁時(shí),它會(huì)分析哪些詞是彼此鄰近的。包含“hot dog”的頁面通常也包含“面包”、“芥末”、和“棒球”,而不會(huì)包括對雜種狗的獵殺內(nèi)容。這就幫助了搜索引擎理解“hot dog”和其他成千上萬個(gè)詞語的意思。辛格說:“現(xiàn)在,搜索引擎會(huì)知道bio在‘Gandhi bio’中是‘biography’(傳記)的縮寫,而在‘bio warfare’中是‘biological’(生物)的縮寫。”

  在谷歌的發(fā)展過程中,該公司不斷設(shè)法增加新的排序信號(hào),并且兼顧不會(huì)影響用戶的核心體驗(yàn)。每幾年就會(huì)對系統(tǒng)做一次重大修改(有點(diǎn)像Windows的新版本),這在山景城是人盡皆知的,但其他人不會(huì)關(guān)注。

  辛格說:“我們的任務(wù)是對這架以每小時(shí)1000公里在三萬英尺高空飛行的飛機(jī)的系統(tǒng)進(jìn)行根本性更改!2001年,為了應(yīng)對互聯(lián)網(wǎng)的飛速發(fā)展,辛格事實(shí)上完全改寫了佩奇和布林的算法,以便使谷歌可以快速增加新的信號(hào)(新信號(hào)之一可以區(qū)分商業(yè)頁面和非商業(yè)頁面,從而為購物者提供更好的結(jié)果),也是在這一年,一位名叫克利什納·伯哈拉特(Krishna Bharat)的工程師認(rèn)為權(quán)威網(wǎng)站上的鏈接應(yīng)該具有更大的權(quán)值,因此設(shè)計(jì)了一個(gè)強(qiáng)大的信號(hào)以便賦予這些鏈接更大的可信度(這是谷歌的第一個(gè)專利),最新的一項(xiàng)修改的代號(hào)為“咖啡因”,對整個(gè)系統(tǒng)進(jìn)行了修改,從而使得工程師可以更容易地增加新的信號(hào)。

  谷歌識(shí)別語義的過程

  谷歌以善于鼓勵(lì)這些創(chuàng)新而聞名,每年公司都會(huì)舉辦“瘋狂搜索創(chuàng)意”內(nèi)部展示活動(dòng),以便鼓勵(lì)那些離奇但有應(yīng)用潛力的創(chuàng)新。但大多數(shù)時(shí)候,改進(jìn)的過程是充滿艱辛的,需要矢志不渝的精神,需要面對嘗試過程中的打擊。有一個(gè)不成功的搜索已經(jīng)成為傳奇:2001年,辛格得知輸入“audrey fino”時(shí)無法搜到預(yù)期內(nèi)容,而只是返回一些贊揚(yáng)奧黛麗·赫本(Audrey Hepburn)的印度網(wǎng)頁,因?yàn)樵谟《日Z中“fino”是好的意思。辛格說:“我們知道audrey fino是個(gè)人名,但我們的系統(tǒng)沒這么聰明!

  這一失敗使辛格花了多年時(shí)間,試圖改進(jìn)谷歌對姓名的搜索結(jié)果——因?yàn)樾彰伎偹阉髁扛哌_(dá)8%。為了解決這一問題,他不得不掌握“bi-gram拆分”,也就是將多個(gè)詞分割成獨(dú)立的單元。比如,“new york”合在一起組成一個(gè)bi-gram,指的是紐約。但也有三個(gè)字的情況,比如“new york times”,意思是紐約時(shí)報(bào),很明顯二者指的不是同一樣?xùn)|西。如果用戶輸入的是“new york times square”,意思又變成了紐約時(shí)代廣場。人類可以很容易做出區(qū)分,而谷歌不是由人工控制的,它依靠的是算法。

  “Mike Siwek”這一搜索可以解釋谷歌是如何解決這一問題的。辛格輸入顯示代碼的命令后,我們就可以看到信號(hào)是如何決定搜索結(jié)果排序的:通過bi-gram可以確定mike siwek是一個(gè)人名,lawyer是一個(gè)同義詞,mi是一個(gè)地名。辛格說:“從工程師的角度進(jìn)行解構(gòu),系統(tǒng)會(huì)對這些詞進(jìn)行分割,它會(huì)發(fā)現(xiàn)lawyer不是姓氏,siwek不是中間名。同時(shí)lawyer也不是密歇根的一個(gè)鎮(zhèn),因此它是attorney的同義詞!

  這是谷歌從無數(shù)次搜索中獲得的可貴知識(shí)。石頭可以是“rock”,可以是“stone”,還可以是“boulder”(漂石)。如果用戶輸入“rokc”,谷歌仍會(huì)知道他想找的是“rock”。但如果在“rokc”前加“l(fā)ittle”,谷歌則會(huì)知道這是“Arkansas”(阿肯色州)的首府!癆rkansas”的縮寫是“ark”,與諾亞方舟同形,但谷歌會(huì)將二者區(qū)分開來。辛格說:“搜索中最重要的是理解用戶的意圖,因此你不是在匹配詞語,而是在匹配意思!

  谷歌一直在不斷改進(jìn)。近期,谷歌工程師莫琳·海曼斯(Maureen Heymans)發(fā)現(xiàn)了“Cindy Louise Greenslade”的搜索結(jié)果的問題。用戶輸入這些單詞時(shí),算法會(huì)認(rèn)為應(yīng)該找一個(gè)名叫Cindy Louise的人,于是在加利福尼亞的加登格羅夫市找到了一名心理學(xué)家,卻沒有把姓名為“Cindy Louise Greenslade”的人的網(wǎng)頁放在結(jié)果的前十名。海曼斯發(fā)現(xiàn),這是因?yàn)椤癈indy Louise Greenslade”習(xí)慣將名字縮寫成“Cindy L. Greenslade”。她表示:“我們的搜索引擎應(yīng)該更聰明一點(diǎn)!庇谑撬黾恿艘粋(gè)信號(hào),用來尋找中間名的縮寫,F(xiàn)在正確的結(jié)果已經(jīng)被排在了第五位。

  層出不窮的創(chuàng)新

  在任何時(shí)候,谷歌高效運(yùn)轉(zhuǎn)的測試系統(tǒng)都會(huì)進(jìn)行幾十個(gè)這種改進(jìn)。谷歌在全世界專門雇傭了上百人,這些人坐在家里的電腦前判斷更改后的結(jié)果是更好還是更差。但谷歌還有一個(gè)更大的測試團(tuán)隊(duì),這就是成千上萬的谷歌用戶,他們不知不覺地加入了這項(xiàng)長期的質(zhì)量實(shí)驗(yàn)。

  每當(dāng)工程師想測試一項(xiàng)技術(shù)調(diào)整時(shí),他們會(huì)在一小批隨機(jī)用戶中運(yùn)行這些算法,而絕大多數(shù)的用戶扮演的是參照組的角色。需要測試的更改太多,因此谷歌放棄了一次只測試一項(xiàng)技術(shù)調(diào)整的策略。搜索質(zhì)量工程師帕特里克·賴?yán)?Patrick Riley)表示:“在大多數(shù)搜索過程中,你同時(shí)都處于多個(gè)‘實(shí)驗(yàn)組’和‘參照組’之中!钡S后又做出了更正:“事實(shí)上,所有搜索都被卷入了實(shí)驗(yàn)之中,因此用戶每次用谷歌搜索,都作了一次‘小白鼠’!

  這種靈活性——增加信號(hào)、更改代碼、立即測試的能力——就是谷歌團(tuán)隊(duì)為什么說他們可以應(yīng)對來自必應(yīng)、Twitter和Facebook的任何挑戰(zhàn)的原因。事實(shí)上,在過去的六個(gè)月中,谷歌進(jìn)行了200多項(xiàng)改進(jìn),其中一些似乎在模仿(但超越了)它的競爭對手(谷歌表示這只是巧合,稱其多年來一直在增加新功能),其中之一就是實(shí)時(shí)搜索。

  佩奇數(shù)月前曾表示谷歌應(yīng)該每一秒鐘都搜索整個(gè)網(wǎng)絡(luò),因此使這一功能備受期待。當(dāng)用戶搜索具有時(shí)效性的話題時(shí),谷歌結(jié)果頁面的10個(gè)藍(lán)色鏈接中會(huì)有一個(gè)“最新結(jié)果”框。該框帶有拖動(dòng)條,顯示的是從新聞媒體、博客和Twitter等獲得最新內(nèi)容。同樣,谷歌使用信號(hào)來確保最有用的tweet(Twitter上發(fā)布的消息)出現(xiàn)在實(shí)時(shí)信息框中。

  除了實(shí)時(shí)搜索,谷歌還引入了一項(xiàng)新功能,稱作“Goggles”。該功能可以將用戶手機(jī)上拍攝的照片視作搜索請求。谷歌一直努力將搜索變成一種隨時(shí)隨地的行為,“Goggles”也是該努力的一部分。有了攝像和語音識(shí)別功能,智能手機(jī)就會(huì)變成你的眼睛和耳朵。只要找到正確的信號(hào),任何東西都可以變成搜索請求。

  成功的根源:雇傭合適的人才

  谷歌的強(qiáng)大計(jì)算能力和帶寬為公司提供了無可爭辯的優(yōu)勢。有人聲稱這種優(yōu)勢使創(chuàng)業(yè)公司無法對其發(fā)起挑戰(zhàn)。但曼博表示,谷歌成為領(lǐng)導(dǎo)者并非僅僅因?yàn)槠浠A(chǔ)設(shè)施。他說:“最、最、最重要的因素是我們雇傭了合適的人才。”

  按照所有的標(biāo)準(zhǔn),陸奇都是算得上一名合適的人才,他是一位48歲的電腦科學(xué)家。曾經(jīng)與陸奇在雅虎共事的曼博表示:“我對他懷有最高的敬意!钡懫嫒ツ瓿蹼x開了谷歌,前往微軟擔(dān)任必應(yīng)團(tuán)隊(duì)負(fù)責(zé)人。在被問到他的使命時(shí),穿著牛仔和必應(yīng)T恤、身材瘦小的陸奇字斟句酌地輕聲答道:“我們需要始終記住這是一個(gè)長久的旅程,這一點(diǎn)極其重要。”他的眼神中流露出“我不會(huì)離開”的神情,就像電影《殺死比爾》中的烏瑪·瑟曼(Uma Thurman)一樣。

  在過去十年中贏得了瀏覽器戰(zhàn)爭的微軟,在搜索方面似乎懷有“君子報(bào)仇,十年不晚”的想法,因?yàn)樗_信用戶除了谷歌算法還需要?jiǎng)e的東西。微軟搜索發(fā)展主管哈利·沙姆(Harry Shum)表示:“如果我們不對算法進(jìn)行更改,將很難與現(xiàn)在的贏家抗衡,但我們打算對算法進(jìn)行改進(jìn)!

  然而,即使必應(yīng)對算法進(jìn)行改進(jìn),谷歌很可能做出同樣的更改。這就是谷歌成為這樣一個(gè)令人生畏的對手的原因,它已經(jīng)開發(fā)出了一個(gè)足夠敏捷的機(jī)器,以致可以吸收任何可能對其造成威脅的創(chuàng)新——同時(shí)提供著對手無法匹敵的高質(zhì)量搜索結(jié)果。任何人都可以發(fā)明一種買機(jī)票的新方法,但只有谷歌知道如何找到Mike Siwek。(欽亮)

  谷歌算法是一項(xiàng)進(jìn)行中的工作——不斷的調(diào)整和改進(jìn)是為了提供更高質(zhì)量的搜索結(jié)果。以下是PageRan推出之后的一些主要增加項(xiàng)和更改!返俜摇ち芯S

  附:谷歌搜索大事記

  1997年9月:Backrub搜索引擎

  Backrub搜索引擎在斯坦福大學(xué)的服務(wù)器上運(yùn)行了近兩年,之后改名Google。其突破性創(chuàng)新在于:按照一個(gè)網(wǎng)站被鏈接(網(wǎng)絡(luò)上指向該網(wǎng)站的鏈接)數(shù)量和質(zhì)量對搜索結(jié)果進(jìn)行排序。

  2001年8月:新算法

  搜索算法被完全改寫,以便更易于添加新的排序標(biāo)準(zhǔn)。

  2003年2月:本地連接分析

  這一功能給與權(quán)威性網(wǎng)站上的鏈接更大的權(quán)值,也使谷歌獲得了首個(gè)專利。

  2003年夏:Fritz

  該項(xiàng)目使谷歌可以不斷隨時(shí)更新索引,而無需成批更新。

  2005年6月:個(gè)性化結(jié)果

  用戶可以選擇讓谷歌分析其搜索行為,以便提供個(gè)性化結(jié)果。

  2005年12月:Bigdaddy

  對引擎進(jìn)行了更新,使其可以更廣泛地抓取網(wǎng)頁內(nèi)容。

  2007年5月:通用搜索

  在圖片搜索、谷歌新聞、圖書搜索的基礎(chǔ)之上,通用搜索使用戶可以在同一搜索結(jié)果頁面上獲得不同媒介的內(nèi)容。

  2009年12月:實(shí)時(shí)搜索

  實(shí)時(shí)顯示Twitter和博客上的更新。

本新聞共2頁,當(dāng)前在第2頁  1  2  

 
收藏】【打印】【進(jìn)入論壇
  相關(guān)文章:

·谷歌盲人程序員依靠程序讀屏幕
·廣告主稱谷歌AdWords存在大量無效廣告點(diǎn)擊
·谷歌Android員工建議蘋果推7英寸iPad
·谷歌地圖牌照申請進(jìn)入倒計(jì)時(shí) 已派員工參加培
·羅技通知技嘉暫停谷歌電視機(jī)頂盒Revue出貨
·谷歌圣誕節(jié)涂鴉:容納長城等17個(gè)節(jié)日場景
·谷歌搜索結(jié)果頁面新增被黑網(wǎng)站提醒功能
·谷歌Chrome操作系統(tǒng)或可挽救上網(wǎng)本
·谷歌重組中國渠道 代理商欲討說法
·谷歌購買廣告位推廣顯示廣告業(yè)務(wù)
·谷歌中國態(tài)度前后反復(fù):代理商遇窘境

 
 
 
 
最新文章

中關(guān)村艷照門女主角詳記錄高清組圖 
iPhone女孩微博爆紅 最寶貴東西換iPhon
大連護(hù)士門大尺度艷照高清組圖
反恐精英之父內(nèi)維爾:改變電腦游戲銷售
團(tuán)購網(wǎng)站黎明之前:中國市場慘烈廝殺不
團(tuán)購鼻祖Groupon中國揭秘:快與慢的商業(yè)
聯(lián)想V360筆記本模特寫真
愛國者第四代移動(dòng)硬盤將面市、低電壓保
24臺(tái)液晶白拿! 三星“紅韻”顯示器試用
改善的UAC Windows7安全性再次提升

 
推薦文章
1
2
3
4
5
6
7
8
9
10
iPhone女孩微博爆紅 最寶貴東西換
大連護(hù)士門大尺度艷照高清組圖
中關(guān)村艷照門女主角詳記錄高清組
蘋果員工中毒門
宮如敏不雅照瘋傳 看張馨予韓一菲
深耕市場 永續(xù)經(jīng)營——專訪百腦匯
優(yōu)派專業(yè)電子書 讓您回家旅途多姿
揭曉百萬大獎(jiǎng)三星bada魅力綻放中
大明龍權(quán)“江湖英雄會(huì)”全國PK大
永恒之塔校園達(dá)人挑戰(zhàn)賽完美落幕
八卦圖解 More>>
iPhone女孩微博爆紅 最寶貴東西換 大連護(hù)士門大尺度艷照高清組圖
中關(guān)村艷照門女主角詳記錄高清組 宮如敏不雅照瘋傳 看張馨予韓一菲