《五代史平話.周史》:「凡兵在乎精,不在乎多。」

從2008.7.28的外電得知有一個新的搜尋引擎服務推出,這個被喻為是Google競爭對手的Cuil(讀音:酷),在這階段對媒體來說,其對大的吸引點,恐怕是「它是由Google的離職員工所創」。

由於近日我的工作也涉足了這相關的領域,因此對於這部分的產業新聞特別敏感。不過也正因為跟工作有關,因此許多我感興趣的東西都不能寫,因為怕觸及到公司的商業利益跟機密(也因為這樣推掉了許多邀稿的機會,因為想寫的都不能寫)。

Anyway,我看到許多媒體的報導上,說Cuil所強調的四個特點,其中的一項在於它的索引資料是Google的三倍(約1,200億網頁),而且它可以送出更精確的搜尋。我對於這個說法有一點納悶,從Crawler、Data processing、Index / Search Kernel,以及Query processor,四個程序來說(How a Search Engine Works),利用小資源的硬體設備跟頻寬,抓取巨量的資料並製作成索引的確不容易,但製作索引跟精確的排序結果卻沒有直接對等的關連。

要達到精確搜尋的目標,通常得靠Query processor跟Data processing這兩項來調整,在Data processing過程中除了將抓進來的資料做各種分類外,也還得進行重複資料移除、Spam資料排除、連結關係分析......等工作,在Query processor的部分的Ranking條件就更為複雜。

其中Cuil還宣稱「Cuil analyzes the Web, not its users」,但我個人卻覺得所謂的精確搜尋,其實得依賴多數人的行為模式,來達成這個目標。純就網站分析而言,乍看之下倒是較有利於SEO行業的發展。

Anyway,Cuil一推出及造成媒體旋風式的報導,我想應該有些人會無法理解,已經有這麼多人在做這一塊,尤其是當Google遙遙領先時,為什麼後續還有人投入?其實搜尋引擎雖然是一個已經很擁擠的產業,但跨入的障礙點高,成本支出也高,會投入這個產業的開發,肯定有原因存在。

用個詭譎的辯思想法來說,如果已經知道Yahoo是台灣最大的入口網站了,那為什麼還會有那個多人想投入不同類型的入口網站經營呢(包含我們家的哇客滿)?可能是因為我們都看到了這背後的市場吧!而且物極必反,盛極而衰,似乎也是不變的真理,也許有一天會看到有新的服務取代Google吧!

回歸到SE的基本服務,我覺得透過關連詞庫來輸出搜尋結果不見得是個好主意,我們並不知道使用者端是誰,以及他所想要的是什麼。就像Danny Sullivan在「Cuil Launches -- Can This Search Start-Up Really Best Google?」所提到的範例,使用者搜尋哈利波特時,也會連帶的帶出葛來芬多的頁面,因為Cuil知道這兩個詞語有關連。但我不禁想到另一個範例,當我在接近中午時詢問同事:「現在幾點?」同事老是會跟我說:「該吃午飯了。」其實我想知道的是幾點,而不是該不該吃飯了。在某些場景來說,我問這個問題,是想要這個東西的答案,而不是延伸議題的答案。所以,在不知道使用者真正想問什麼時,最好的方式就是直接給他那個問題的答案。

另外目前網路的世界,所遇到的問題是資料太多,而非資料不足。我們透過搜尋引擎,就是想從這茫茫網海裡,去撈出我們想要的資訊。但一次列出了無法計數的龐大搜尋結果,其實並不能滿足我們的要求,所以說搜尋結果貴在於精確,而不是在於資料庫有多龐大。

我利用Cuil做了一些我這個領域裡Keywords品質效度的查詢,發現跟Google還是有一段差距。所以在今日簡單了寫篇文章做記錄,看看未來的日子裡,Cuil是否真的有潛力發展成為威脅Google的對手。

延伸閱讀:
Cuil:想跟Google競爭 結果一塌糊塗

Google員工自立門戶創立Cuil 打老東家

Cuil 會超越 Google 嗎?

Google Beats Cuil Hands Down In Size And Relevance, But That Isn’t The Whole Story

Cuil Exits Stealth Mode With A Massive Search Engine

And….Cuil Goes Offline

Cuil Finally Gets Going

Cuil? Not So Much

Why Cuil Is No Threat to Google

有關cuil的Google News

comScore Releases June 2008 U.S. Search Engine Rankings

comScore Press Releases





2008-07-29  -  duncan Email  -  1743  -  資訊工程 - 讀者回應

回應管理, Pingbacks:

這篇文章還沒有 回應管理/Pingbacks ...

讀者回應:


你的Email位址將不會顯示在這個站點.

您的URL將被顯示.

允許的XHTML標記: <p, ul, ol, li, dl, dt, dd, address, blockquote, ins, del, span, bdo, br, em, strong, dfn, code, samp, kdb, var, cite, abbr, acronym, q, sub, sup, tt, i, b, big, small>
Enter this code:
authimage

(換行會被轉換為 <br /> 標記)
(將你的姓名及Email及網址記在Cookie中)
(讓使用者可以直接寫訊息給你(不會顯示你的Email).)

上一篇文章: Henry & Cary-手工巧克力與糕點下一篇文章: The Charlotte Jane-[每日一圖]2008.07.30