Collective Intelligence實戰(zhàn)

出版時間:2010-9  出版社:清華大學(xué)出版社  作者:阿拉克  頁數(shù):385  
Tag標(biāo)簽:無  

前言

我在2003年4月創(chuàng)立ReadWriteWeb如今已是全球排名前十的技術(shù)新聞和分析博客)時,定下的目標(biāo)是研究當(dāng)下的Web。盡管2003年透著.com沒落的氣息,但還是出現(xiàn)了一些與Web有關(guān)的激動人心的新事物。我之所以將我的新博客命名為Read/Write Web(斜杠和空格已去除),是因為這個新的Web時代似乎體現(xiàn)了Tim Berners-Lee在發(fā)明Web時提出的理念,即Web應(yīng)可被任何人編輯,并且每個人都可以通過某種方式貢獻Web數(shù)據(jù)。如SatnamAlag在本書中所述,集體智慧(Collective Intelligence)這一研究領(lǐng)域?qū)嶋H上早在Web之前就有了。但是在.com時代結(jié)束之后,我們才開始看到集體智慧運用于Web上的證據(jù)。在2003年,我們不時地會看到它的身影,如在Amazon網(wǎng)站上有用戶評論和推薦、在eBay上有用戶發(fā)起的拍賣、在Wikipedia上有可編輯的百科全書,以及在Google上有用于給網(wǎng)頁流行度排名的PageRank算法。在2004年,O’Reillv&Associates提出了Web 2.O的叫法,最終大多數(shù)人認可使用這個詞來表示現(xiàn)在這個Web時代(就像.com表示上一個Web時代一樣)。這一新定義的核心部分就是利用集體智慧,將用戶貢獻聚集起來,以某種方式在網(wǎng)站或應(yīng)用程序中進行挖掘和利用,這將是很有價值的。雖然Web 2.0十分流行,但是仍然很難實現(xiàn)其許多原理。本書可以在這一方面提供幫助,因為它將數(shù)學(xué)公式和示例應(yīng)用到集體智慧(從現(xiàn)在起簡稱為CI)的概念中。在解釋了如何在Web上收集數(shù)據(jù)和提取智慧后,Satnam在本書第Ⅱ部分介紹了一些特殊的CI技術(shù),如數(shù)據(jù)挖掘、文本分析、聚類和預(yù)測技術(shù)。

內(nèi)容概要

在互聯(lián)網(wǎng)上,利用用戶的集體智慧是成功的關(guān)鍵。集體智慧是一種新興的編程技術(shù),可讓您從人們訪問Web和與Web交互的過程中找到有價值的模式、發(fā)現(xiàn)這些訪問者之間的關(guān)系和確定他們的個人偏好及習(xí)慣等。    《Collective Intelligence實戰(zhàn)》首先介紹了集體智慧的原則和構(gòu)建更具交互性網(wǎng)站的思想,然后通過示例開發(fā)了一個直接可用的基于Java的CI工具包。您將學(xué)會如何從自己的網(wǎng)站和互聯(lián)網(wǎng)中提取有價值的信息,進而發(fā)現(xiàn)流行趨勢、做出實際預(yù)測和進行推薦。在此過程中,將使用大量可顯著減少開發(fā)工作的API和開源工具包。本書專門為Java Web開發(fā)人員而寫。

作者簡介

作者:(美國)阿拉克(Satnam Alag) 譯者:騰靈靈 馮飛Satnam Alag目前是NextBio的工程副總裁。他曾是Reartden commerce的CSA(首席軟件架構(gòu)師),擁有加州大學(xué)伯克利分校的博士學(xué)位。

書籍目錄

第Ⅰ部分  收集數(shù)據(jù),獲取智慧 第1章  了解集體智慧(CI)   1.1  什么是集體智慧   1.2  集體智慧在Web應(yīng)用程序中的應(yīng)用     1.2.1  通過一個示例全面了解集體智慧     1.2.2  使用集體智慧的好處     1.2.3  集體智慧是Web 2.0的核心     1.2.4  利用CI將以內(nèi)容為中心的應(yīng)用程序轉(zhuǎn)化為以用戶為中心的應(yīng)用程序   1.3  對智慧進行分類     1.3.1  顯性智慧     1.3.2  隱性智慧     1.3.3  衍生智慧   1.4  小結(jié)   1.5  相關(guān)資源 第2章  從用戶交互中學(xué)習(xí)   2.1  運用智慧的體系結(jié)構(gòu)     2.1.1  同步和異步服務(wù)     2.1.2  事件驅(qū)動系統(tǒng)中的實時學(xué)習(xí)     2.1.3  非事件驅(qū)動系統(tǒng)中的輪詢     2.1.4  事件驅(qū)動和非事件驅(qū)動體系結(jié)構(gòu)的優(yōu)缺點   2.2  應(yīng)用集體智慧的算法     2.2.1  用戶和項目     2.2.2  表示用戶信息     2.2.3  基于內(nèi)容的分析和協(xié)作過濾     2.2.4  從非結(jié)構(gòu)化文本中提取智慧     2.2.5  計算相似度     2.2.6  數(shù)據(jù)集的類型   2.3  用戶交互的形式     2.3.1  評分和投票     2.3.2  郵寄或轉(zhuǎn)發(fā)鏈接     2.3.3  書簽和保存     2.3.4  購物記錄     2.3.5  點擊流     2.3.6  評論   2.4  將用戶交互轉(zhuǎn)化為集體智慧     2.4.1  一個將評分轉(zhuǎn)化為智慧的示例     2.4.2  來自書簽、保存項目、購物記錄、鏈接轉(zhuǎn)發(fā)、點擊流和評論的智慧   2.5  小結(jié)   2.6  相關(guān)資源 第3章  從標(biāo)簽中提取智慧 第4章  從內(nèi)容中提取智慧 第5章  搜索博客圈 第6章  智能Web爬行第Ⅱ部分  衍生智慧 第7章  數(shù)據(jù)挖掘:過程、工具包和標(biāo)準(zhǔn) 第8章  構(gòu)建文本分析工具包 第9章  通過聚類發(fā)現(xiàn)模式 第10章  進行預(yù)測第Ⅲ部分  在應(yīng)用程序中運用集體智慧 第11章  智能搜索 第12章  構(gòu)建推薦引擎

章節(jié)摘錄

插圖:隨著網(wǎng)站上的內(nèi)容和商品越來越多,John和Jane越來越覺得手工給商品和其他內(nèi)容分類是一件繁瑣而且耗費時間精力的事情。同時,用戶也反映,內(nèi)容導(dǎo)航菜單太過生硬。因此,他們引入了一個新的、動態(tài)的導(dǎo)航分類機制:標(biāo)簽云。在標(biāo)簽云中,標(biāo)簽依照字典順序排列,且每個標(biāo)簽的字體大小取決于標(biāo)簽的重要程度或者出現(xiàn)次數(shù)。這些標(biāo)簽都是自動地通過對內(nèi)容的分析后提取出來的。應(yīng)用程序分析每個用戶的交互,為每個用戶提供一組個性化的標(biāo)簽信息作為站點的導(dǎo)航。如果用戶瀏覽的內(nèi)容不同,這組個性化的標(biāo)簽也隨著改變。甚至不同的用戶在不同的時間點擊同樣的標(biāo)簽時出現(xiàn)的內(nèi)容也不同。這些標(biāo)簽,有的來自于搜索引擎,有的來自于推薦引擎,有的來自于系統(tǒng)外部已有的商品的目錄。在下一個版本中,他們允許用戶采用任意的文本作為項目(item)的標(biāo)簽,以及存儲或者將有趣的項目保存為書簽。當(dāng)用戶給各種各樣的項目加上標(biāo)簽的時候,John和Jane發(fā)現(xiàn)這里面含有豐富的信息可以去挖掘。首先,用戶總是用自己覺得有道理的標(biāo)簽去標(biāo)記項目,這樣,他們實際上是在進行公眾分類(folksonomy)?,F(xiàn)在,標(biāo)簽云中就不只有原先計算機根據(jù)內(nèi)容生成的標(biāo)簽,也有用戶自發(fā)產(chǎn)生的標(biāo)簽。這些用戶產(chǎn)生的標(biāo)簽可以組成一個標(biāo)簽詞典,用來顯著地增強原有的從內(nèi)容自動提取標(biāo)簽的算法。不僅如此,這些用戶定義的標(biāo)簽還可以當(dāng)作廣告生成系統(tǒng)的關(guān)鍵詞,尋找匹配的廣告。這些標(biāo)簽還能把用戶和其他用戶,或者用戶和其他感興趣的商品聯(lián)系起來。群體的智慧正在發(fā)揮著效用。下一步,他們允許用戶生成更多的內(nèi)容。用戶現(xiàn)在可在博客上寫下體驗,或者在留言板上提出問題和回答問題,還可以向這個網(wǎng)站上的維基貢獻維基項目和內(nèi)容,提升整個應(yīng)用程序的質(zhì)量。John和Jane迅速建立了一種可以從非結(jié)構(gòu)化內(nèi)容提取標(biāo)簽的算法。然后,通過對用戶交互的分析,他們可以把興趣類似的用戶聯(lián)系起來,使得用戶可以通過其他用戶提供的交互信息,發(fā)現(xiàn)相關(guān)的商品。他們很快就能夠充分了解用戶,從而能夠提供給每個用戶個性化的網(wǎng)站內(nèi)容,并提供有關(guān)內(nèi)容,比如把小眾商品定向推送給小眾用戶。通過用戶的個人資料以及用戶的交互,他們還可以推送相關(guān)的廣告。

媒體關(guān)注與評論

“本書兼顧內(nèi)容和理論,更重要的是,本書介紹的內(nèi)容切實可行?!?   ——Taran Rampersand KnowProse.com  “本書將教會您如何利用想象的力量。”    ——John Tyler UBS Investment:Bank  “通過閱讀本書,可以學(xué)到實用的機器學(xué)習(xí)。”    ——Robi Sen Twin Tecllllologies  “本書是有關(guān)CI技術(shù)的經(jīng)典之作。我真希望幾年前就已擁有它?!?   ——Jerome Betnand Elastic Grid LLC  “我要向社交網(wǎng)站的所有開發(fā)人員強烈推薦本書?!?   ——Sopan Shewale TWIKI.NET-Enteprise EIKI

編輯推薦

《Collective Intelligence實戰(zhàn)》:用于智能搜索、推薦和預(yù)測的可承用代碼使用Lucene和Nutch的web爬行和文本分析使用WEKA的機器學(xué)習(xí)如何實現(xiàn)Java Data Mining(JDM)標(biāo)準(zhǔn)

圖書封面

圖書標(biāo)簽Tags

評論、評分、閱讀與下載


    Collective Intelligence實戰(zhàn) PDF格式下載


用戶評論 (總計5條)

 
 

  •   《Collective Intelligence實戰(zhàn)》,書名中的Collective Intelligence,書中翻譯做“集體智慧”。不知為什么書名沒翻譯成“集體智慧實戰(zhàn)”。書中給出的“集體智慧”的定義比較長而且不明確,我看后總結(jié),作者認為社交網(wǎng)絡(luò)、標(biāo)簽系統(tǒng)、推薦系統(tǒng)都是“集體智慧”的體現(xiàn)。看后感覺基本算一本入門書。對書中涉及到的軟件系統(tǒng)的實現(xiàn)原理有一些基礎(chǔ)的介紹,另外一半的篇幅直接貼代碼。對代碼的解釋又很少??梢钥醋饕槐救腴T書。全書大綱如下:第一部分:介紹集體智慧:用戶與系統(tǒng)的交互(包括書簽、購物記錄、轉(zhuǎn)發(fā)、點擊、評論等)中可以提取出集體智慧來;標(biāo)簽、博客也是重要的集體智慧的來源;介紹了搜索博客圈、智能web內(nèi)容抓取的實現(xiàn)方案第二部分:集體智慧的實現(xiàn)方式:介紹開眼數(shù)據(jù)挖掘架構(gòu):WEKA;介紹基于Java的數(shù)據(jù)挖掘API:Java Data Mining(JDM);介紹基于Java的開源全文檢索引擎:Lucene;使用WEKA來做聚類與預(yù)測;第三部分:集體智慧的實際的例子使用Lucene搭建智能搜索引擎;構(gòu)建推薦引擎;
  •   很好的書,思路很清晰,具使用價值
  •   內(nèi)容一般,感覺有點亂,淺出但不夠深入!
  •   書籍講的很明白,代碼也比較清楚,很實用
  •   書的內(nèi)容比較全面,文本分類,推薦,等等,還有不少weka的代碼示例,便于快速實現(xiàn)原型。翻譯個別地方有點問題。讀的時候需要自己聯(lián)想一下?!癿emory-based algorithms”不是“基于內(nèi)存的協(xié)同過濾”。中文對應(yīng)成“基于記憶的協(xié)同過濾”更好點吧。
 

250萬本中文圖書簡介、評論、評分,PDF格式免費下載。 第一圖書網(wǎng) 手機版

京ICP備13047387號-7