出版時(shí)間:2010-10 出版社:科學(xué)出版社 作者:鄭家恒 等著 頁(yè)數(shù):318
Tag標(biāo)簽:無(wú)
前言
從20世紀(jì)90年代開始,國(guó)際自然語(yǔ)言處理領(lǐng)域發(fā)生了一些重大變化,重要特征之一就是轉(zhuǎn)向?qū)Υ笠?guī)模真實(shí)文本的研究和處理。以大規(guī)模真實(shí)文本為基礎(chǔ)的語(yǔ)料庫(kù)研究和知識(shí)自動(dòng)獲取受到高度重視。顯然,大規(guī)模真實(shí)文本的處理是計(jì)算語(yǔ)言學(xué)今后一個(gè)時(shí)期的戰(zhàn)略目標(biāo),建設(shè)高質(zhì)量的大規(guī)模語(yǔ)料庫(kù)是中文信息處理領(lǐng)域的基礎(chǔ)性工程。基于語(yǔ)料庫(kù)的語(yǔ)言研究是計(jì)算語(yǔ)言學(xué)的一個(gè)重要領(lǐng)域,語(yǔ)料庫(kù)的建立為語(yǔ)言學(xué)的研究提供了豐富的語(yǔ)言現(xiàn)象,為計(jì)算語(yǔ)言學(xué)學(xué)者從加工的語(yǔ)料庫(kù)中獲取語(yǔ)言知識(shí)、建立語(yǔ)言模型、研究語(yǔ)言信息處理技術(shù)提供了翔實(shí)的語(yǔ)言信息數(shù)據(jù)。作為研究資源的語(yǔ)料庫(kù)的價(jià)值是通過對(duì)語(yǔ)料的加工來(lái)體現(xiàn)的,對(duì)語(yǔ)料庫(kù)加工的層次越高,語(yǔ)料庫(kù)的應(yīng)用價(jià)值就越高。希望本書的出版能促進(jìn)語(yǔ)料庫(kù)加工方法和技術(shù)的發(fā)展,為基于語(yǔ)料庫(kù)的相關(guān)研究和應(yīng)用提供支撐。作者及其課題組從事語(yǔ)言信息處理的教學(xué)與研究已有二十多年。近年來(lái),作者有幸承擔(dān)了若干國(guó)家863計(jì)劃項(xiàng)目(中文文本自動(dòng)切詞和詞性標(biāo)注軟件及其評(píng)測(cè)技術(shù)研究(863-306-03-09-4)、大規(guī)模中文文本語(yǔ)料庫(kù)深加工質(zhì)量檢驗(yàn)技術(shù)研究(2001AAll4031))、國(guó)家自然科學(xué)基金項(xiàng)目(大規(guī)模中文文本語(yǔ)料庫(kù)分詞與詞性標(biāo)注一致性檢驗(yàn)技術(shù)研究(60473139)、基于中文文本的計(jì)算機(jī)中介通信中欺騙檢測(cè)研究(60775041))、省部級(jí)項(xiàng)目及橫向合作項(xiàng)目等。這些項(xiàng)目的研究成果為本書的編寫提供了關(guān)鍵性支持。多年來(lái),劉開瑛、黃昌寧等諸位學(xué)術(shù)前輩都為作者的相關(guān)研究思路和方法提供了許多指導(dǎo)。本書編寫過程中,山西大學(xué)梁吉業(yè)、李德玉、李茹、王文劍、王素格等教授為作者提供了多方面的支持。魏善德、任玉、魏莉、魏麗霞、樊勇、王振宇、劉博、張劍鋒、何苑、溫艷霞、毋菲等同學(xué)也為本書的出版做了許多文字校對(duì)方面的工作,謹(jǐn)在此一并表示深深的感謝。
內(nèi)容概要
本書以作者主持的國(guó)家項(xiàng)目、省部級(jí)項(xiàng)目及合作項(xiàng)目等為依托,以課題組近年來(lái)的研究成果為基礎(chǔ),重點(diǎn)介紹語(yǔ)料庫(kù)深加工中的若干技術(shù)和方法,涉及分詞、詞性標(biāo)注、句法分析、語(yǔ)義標(biāo)注以及相關(guān)加工中的自動(dòng)校對(duì)和一致性檢驗(yàn)技術(shù)。同時(shí),對(duì)語(yǔ)料庫(kù)加工質(zhì)量的評(píng)價(jià)技術(shù)和語(yǔ)料庫(kù)的相關(guān)應(yīng)用做了詳細(xì)介紹。各章節(jié)的順序展示了語(yǔ)料庫(kù)加工中由淺人深的發(fā)展過程。 本書可作為計(jì)算機(jī)、語(yǔ)言學(xué)等專業(yè)高年級(jí)本科生、研究生教材,也可作為自然語(yǔ)言處理和計(jì)算語(yǔ)言學(xué)研究人員的參考書。
書籍目錄
《智能科學(xué)技術(shù)著作叢書》序前言第1章 緒論 1.1 語(yǔ)料庫(kù)的定義和作用 1.1.1 什么是語(yǔ)料庫(kù) 1.1.2 語(yǔ)料庫(kù)的作用 1.2 語(yǔ)料庫(kù)的建立 1.2.1 什么是語(yǔ)料庫(kù)標(biāo)注 1.2.2 語(yǔ)料庫(kù)標(biāo)注的原則 1.2.3 建立語(yǔ)料庫(kù)需要考慮的幾個(gè)問題 1.2.4 語(yǔ)料庫(kù)標(biāo)注和建立的方法 1.2.5 語(yǔ)料庫(kù)的質(zhì)量檢驗(yàn) 1.3 本書的編排 參考文獻(xiàn)第2章 自動(dòng)分詞 2.1 自動(dòng)分詞概述 2.1.1 自動(dòng)分詞的意義 2.1.2 自動(dòng)分詞的主要難點(diǎn) 2.1.3 自動(dòng)分詞方法簡(jiǎn)介 2.1.4 自動(dòng)分詞評(píng)測(cè) 2.2 分詞規(guī)范 2.2.1 制定分詞規(guī)范的目的和意義 2.2.2 幾種典型的分詞規(guī)范介紹 2.3 歧義字段的切分技術(shù) 2.3.1 歧義字段現(xiàn)象分析 2.3.2 基于統(tǒng)計(jì)的歧義字段排歧 2.4 未登錄詞識(shí)別 2.4.1 專有名詞識(shí)別 2.4.2 新詞語(yǔ)識(shí)別 2.5 縮略語(yǔ)識(shí)別 2.5.1 縮略語(yǔ)特征分析 2.5.2 縮略語(yǔ)資源庫(kù)的建立 2.5.3 縮略語(yǔ)識(shí)別模型 2.5.4 縮略語(yǔ)的還原 2.6 分詞一致性檢驗(yàn) 2.6.1 分詞不一致性現(xiàn)象分析 2.6.2 基于規(guī)則的分詞一致性檢驗(yàn)方法 2.6.3 基于統(tǒng)計(jì)的分詞一致性檢驗(yàn)方法 2.6.4 分詞一致性檢驗(yàn)系統(tǒng) 參考文獻(xiàn)第3章 詞性標(biāo)注 3.1 詞性標(biāo)注概述 3.1.1 詞性標(biāo)注的意義 3.1.2 詞性標(biāo)注的難點(diǎn) 3.1.3 詞性標(biāo)注方法簡(jiǎn)介 3.1.4 常用語(yǔ)料庫(kù) 3.2 詞性標(biāo)注規(guī)范 3.2.1 制定詞性標(biāo)注規(guī)范的目的和意義 3.2.2 幾種典型的詞性標(biāo)注規(guī)范介紹 3.3 兼類詞的標(biāo)注 3.3.1 什么是兼類詞 3.3.2 典型的兼類詞標(biāo)注方法 3.4 詞性標(biāo)注一致性檢驗(yàn) 3.4.1 問題描述和分析 3.4.2 一致性檢驗(yàn)?zāi)P偷慕? 3.4.3 實(shí)驗(yàn)結(jié)果和分析 3.4.4 方法評(píng)價(jià) 3.5 詞性標(biāo)注自動(dòng)校對(duì) 3.5.1 基于分類的詞性標(biāo)注自動(dòng)校對(duì) 3.5.2 基于決策表的詞性標(biāo)注自動(dòng)校對(duì) 參考文獻(xiàn)第4章 句法分析 4.1 完全句法分析 4.1.1 完全句法分析概述 4.1.2 形式語(yǔ)法體系 4.1.3 樹庫(kù)資源的建設(shè) 4.1.4 漢語(yǔ)句法分析的特點(diǎn) 4.1.5 句法分析方法 4.1.6 相關(guān)會(huì)議及評(píng)測(cè) 4.1.7 句法分析模型的評(píng)價(jià)方法 4.2 淺層句法分析 4.2.1 淺層句法分析概述 4.2.2 組塊庫(kù)的獲取 4.2.3 組塊的類型及其標(biāo)注規(guī)范 4.2.4 組塊分析方法 4.2.5 相關(guān)會(huì)議及評(píng)測(cè) 4.2.6 評(píng)價(jià)參數(shù) 4.3 句法樹庫(kù)的一致性檢驗(yàn) 4.3.1 不一致現(xiàn)象分析 4.3.2 不一致的發(fā)現(xiàn)和消解 參考文獻(xiàn)第5章 語(yǔ)義標(biāo)注語(yǔ)料庫(kù) 5.1 語(yǔ)義標(biāo)注范圍 5.1.1 詞義標(biāo)注 5.1.2 句義標(biāo)注 5.1.3 篇章級(jí)的語(yǔ)義標(biāo)注 5.2 語(yǔ)義標(biāo)注語(yǔ)料庫(kù)的建立方法 5.2.1 傳統(tǒng)的以人工標(biāo)注為主的方法 5.2.2 自動(dòng)構(gòu)建語(yǔ)義標(biāo)注語(yǔ)料庫(kù) 5.3 主要的語(yǔ)義標(biāo)注語(yǔ)料庫(kù) 5.3.1 詞義標(biāo)注語(yǔ)料庫(kù) 5.3.2 句義標(biāo)注語(yǔ)料庫(kù) 5.3.3 語(yǔ)篇關(guān)系標(biāo)注語(yǔ)料庫(kù) 5.3.4 時(shí)間關(guān)系標(biāo)注語(yǔ)料庫(kù) 5.3.5 信息抽取方面的語(yǔ)料庫(kù) 5.3.6 生物醫(yī)藥領(lǐng)域中的語(yǔ)義標(biāo)注語(yǔ)料庫(kù) 參考文獻(xiàn)第6章 語(yǔ)料庫(kù)評(píng)測(cè) 6.1 語(yǔ)料庫(kù)評(píng)測(cè)的意義 6.2 語(yǔ)料庫(kù)分詞質(zhì)量評(píng)價(jià) 6.2.1 評(píng)價(jià)樣本的抽樣 6.2.2 抽樣樣本的聚類及評(píng)價(jià) 6.2.3 實(shí)驗(yàn)及分析 6.3 語(yǔ)料庫(kù)可用性評(píng)價(jià) 6.3.1 可用性評(píng)價(jià)體系 6.3.2 可用性評(píng)價(jià)計(jì)算 6.3.3 評(píng)價(jià)結(jié)果分析 參考文獻(xiàn)第7章 基于語(yǔ)料庫(kù)的應(yīng)用研究 7.1 網(wǎng)頁(yè)信息處理 7.1.1 重復(fù)網(wǎng)頁(yè)分析 7.1.2 基于語(yǔ)義的網(wǎng)頁(yè)去重 7.1.3 基于網(wǎng)頁(yè)文本結(jié)構(gòu)的網(wǎng)頁(yè)去重 7.2 特殊領(lǐng)域的信息抽取 7.2.1 基于HMM的農(nóng)業(yè)信息抽取 7.2.2 基于NLP的土壤污染數(shù)據(jù)抽取 7.2.3 基于BOotstrapping的交通工具名識(shí)別 7.3 基于大規(guī)模語(yǔ)料庫(kù)的漢語(yǔ)韻律邊界研究 7.3.1 基于統(tǒng)計(jì)語(yǔ)言模型建立二叉樹結(jié)構(gòu) 7.3.2 基于樹結(jié)構(gòu)的漢語(yǔ)韻律邊界預(yù)測(cè) 7.4 基于大規(guī)模語(yǔ)料庫(kù)的欺騙行為檢測(cè) 7.4.1 欺騙性語(yǔ)料庫(kù)的建設(shè) 7.4.2 欺騙檢測(cè)的特征線索 7.4.3 文本特征抽取 7.4.4 欺騙行為檢測(cè)方法 7.4.5 實(shí)驗(yàn)結(jié)果和分析 參考文獻(xiàn)
章節(jié)摘錄
插圖:關(guān)于語(yǔ)料庫(kù)(corpus)的定義主要有以下幾種:(1)McEnery和Wilson指出:“總體來(lái)說(shuō),多篇文本的集合就是語(yǔ)料庫(kù),但在現(xiàn)代語(yǔ)言學(xué)中使用語(yǔ)料庫(kù)這個(gè)術(shù)語(yǔ)時(shí),更傾向于包含更多的內(nèi)涵,主要有采樣(sampling)收集、有代表性(representativeness)、規(guī)模有限(finite size)、機(jī)器可讀(machine-readable)、標(biāo)準(zhǔn)參考數(shù)據(jù)(a standard reference)等內(nèi)涵特征?!保?)語(yǔ)料庫(kù)就是某種語(yǔ)言在實(shí)際運(yùn)用中的大量實(shí)例集合,這些例子可以是書面文本,也可以是語(yǔ)音形式的文本。(3)語(yǔ)料庫(kù)是根據(jù)外部原則選擇的電子形式的文本或文本片段的集合。該集合能夠代表一種語(yǔ)言,或一種語(yǔ)言的分支,或一種語(yǔ)言的變體,并可作為語(yǔ)言學(xué)研究使用的數(shù)據(jù)源[引。這里外部原則(external criteria)是指通過文本的交流功能來(lái)選擇文本的原則。與外部原則相對(duì)的一個(gè)概念就是內(nèi)部原則(internal criteria),具體指按照文本反映的語(yǔ)言細(xì)節(jié)來(lái)選擇文本。在上述的幾種定義中,定義(1)使用最多,認(rèn)為語(yǔ)料庫(kù)不是簡(jiǎn)單收集的文本集合,而是通過采樣收集,具有代表性,規(guī)模大小可以確定,是機(jī)器可讀的標(biāo)準(zhǔn)數(shù)據(jù)。但是Kilgarriff和Grefenstette提出了異議,認(rèn)為McEnery和Wilson混淆了“什么是語(yǔ)料庫(kù)”和“什么是好的、適合于某項(xiàng)語(yǔ)言研究的語(yǔ)料庫(kù)”這兩個(gè)問題,他們認(rèn)為語(yǔ)料庫(kù)就是文本的集合。然而在具體使用中,有些研究者認(rèn)為有許多文本的集合并不一定是語(yǔ)料庫(kù)。最具有爭(zhēng)議的莫過于萬(wàn)維網(wǎng)(WWW)了。WWW剛出現(xiàn)時(shí),人們因?yàn)椴涣私馑阉饕?,也不清楚?duì)WWW如何采樣,覺得WWW相當(dāng)神秘。因此,文獻(xiàn)指出:“WWW不是語(yǔ)料庫(kù),因?yàn)槠渚S度未知且不斷變化,而且WWW最初也不是從語(yǔ)言學(xué)角度來(lái)設(shè)計(jì)的?!?/pre>編輯推薦
《智能信息處理:漢語(yǔ)語(yǔ)料庫(kù)加工技術(shù)及應(yīng)用》:智能科學(xué)技術(shù)著作叢書圖書封面
圖書標(biāo)簽Tags
無(wú)評(píng)論、評(píng)分、閱讀與下載
- 還沒讀過(76)
- 勉強(qiáng)可看(552)
- 一般般(942)
- 內(nèi)容豐富(3907)
- 強(qiáng)力推薦(320)