論文簡介
ISSN 1000-9825, CODEN RUXUEWE-mail: jos@iscas.ac.cnJournal of Sofware, VoL.21, No.8, August 2010, Pp.1834-1848htp://www.jos.org.cndoi: 10.3724/SP.J.100 .2010.03832TelFax: +86-10-62562563。by Institute of Sofware, the Chinese Academy of Sciences. All rights reserved.文本情感分析趙妍妍,秦兵,劉挺(哈爾濱工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院信息檢索研究中心,黑龍江哈爾濱150001)Sentiment AnalysisZHAO Yan-Yan*,QIN Bing, LIU Ting(Center for Information Retrieval, Schoo of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China)+ Corresponding author; E-mail: yyzhao@ir hit.edu.cnZhao YY, Qin B, Liu T. Sentiment analysis. Journal of Software, 2010,21(8):1834-1848. htp://www.jos.org.cn/1000-9825/3832.htmAbstract: This paper surveys the state of the art of sentiment analysis. First, three important tasks of sentimentanalysis are summarized and analyzed in detail, including sentiment extraction, sentiment classification, sentimentretrieval and summarization. Then, the evaluation and corpus for sentiment analysis are introduced. Finally, theapplications of sentiment analysis are concluded. This paper aims to take a deep insight into the mainstreammethods and recent progress in this field, making detailed comparison and analysis.Key words: .sentiment analysis; sentiment extraction; sentiment classification; sentiment retrieval andsummarization; evaluation; corpus摘要:對文本情感分析的研究現(xiàn)狀與進(jìn)展進(jìn)行了總結(jié).首先將文本情感分析歸納為3項(xiàng)主要任務(wù),即情感信息抽取、情感信息分類以及情感信息的檢索與歸納,并對它們進(jìn)行了細(xì)致的介紹和分析;進(jìn)而介紹了文本情感分析的國內(nèi)外評測和資源建設(shè)情況;最后介紹了文本情感分析的應(yīng)用.重在對文本情感分析研究的主流方法和前沿進(jìn)展進(jìn)行概括。比較和分析.關(guān)鍵詞:文本情感分析;情感信息抽取;情感信息分類;情感信息的檢索與歸納;評測;資源建設(shè)中圖法分類號: TP391文獻(xiàn)標(biāo)識碼: A隨著Web2.0的蓬勃發(fā)展,互聯(lián)網(wǎng)逐漸倡導(dǎo)“以用戶為中心,用戶參與”的開放式構(gòu)架理念.互聯(lián)網(wǎng)用戶由單純的“讀"網(wǎng)頁,開始向“寫"網(wǎng)頁、“共同建設(shè)"互聯(lián)網(wǎng)發(fā)展,并由被動地接收互聯(lián)網(wǎng)信息向主動創(chuàng)造互聯(lián)網(wǎng)信息邁進(jìn).因此,互聯(lián)網(wǎng)(如博客和論壇)上產(chǎn)生了大量的用戶參與的、對于諸如人物、事件、產(chǎn)品等有價(jià)值的評論信息.這些評論信息表達(dá)了人們的各種情感色彩和情感傾向性,如喜、怒、哀、樂和批評、贊揚(yáng)等.基于此,潛在的用戶就可以通過瀏覽這些主觀色彩的評論來了解大眾輿論對于某-事件或產(chǎn)品的看法.由于越來越多的用戶樂于在互聯(lián)網(wǎng)上分享自己的觀點(diǎn)或體驗(yàn),這類評論信息迅速膨脹中國煤化工河上海量信息的收集和處理,因此迫切需要計(jì)算機(jī)幫助用戶快速獲取和整理這些相:MYHCNMHG-1ent analysis)技術(shù)應(yīng)●Supported by the National Natural Science Foundation of China under Grant Nos.60803093, 60975055 (國家自然科學(xué)基金); theNational High-Tech Research and Development Plan of China under Grant No.2008AA01Z144 (國家高技術(shù)研究發(fā)展計(jì)劃(863))Received 2009-08-14; Revised 2009-12-25; Accepted 2010-03-11趙妍妍等:文本情感分析1835運(yùn)而生(本文中提及的情感分析,都是指文本情感分析).文本情感分析又稱意見挖掘,簡單而言,是對帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過程.最初的情感分析源自前人對帶有情感色彩的詞語的分析",如,“美好"是帶有褒義色彩的詞語,而“五陋”是帶有貶義色彩的詞語.隨著互聯(lián)網(wǎng)上大量的帶有情感色彩的主觀性文本的出現(xiàn),研究者們逐漸從簡單的情感詞語的分析研究過渡到更為復(fù)雜的情感句研究以及情感篇章的研究基于此,按照處理文本的粒度不同,情感分析可分為詞語級、短語級、句子級、篇章級以及多篇章級等幾個(gè)研究層次21按照處理文本的類別不同,可分為基于新聞評論的情感分析和基于產(chǎn)品評論的情感分析.其中,前者處理的文本主要是新聞評論,如情感句“他堅(jiān)定地認(rèn)為臺灣是中國不可分割的一部分”,表明了觀點(diǎn)持有者“他”對于事件“臺灣歸屬問題"的立場;后者處理的主要是網(wǎng)絡(luò)在線的產(chǎn)品評論文本,如“Polo的外觀很時(shí)尚",表明了對評價(jià)對象“Polo的外觀”的評價(jià)“時(shí)尚"是褒義的.由于基于產(chǎn)品評論的情感分析可以幫助用戶了解某-產(chǎn)品在大眾心目中的口碑,因此受到很多消費(fèi)者和商業(yè)網(wǎng)站的青睞.而基于新聞評論的情感分析多用于輿情監(jiān)控和信息預(yù)測中,是國內(nèi)外評測中重要的評測任務(wù).情感分析涉及多項(xiàng)非常有挑戰(zhàn)性的研究任務(wù).本文綜合已有的研究成果,將情感分析歸納為3項(xiàng)層層遞進(jìn)的研究任務(wù),即情感信息的抽取、情感信息的分類以及情感信息的檢索與歸納,如圖1所示.Search: Canon 4D! SummarizationCanon 4D用起來不錯(cuò)這個(gè)數(shù)碼相機(jī)的鏡頭Sentiment retrieval and非常不錯(cuò).但就是照summarization相的時(shí)候快門太響.Bypurpose I M 8By grainSentiment, Subjctivity analysisWord levelPhrase levelclassificationPolarity clssifcationDocument levelOpinion holderPolarity word]Appraisal expressionSentiment extraction我不錯(cuò)相片質(zhì)量不錯(cuò)相片質(zhì)量Fig.1 Research framework of sentiment analysis圖1情感分析的研究框架情感信息抽取是情感分析的最底層的任務(wù),它旨在抽取情感評論文本中有意義的信息單元.其目的在于將無結(jié)構(gòu)化的情感文本轉(zhuǎn)化為計(jì)算機(jī)容易識別和處理的結(jié)構(gòu)化文本,繼而供情感分析上層的研究和應(yīng)用服務(wù).如將情感句“我覺得Canon的相片質(zhì)量不錯(cuò)”轉(zhuǎn)化為如圖1所示的結(jié)構(gòu)化文本形式情感信息分類則利用底層情感信息抽取的結(jié)果將情感文本單元分為若干類別,供用戶查看,如分為褒、貶兩類或者其他更細(xì)致的情感類別(如喜、怒、哀、樂等).按照不同的分類目的,可分為主客觀分析和褒貶分析;按照不同的分類粒度,可分為詞語級、短語級、篇章級等多種情感分類任務(wù).這些分類任務(wù)在情感分析初期吸引了大量的研究者.最高層的情感信息的檢索與歸納可以看作與用戶直接交互的接口,著重強(qiáng)調(diào)檢索和歸納兩項(xiàng)應(yīng)用.該層次的研究主要在前兩項(xiàng)任務(wù)即情感信息抽取和分類的結(jié)果的基礎(chǔ)上進(jìn)行進(jìn)-步的加工處理.情感分析是一個(gè)新興的研究課題,具有很大的研究價(jià)值和應(yīng)用價(jià)值B-51.鑒于此,該研究課題受到國內(nèi)外越來越多的研究機(jī)構(gòu)的重視.本文在接下來的部分首先分別詳細(xì)闡述情感分析的3個(gè)主要研究任務(wù),重點(diǎn)針對各任務(wù)的主流方法和前沿進(jìn)展進(jìn)行對比分析;接著介紹國內(nèi)外主流的評測會議以及現(xiàn)有的資源建設(shè)情況;然后介紹情感分析的幾個(gè)重要應(yīng)用點(diǎn);最后,展望情感分析技術(shù)的發(fā)展起中國煤化工1情感信息抽取"TYHCNMHG情感信息抽取旨在抽取情感文本中有價(jià)值的情感信息,它可以看作情感分析的基礎(chǔ)任務(wù).-直以來,學(xué)術(shù)界對它興趣不減.縱觀目前的研究現(xiàn)狀,有價(jià)值的情感信息單元主要有評價(jià)詞語(如優(yōu)秀、好用)、評價(jià)對象(如GPS.1836Journal of Software 軟件學(xué)報(bào)Vol.21, No.8, August 2010屏幕分辨率)、觀點(diǎn)持有者(如國家政府、臺灣當(dāng)局)等.在對大量的情感文本進(jìn)行分析之后,不少研究者發(fā)現(xiàn),某些組合搭配對于情感分析的上層任務(wù)如情感信息分類以及情感信息的檢索與歸納有更直接的幫助,如評價(jià)搭配(評價(jià)對象和評價(jià)詞語的搭配,如屏幕分辨率-高)、評價(jià)短語(程度副詞及其修飾的評價(jià)詞語的搭配,如不怎么-好)等.下面本文將-一介紹目前情感信息抽取的具體任務(wù)及其主要實(shí)現(xiàn)技術(shù),1.1評價(jià)詞語的抽取和判別評價(jià)詞語又稱極性詞、情感詞,特指帶有情感傾向性的詞語.顯然,評價(jià)詞語在情感文本中處于舉足輕重的地位,評價(jià)詞語的識別和極性判斷在情感分析領(lǐng)域創(chuàng)建伊始就引起了人們極大的興致.基于前人大量的研究工作,評價(jià)詞語的抽取和判別往往是一一個(gè)一體化的工作,主要分為基于語料庫和基于詞典兩種方法|(.基于語料庫的評價(jià)詞語抽取和判別主要是利用大語料庫的統(tǒng)計(jì)特性,觀察一些現(xiàn)象來挖掘語料庫中的評價(jià)詞語并判斷極性早期的一些學(xué)者發(fā)現(xiàn),出連詞(如and或but)連接的兩個(gè)形容詞的極性往往存在--定的關(guān)聯(lián)性,如and連接的形容詞(如lovely and beautiful)極性相同,然而but連接的形容詞(如lovely but unnatura)極性相反基于這種現(xiàn)象,Hatzivasiloglou和McKeown!"從大語料庫華爾街日報(bào)(Wall Street JournaI)中發(fā)捌出大量的形容詞性的評價(jià)詞語.Wiebe等人7]沿襲了較為相似的工作,他們使用了一種柑似度分布的詞聚類方法在大語料庫上完成了形容詞性的評價(jià)詞語的獲取.然而,以上的兩種方法僅將評價(jià)詞語的詞性局限于形容詞詞性,卻忽略了其他詞性的評價(jià)詞語.為了避免評價(jià)詞語詞性的限制,Riloff等人8)手工制定-些模板并選取種子評價(jià)詞語,使用迭代的方法獲取了名詞詞性的評價(jià)詞語.隨后,Turmey和Littman!9)提 出了點(diǎn)互信息(point mutualinformation)的方法判別某個(gè)詞語是否是評價(jià)詞語.這種方法適用于各種詞性的評價(jià)詞語的識別,但是較為依賴種子褒/貶詞語集合.鑒于此,基于語料庫的方法最大的優(yōu)點(diǎn)在于簡單易行,缺點(diǎn)則在于可利用的評論語料庫有限,同時(shí)評價(jià)詞語在大語料庫中的分布等現(xiàn)象并不容易歸納.基于詞典的評價(jià)詞語抽取及判別方法主要是使用詞典中的詞語之間的詞義聯(lián)系來挖掘評價(jià)詞語.這里的詞典一般是指使用WordNet或HowNet等.很自然地,有學(xué)者想到利用詞典將手工采集的種f評價(jià)詞語進(jìn)行擴(kuò)展來獲取大量的評價(jià)詞語10-1.這種方法簡單易行,但是較依賴f種子評價(jià)詞語的個(gè)數(shù)和質(zhì)量,并且容易由于一些詞語的多義性而引入噪聲.為了避免詞語的多義性,一部分學(xué)者使用詞典中詞語的注釋信息米完成評價(jià)詞語的識別與極性判斷(13-16.此外,-些學(xué)者7]沿用了Turey等人的點(diǎn)互信息的方法9),通過計(jì)算WordNet中的所有形容詞與種子褒義詞代表good和貶義詞bad之間的關(guān)聯(lián)度值來識別出評價(jià)詞語然而,并非所有語種的情感資源都像英文-樣豐富,對于某些詞典資源非常稀缺的語種,有學(xué)者將詞典資源豐富的語種的情感詞典翻譯到資源較少的語種中18,如將英文的情感詞典翻譯成中文,供中文情感分析應(yīng)用.但是實(shí)驗(yàn)顯示,不少評價(jià)詞語在經(jīng)過翻譯之后極性發(fā)生了改變這也印證了Wiebe 在文獻(xiàn)[19]中所指出的“詞語的詞義和其極性有一-定的關(guān)系,但是相同的詞義并不一定有相同的極性”.鑒于此,基于詞典的方法的優(yōu)點(diǎn)在于獲取的評價(jià)詞語的規(guī)模非常可觀,但是由于很多詞存在一-詞多義現(xiàn)象,構(gòu)建的情感詞典往往含有較多的歧義詞,如詞語“好”在大多數(shù)情況下表現(xiàn)為“優(yōu)秀”的意思,但在某些情況下扮演修飾成分(如“他跑得好快啊!").此外,還有一部分學(xué)者采用基于圖的方法來識別評價(jià)詞語的極性[6.20].具體來說,該方法將要分類的詞語作為圖上的點(diǎn),利用詞語之間的聯(lián)系形成邊來構(gòu)建圖,繼而采用各種基于圖的迭代算法(propagationalgorithm)來完成詞語的分類.如,有學(xué)者考察圖中兩個(gè)詞語的注釋信息而構(gòu)建圖[20),繼而使用Spin模型對圖中的點(diǎn)迭代地進(jìn)行概率計(jì)算,得出每個(gè)詞語的極性.還有-些學(xué)者嘗試使用多種圖模型(),如最小切分模型(mincuts).隨機(jī)最小切分模型(randomized mincuts)、 標(biāo)簽迭代模型(label propagation)等完成評價(jià)詞語的褒貶分類.實(shí)驗(yàn)證實(shí)了基于圖的方法的有效性基于圖的方法是一種新穎的方法,它可以靈活地將詞語間的各種聯(lián)系作為特征融入圖中,繼而進(jìn)行迭代計(jì)算然而,尋找更為有效的詞語間特征以及如何選取圖管法是信俎漚λ研究的問題.中國煤化工1.2評價(jià)對象的抽取MYH.CNMHG,評價(jià)對象是指某段評論中所討論的主題,具體表現(xiàn)為評論x本中計(jì)價(jià)例謝所修仰的對象,如新聞評論中的某個(gè)事件/話題或者產(chǎn)品評論中某種產(chǎn)品的屬性(如“屏幕")等.現(xiàn)有的研究大部分集中于產(chǎn)品領(lǐng)域的評價(jià)對象趙妍妍等:文本情感分析1837的抽取,他們大多將評價(jià)對象限定在名詞或名詞短語(候選評價(jià)對象)的范疇內(nèi),進(jìn)而對它們進(jìn)行進(jìn)-步的識別.一部分學(xué)者使用基于規(guī)則/模板的方法抽取評價(jià)對象.規(guī)則的制定通常要基于一系列的語言分析與預(yù)處理過程,如詞性標(biāo)注、命名實(shí)體識別、句法分析等相應(yīng)地,制定的規(guī)則也包括詞序列規(guī)則、詞性規(guī)則以及句法規(guī)則等形式.Y[21]使用3條限制等級逐漸遞進(jìn)的詞性規(guī)則從候選評價(jià)對象中抽取出真正的評價(jià)對象.還有的學(xué)者22.23使用關(guān)聯(lián)規(guī)則挖掘的方法或是基于句法分析的結(jié)果叫找出頻繁出現(xiàn)的候選評價(jià)對象,繼而使用兩種剪枝方法去除錯(cuò)誤樣例.然而,這些方法僅能找出頻繁的評價(jià)對象.為了發(fā)掘出非頻繁的評價(jià)對象,有學(xué)者嘗試使用含有評價(jià)詞語和評價(jià)對象槽(slot)的詞序列模板12.此類方法最主要的優(yōu)點(diǎn)在于針對性強(qiáng),可以直接針對待解決的問題或特定的語言現(xiàn)象制定規(guī)則/模板;而其缺點(diǎn)則在于規(guī)則/模板的可擴(kuò)展性差,人工編寫的工作量大,成本較高.有學(xué)者1(29)從另--個(gè)角度詮釋了評價(jià)對象的抽取.他們將評價(jià)對象看作產(chǎn)品屬性的--種表現(xiàn)形式(如對數(shù)碼相機(jī)領(lǐng)城而言,"相機(jī)的大小”是數(shù)碼相機(jī)的一個(gè)屬性,而“相機(jī)滑蓋”是數(shù)碼相機(jī)的一一個(gè)組成部分),繼而考察候選評價(jià)對象與領(lǐng)域指示詞(如“整體部分”關(guān)系指示詞“scannerhas")之間的關(guān)聯(lián)度來獲取真正的評價(jià)對象.實(shí)驗(yàn)結(jié)果表明,這種方法取得了較好的實(shí)驗(yàn)效果,超過了基于規(guī)則/模板的方法,但難點(diǎn)在于領(lǐng)域指示詞的獲取.近年來,隨著話題模型(topicmodel)26,2]的逐漸興起,很多學(xué)者將其應(yīng)用到情感分析領(lǐng)域.由于評價(jià)對象是蘊(yùn)涵于情感文本中的某些話題,因此可以使用話題模型來評價(jià)對象的識別.有學(xué)者(28采用多粒度的話題模型挖掘產(chǎn)品領(lǐng)域情感文本中的評價(jià)對象,并將相似的評價(jià)對象進(jìn)行聚類.這種方法理論上能夠提高評價(jià)對象抽取的召回率.但遺館的是,還沒有實(shí)驗(yàn)將這種方法與上述傳統(tǒng)的基于名詞短語的方法進(jìn)行對比.此外,還有--部分學(xué)者從事新聞評論文本中的話題評價(jià)對象的抽取[29.30).如,對于情感句“所有人都認(rèn)為政府應(yīng)該加強(qiáng)改普醫(yī)療衛(wèi)生條件",抽取話題評價(jià)對象“政府應(yīng)該加強(qiáng)改善醫(yī)療衛(wèi)生條件".1.3觀點(diǎn)持有者抽取觀點(diǎn)持有者的抽取在基于新聞評論的情感分析中顯得尤為重要,它是觀點(diǎn)/評論的隸屬者,如新聞評論句“我國政府堅(jiān)定不移的認(rèn)為臺灣是中國領(lǐng)土不可分割的一部分”中的“我國政府”.很自然地,人們會想到評論中的觀點(diǎn)持有者一般是由命名實(shí)體(如人名或機(jī)構(gòu)名)組成,因此可以借助于命名實(shí)體識別技術(shù)來獲取觀點(diǎn)持有者[3.此外,還有學(xué)者曾嘗試借助語義角色標(biāo)注來完成觀點(diǎn)持有者的抽取(29.但是這些方法較為依賴自然語言處理的基礎(chǔ)技術(shù),有較低的語言覆蓋現(xiàn)象和較差的領(lǐng)域適應(yīng)性.還有人將觀點(diǎn)持有者的抽取定義為分類任務(wù),這種方法的關(guān)鍵在于分類器和特征的選取.如Choi將其看作一個(gè)序列標(biāo)注問題([32,并使用CRF(conditional random field)模型融合各種特征來完成觀點(diǎn)持有者的抽取.相似地,Kim!"將所有名詞短語都視為候選觀點(diǎn)持有者,使用ME(maximum entropy)模型來進(jìn)行計(jì)算.以上的方法將觀點(diǎn)持有者的抽取當(dāng)作-一個(gè)獨(dú)立的任務(wù).通過觀察許多研究者發(fā)現(xiàn),觀點(diǎn)持有者-般是與觀點(diǎn)同時(shí)出現(xiàn)的,所以可以將觀點(diǎn)和觀點(diǎn)持有者的識別作為一個(gè)任務(wù)同時(shí)解決.Bethardl33)在抽取出情感句中的觀點(diǎn)單元(多是由一些短語組成)之后,分析句中觀點(diǎn)和動詞的句法關(guān)系,即可同步獲取觀點(diǎn)持有者.由于產(chǎn)品評論中--般默認(rèn)觀點(diǎn)持有者是用戶本身,因此鮮有研究者在產(chǎn)品評論領(lǐng)域研究這一任務(wù).1.4組合評價(jià)單元的抽取評價(jià)詞語在情感分析中的作用是不言而喻的然而在某些情況下,單獨(dú)的評價(jià)詞語存在-定的歧義性,如評價(jià)詞語“高"在以下3個(gè)句子中的使用:●Sen 1:凱越的油耗真高.●Sen2:捷達(dá)的性價(jià)比相當(dāng)高.●Sen 3:這輛車有1 米多高.中國煤化工Sen 1 和Sen 2是情感句,但是評價(jià)詞語"高"在修飾不同的MHC N M H G性.如,"“高"在Sen 1中表示貶義,而在Sen2中則表示褒義.此外,評價(jià)詞語往往也會出現(xiàn)在非情感句中,如Sen3.因此,僅考慮單獨(dú)的評價(jià)詞語在情感分析中的應(yīng)用是遠(yuǎn)遠(yuǎn)不夠的.研究者們發(fā)現(xiàn),有些包含評價(jià)詞語的“組合評價(jià)單元"(如組合“油1838Journal of Sofware軟件學(xué)報(bào)Vol.21, No.8, August 2010耗-高”、“相當(dāng)-高")對于處理情感分析的上層任務(wù)更有幫助.下面將具體來介紹各種形式的組合評價(jià)單元.1.4.1主觀表達(dá)式的抽取主觀表達(dá)式(subjectiveclues)是指表示情感文本單元主觀性的詞語或詞組第1.1節(jié)的評價(jià)詞語是主觀表達(dá)式的一部分.此外,某些訶語的組合(如villageidiot或getoutofhere)也能很明顯地標(biāo)識文本的主觀性,雖然它們中的任何一個(gè)詞語單獨(dú)可能都并非評價(jià)詞語如何獲取這些有意義的詞組是主觀表達(dá)式抽取的重點(diǎn).Wiebe和Wilson是這項(xiàng)任務(wù)的引領(lǐng)者1341近幾年來,他們挖掘大量的主觀表達(dá)式形成主觀表達(dá)式庫,并基于此完成文本的主客觀分類和褒貶分類.具體來說,他們首先從語料中抽取出所有的n元詞語/詞組(1≤n≤4)作為候選主觀表達(dá)式;繼而通過對比訓(xùn)練語料中的標(biāo)準(zhǔn)的主觀表達(dá)式,為每個(gè)候選主觀表達(dá)式計(jì)算出可能成為主觀表達(dá)式的概率;最后通過對概率值的分析,獲得這些主觀表達(dá)式Wiebe和Wilson]3)在隨后的工作中又引入了“主觀表達(dá)式密度"協(xié)助判斷主觀表達(dá)式.2004年Wiebe和Wilson將他們前期的工作進(jìn)行了總結(jié)6),從不同的語料中擴(kuò)充了大量的主觀表達(dá)式,主要包括手工收集的一部分主觀表達(dá)式以及自動從標(biāo)注/未標(biāo)注語料中學(xué)習(xí)而來的一部分主觀表達(dá)式.此外,他們首次利用句法分析的結(jié)果發(fā)掘了句法主觀表達(dá)式37].隨后,Wiebe和Wilson采用多種特征及機(jī)器學(xué)習(xí)方法對他們獲取的大量的主觀表達(dá)式的情感程度(strong或weak)進(jìn)行了識別. .1.4.2評價(jià)短語的抽取評價(jià)短語表現(xiàn)為一組連續(xù)出現(xiàn)的詞組,但不同于主觀表達(dá)式,該詞組往往是由程度副詞和評價(jià)詞語組合而成,如"very good"等 因此,這種組合評價(jià)單元不僅顧及了主觀表達(dá)式的情感極性,還考察了其修飾成分.這些修飾成分或加強(qiáng)或減弱或置反了主觀表達(dá)式的情感極性,使得評價(jià)短語成為-種情感色彩豐富的組合評價(jià)單元.有學(xué)者采用基于一些情感詞典的方法識別這種評價(jià)短語.如Whitelaw/38)結(jié)合WordNet使用半自動的方法構(gòu)建了形容詞性的評價(jià)詞詞典以及修飾詞詞典對于一個(gè)含有評價(jià)詞語的情感文本,該方法首先食看評價(jià)詞前面的詞語,如果屬于修飾詞詞典,獲取這個(gè)詞組作為評價(jià)短語.根據(jù)兩個(gè)詞典中的屬性值計(jì)算出情感極性.這種方法由于基于較為細(xì)致的詞典,因此準(zhǔn)確率較高,然而,由于詞典中詞語有限而限制了召回率還有學(xué)者使用依存句法結(jié)構(gòu)(如ADV,ATT以及DE結(jié)構(gòu)),在句法樹上獲取評價(jià)短語(2].這種方法巧妙地利用了評價(jià)短語中所含詞語之間的句法修飾關(guān)系,但是較為依賴句法分析的結(jié)果.評價(jià)短語考察的是連續(xù)出現(xiàn)的詞組,然而i有些表示修飾關(guān)系的詞語并非總是和評價(jià)詞語連續(xù)出現(xiàn).如在情感句"[l did [not]~ have any [doubt]~ about t]*"中,修飾詞not和評價(jià)詞doubt 并非連續(xù)出現(xiàn),但它們共同決定了情感句的最終極性.Moilanen等人[39]和Choi等人[40)將其定義為“組合語義單元(compositional semantics)",具體表現(xiàn)為一組非連續(xù)的詞語,通過相互作用來表達(dá)出某種情感極性.組合語義單元可以看作一種更為復(fù)雜的評價(jià)短語,大多使用人工總結(jié)或半自動生成的模板來識別.1.4.3評價(jià)搭 配的抽取評價(jià)搭配是指評價(jià)詞語及其所修飾的評價(jià)對象二者的搭配,表現(xiàn)為二元對<評價(jià)對象,評價(jià)詞語),如情感句“凱越的油耗很高"中的“油耗-高".前面所介紹的“主觀表達(dá)式"和“評價(jià)短語”主要是考察含有情感極性的一些詞和短語,然而情感句中出現(xiàn)的某些“主觀表達(dá)式”和“評價(jià)短語"并非真正地表現(xiàn)出情感極性.如情感句s“車跑得好快啊”中的詞語“好"并不存在情感極性,需要過濾掉.此外,還有-些“主觀表達(dá)式”和“評價(jià)短語”存在一定的歧義,其極性需要根據(jù)上下文而確定.“評價(jià)搭配"則可以很好地解決上述兩點(diǎn)問題.針對評價(jià)搭配的抽取任務(wù),大部分學(xué)者采用了基于模板的獲取方法.Kobayashi等人[41]考察評價(jià)對象和評價(jià)詞語之間的修飾關(guān)系,并用8個(gè)共現(xiàn)模板來描述.然而,由于模板過于簡單且修飾關(guān)系僅僅停留在詞表面,該方法產(chǎn)生了大量的噪聲.為了深入挖掘評價(jià)對象和評價(jià)詞語之間的修飾關(guān)系,-部分學(xué)者嘗試使用句法關(guān)系模板.Bloom等人[42)利用Stanford Parser手工構(gòu)建了31條句法規(guī)則此外,Popescu等人[25]利用MINIPAR Parser手工構(gòu)建了10條依存句法抽取模板來獲取評價(jià)搭配.姚天昉等人4中國煤化工上行路徑”和下行路徑”的匹配規(guī)則;后續(xù)總結(jié)出SBV(subjective verb)極性傳遞規(guī)|YHCNMH G以看出,他們的工作融入了更多對評價(jià)對象和評價(jià)詞語之間深層關(guān)系的挖掘然而,由于匹配規(guī)則或模板的制定存在過多的人工參與,覆蓋率較低.因此在未來的工作中,我們應(yīng)該側(cè)重于研究自動生成評價(jià)對象和評價(jià)詞語之間的匹配規(guī)則的策略.趙妍妍等:文本情感分析18392情感信息分類情感信息的分類任務(wù)可大致分為兩種:- -種是主、客觀信息的二元分類;另一種是主觀信息的情感分類,包括最常見的褒貶二元分類以及更細(xì)致的多元分類441.2.1主客觀信息分類在對情感文本進(jìn)行情感分析時(shí),往往由于情感文本中夾雜著少量的客觀信息而影響了情感分析的質(zhì)量14),因此將情感文本中的主觀信息和客觀信息進(jìn)行分離變得非常必要.由于情感文本單元表現(xiàn)格式比較自由,且區(qū)分主、客觀文本單元的特征并不明顯,在很多情況下,情感文本的主客觀識別比主觀文本的情感分類更有難度.一部分學(xué)者通過考察文本內(nèi)部是否含有情感知識(具體表現(xiàn)為第1節(jié)情感信息抽取的結(jié)果)來完成主客觀信息分類9.46.然而我們發(fā)現(xiàn),許多客觀句中也可能會包含評價(jià)詞語,如客觀句“這位英雄名叫張三豐”同樣含有評價(jià)詞語“英雄".為了在更大程度上消除歧義性,很多學(xué)者挖掘并使用情感文本中的組合評價(jià)單元,如第1.4 節(jié)中提到的“主觀表達(dá)式”、“評價(jià)短語"和“評價(jià)搭配"等組合信息.此外,還有學(xué)者8構(gòu)建情感模板識別情感文本的主客觀性(如貶義模板“ drives (v> up the wall".以上這些基于情感知識的主客觀分類方法的工作重心在于情感文本中情感知識的挖掘以及各種情感知識觸合的方法研究.還有-部分學(xué)者將情感文本單元的主客觀分類定義為--種二元分類任務(wù),即對任意給定的情感文本單元,由分類器協(xié)助判斷其主客觀性.這種方法的關(guān)鍵在于分類器和分類特征的選取.其體來說,Hatzivassilogloul47]使用了詞語作為特征,并采用了NB(Naive Bayes)分 類器完成篇章級情感文本的主客觀分類Yao48]著重從一些特殊的特征角度考察了主客觀文本,如標(biāo)點(diǎn)符號角度、人稱代詞角度、數(shù)字角度等,Pang49則采用基于圖的分類算法完成句子級的主客觀分類.基于特征分類的方法目前還是主客觀信息分類的主流方法.這種方法定義明確,其根本問題在于特征的選取.因此,嘗試使用更深層、更復(fù)雜的分類特征也許是這類方法的突破方向之所在.2.2主觀信息情感分類主觀信息情感任務(wù)按不同的文本粒度可分為詞語級、短語級、句子級和篇章級等.其中,第1節(jié)已經(jīng)對詞語級和短語級的情感分類方法進(jìn)行了總結(jié),因此本節(jié)將著重介紹句子級和篇章級的主觀信息情感分類方法.一般而言,研究者將主觀本文的極性分為褒義和貶義兩類(thumbs up? thumbs down?).縱觀目前的研究工作,與主客觀信息分類類似,可分為兩種研究思路:基于情感知識的方法以及基于特征分類的方法相似地,前者主要是依靠--些已有的情感詞典或領(lǐng)域詞典以及主觀文本中帶有情感極性的組合評價(jià)單元進(jìn)行計(jì)算,來獲取主觀文本的極性.后者主要是使用機(jī)器學(xué)習(xí)的方法,選取大量有意義的特征來完成分類任務(wù).這兩種研究思路有很多代表性的研究工作.文獻(xiàn)[10,47,50,51]首先分析句子/篇章中的評價(jià)詞語或組合評價(jià)單元的極性,然后進(jìn)行極性加權(quán)求和.這種方法的重點(diǎn)-般都放在評價(jià)詞語或組合評價(jià)單元的抽取和極性判斷方法的研究上.在基于特征分類的方法中,Pang[52]首次將機(jī)器學(xué)習(xí)的方法應(yīng)用于篇章級的情感分類任務(wù)中.他們嘗試使用了n-gram詞語特征和詞性特征并對比了NB,ME和SVM(support vector machine)這3種分類模型,發(fā)現(xiàn)unigram特征效果最好.然而,Cui{$3]通過實(shí)驗(yàn)證明,當(dāng)訓(xùn)練語料較少時(shí),unigram的效果較優(yōu);但隨著訓(xùn)練語料的增多,n-gram (n>3)發(fā)揮了越來越重要的作用.Kim{51除了考察傳統(tǒng)的n-gram模型之外,還引入了位置特征和評價(jià)詞特征來完成句子級的褒貶分類Zhaol)則將句子級情感分類任務(wù)提煉為-一個(gè)三層分類任務(wù),利用各層之間類別標(biāo)簽的相互作用,并考慮上下句之間情感的互相影響,使用CRF模型將這些特征進(jìn)行融合類似于主客觀信息分類任務(wù),基于特征的方法的研究重點(diǎn)在于有效特征的發(fā)現(xiàn)以及特征選擇和特征融合等問題的研究.除了對主觀文本信息的褒貶二元分類之外,還有一些研究工作進(jìn)行更細(xì)致的情感分類任務(wù).Pang[S6)將褒貶等級分為3類,并使用了onevs-all 多元分類算法和回歸分類算中國煤化工”則使用了一種基于圖的半指導(dǎo)的分類算法,完成評論的褒貶包括4個(gè)等級的分類.TYHCNMHG2.3觀點(diǎn)分類與挖掘情感分類還可以體現(xiàn)在對某些事件的觀點(diǎn)分類上.Lin 等人[58]主要使用3種分類模型識別有關(guān)“巴以沖突”1840Journal of Software 軟件學(xué)報(bào)Vol.21, No.8, August 2010主題的評論文本所表達(dá)的觀點(diǎn),即是“支持巴方”還是“支持以方".而Kim等人(59)主要對美國大選時(shí)涌現(xiàn)出來的大量評論文章進(jìn)行分類匯總,從而推斷大部分選民是支持“共和黨"還是“民主黨".該文獻(xiàn)同樣也是使用分類器和分類特征相結(jié)合的算法,其中對分類特征進(jìn)行了泛化,取得了較好的效果.和主觀信息情感分類不同的是,"“觀點(diǎn)分類與挖掘"任務(wù)除了需要使用情感知識之外,還需要發(fā)掘一部分與“觀點(diǎn)”相關(guān)的知識.3情感信息的檢索與歸納情感分析是一項(xiàng)以應(yīng)用為導(dǎo)向的研究課題,然而,情感信息抽取和分類后呈現(xiàn)的結(jié)果并不是用戶所能直接使用的.經(jīng)過大量的調(diào)研我們發(fā)現(xiàn),情感分析技術(shù)與用戶的交互主要集中于情感信息檢索和情感信息歸納兩項(xiàng)任務(wù).上.其中,情感信息檢索旨在為用戶檢索出主題相關(guān),且包含情感信息的文檔;情感信息歸納則針對大量主題相關(guān)的情感文檔,自動分析和歸納整理出情感分析結(jié)果提供給用戶參考,以節(jié)省用戶翻閱相關(guān)文檔的時(shí)間.因此,情感信息歸納可以看作是情感信息檢索結(jié)果的一個(gè)深入加工.3.1情感信息檢索傳統(tǒng)的搜索技術(shù)往往僅關(guān)注于檢索事實(shí)性的相關(guān)文檔,然而隨著人們參與互聯(lián)網(wǎng)建設(shè)的增多,尤其是博客、論壇的蓬勃發(fā)展,情感相關(guān)的文檔逐漸成為用戶檢索需求的一部分.因此,很多研究機(jī)構(gòu)和組織結(jié)合傳統(tǒng)的搜索技術(shù),掀起了情感信息檢索(也稱觀點(diǎn)檢索)研究的熱潮.情感信息檢索任務(wù)最早出現(xiàn)在Hurst 和Nigam 的工作中1601.2006年,TREC(Text Retrieval EvaluationConference)首次引入了博客檢索仟?jiǎng)?wù)(Blog track)("1, 更多的研究者致力于該任務(wù)的研究.情感信息檢索要求檢索回的文檔同時(shí)滿足兩項(xiàng)準(zhǔn)則:(1)主題相關(guān);(2)具有情感傾向性.-般而言,該任務(wù) 主要包含3個(gè)步驟: .①結(jié)合傳統(tǒng)的信息檢索模型進(jìn)行主題相關(guān)的文檔檢索.即給定某- -主題,檢索出所有與其相關(guān)的文檔.在這一步驟中,研究者-一般使用傳統(tǒng)的檢索模型以及-些較為成熟的查詢擴(kuò)展技術(shù)(621.也有研究者在查詢擴(kuò)展中融入了情感知識!63),以提高檢索的性能.②相關(guān)文檔的主客觀識別.即針對某--主題的所有相關(guān)文檔,判別它們的主客觀性,并獲取帶有情感的主觀性文檔.在這一步驟中,研究者們一般借鑒情感信息抽取和情感信息分類的技術(shù),如第1節(jié)和第2節(jié)所述.③主題相關(guān)的情感(主觀性)文檔排序.此時(shí)的排序策略需要同時(shí)兼顧文檔的情感打分以及相關(guān)性打分,不少學(xué)者對該步驟進(jìn)行了深入的研究.一種最直接的方式是使用線性加權(quán)函數(shù)來融合兩部分的打分[6].這種方法首先將兩部分的打分剝離開來,分別進(jìn)行打分的設(shè)計(jì)和計(jì)算繼而對這兩個(gè)分?jǐn)?shù)進(jìn)行加權(quán)求和.然而,該方法缺乏理論基礎(chǔ)和細(xì)致的分析.清華大學(xué)的張敏提出了一種新穎的基于概率生成模型的情感文檔排序方法(61.該模型從生成文檔的角度考察文檔的情感打分和相關(guān)性打分,取得了不錯(cuò)的效果.通過以上3個(gè)步驟的分析我們發(fā)現(xiàn),情感信息檢索融合了傳統(tǒng)的信息檢索技術(shù)和新型的情感分析技術(shù)其中,如何使二者進(jìn)行更好的融合是研究者近期和未來所需關(guān)注的重點(diǎn).3.2情感信息歸納就目前的研究現(xiàn)狀而言,情感信息的歸納往往以情感文摘的形式存在傳統(tǒng)的基于事實(shí)性新聞?wù)Z料的文摘旨在提取重要的事實(shí)性信息,并去除冗余信息.相比而言,情感文摘的處理對象為某- -產(chǎn) 品或某一事件的大量用戶評論,因此這種文摘融入了更多的情感信息.它主要側(cè)重于提取具有明顯情感傾向性的主觀信息,是對某一產(chǎn)品或某--事件的評論信息的歸納和匯總.針對產(chǎn)品類評論信息,情感文摘共有兩種呈現(xiàn)方式:--種是基于產(chǎn)品屬性的情感文摘,另一種是基于情感標(biāo)簽的情感文摘.3.2.1基于產(chǎn) 品屬性的情感文摘到目前為止,大部分研究者致力于基于產(chǎn)品屬性的情感:中國煤化工產(chǎn)品屬性特指在產(chǎn)品評論中的評價(jià)對象,如“相片質(zhì)量"等.如圖2所示,這種文摘按;YHCNMHG整理,-般都標(biāo)引出表示“支持”和“反對”該產(chǎn)品屬性的具體句子供用戶參考,以適應(yīng)不同用戶個(gè)性化的需求縱覽目前學(xué)者們的研究工作,標(biāo)準(zhǔn)的基于產(chǎn)品屬性的情感文摘共包含3個(gè)重要的步驟:趙妍妍等:文本情感分析1841(1)識別出評論信息(句子或篇章)中的產(chǎn)品屬性,即評價(jià)對象的識別.如前面所述,很多學(xué)者從事這一任務(wù)的研究,并取得了不錯(cuò)的效果12)-25.但需要關(guān)注的是,許多研究工作忽視了產(chǎn)品屬性的別稱現(xiàn)象,如“膠卷"和“膠片",如果能將其進(jìn)行別名消解,則能更好地將產(chǎn)品的情感文摘進(jìn)行歸納.(2)抽取出描述產(chǎn)品屬性的情感句,即針對產(chǎn)品的每--種屬性,收集與其相關(guān)的所有的情感句1449!這是因?yàn)楹挟a(chǎn)品屬性的句子不--定是情感句,如句子“這個(gè)相機(jī)不需要用膠片"”就不含有任何情感傾向性.這個(gè)步驟類似于句子級的主客觀識別任務(wù),然而也有很多學(xué)者省略了這-步驟,直接進(jìn)行步驟(3).(3)針對產(chǎn)品屬性的每一個(gè)情感句,判斷其情感傾向性.這個(gè)步驟類似于句子級的情感信息分類任務(wù)50-59,基于此,針對產(chǎn)品的每一項(xiàng)屬性列出用戶的各種情感信息(如表示褒義和貶義的句子)形成情感文摘供用戶參考,如圖2所示.還有-些情感文摘將一些統(tǒng)計(jì)信 息也羅列出來,方便用戶對多種產(chǎn)品進(jìn)行對比.如有的情感文摘將用戶針對某一項(xiàng)屬性的“支持”和“反對”情感句的個(gè)數(shù)列舉出來[6);此外,還有情感文摘為每種產(chǎn)品計(jì)算出推薦等級{67)等.通過以上3個(gè)步驟的分析我們發(fā)現(xiàn),基于產(chǎn)品屬性的情感文摘技術(shù)是情感信息抽取和情感信息分類技術(shù)的融合.因此,只有情感分析各項(xiàng)基礎(chǔ)技術(shù)(如上面3個(gè)步驟)指標(biāo)的提高,才能增強(qiáng)這類情感文摘的質(zhì)量.佳能40D支持反對焦距佳能400D焦距不錯(cuò)佳能400D焦距很難進(jìn)行調(diào)整機(jī)身重量佳能的機(jī)身重量還不錯(cuò)佳能的機(jī)身重量太重了Fig.2 Sentiment summarization based on product features圖2基于產(chǎn)品屬性的情感文摘3.2.2基于情感標(biāo)簽的情感文摘由于基于產(chǎn)品屬性的情感文摘較為依賴情感分析的底層技術(shù),而且用戶若想了解某一產(chǎn)品屬性的具體情況仍需閱讀大量標(biāo)有“褒/貶"等情感類別的情感句,為了更便捷地為用戶提供參考意見,基于情感標(biāo)簽的情感文摘應(yīng)運(yùn)而生,如圖3所示出現(xiàn)這類情感文摘的靈感來自于某些用戶自由建設(shè)的在線評論網(wǎng)站,如國外著名的網(wǎng)站epininstt://ww.epinions.com/).用戶在這類網(wǎng)站上發(fā)表對某-產(chǎn)品的看法時(shí),要求填寫對自己觀點(diǎn)的簡要概括,- -般用若干個(gè)詞語或短語的標(biāo)簽形式表現(xiàn),如smal size(pros),short battery lif(cons)等.這些標(biāo)簽?zāi)軌蚝芎玫馗爬ㄔu論的主要內(nèi)容,并以簡短精悍的方式吸引了大量的用戶群,可以看作是一種新形式的基于情感標(biāo)簽的文摘.然而,這類在線評論網(wǎng)站比較少,因此大多數(shù)的在線網(wǎng)絡(luò)評論并沒有人工標(biāo)注的標(biāo)簽此外,依賴用戶提供標(biāo)簽也存在-些問題:--來用戶寫評論時(shí)非常隨意,很有可能概括不全自己的評論;二來用戶書寫的評論用詞較為豐富,不方便計(jì)算機(jī)自動對比兩個(gè)相似產(chǎn)品.如在評價(jià)--個(gè)餐館的飯菜時(shí),有人使用gooddiet,而有的人則使用healthy這個(gè)標(biāo)簽.因此,近年來(2008年至今),不少學(xué)者68.61開始研究為網(wǎng)絡(luò)評論自動生成標(biāo)簽,方便用戶快速閱讀評論以及對比產(chǎn)品.Ttov16)的工作主要是為一組相關(guān)產(chǎn)品評論集的產(chǎn)品屬性打標(biāo)簽具體來說,該方法將產(chǎn)品屬性當(dāng)作文檔集中潛在的話題(topic),繼而使用一個(gè)改進(jìn)的結(jié)合產(chǎn)品文檔和屬性等級的話題模型(topicmoel)26,27]對產(chǎn)晶的屬性進(jìn)行潛在的標(biāo)簽詞語生成.如對于“賓館"評論的屬性“房間(rooms)",該方法可以自動發(fā)掘出相關(guān)文檔集中的相關(guān)詞語,如small,clean等.然而,該方法是建立在已知產(chǎn)品屬性的基礎(chǔ)上的,也就是說,已知這組產(chǎn)品相關(guān)的文檔集中所有的產(chǎn)品屬性(如room,servicelocation等),繼而為每種產(chǎn)品犀件找出潛在的情感標(biāo)簽.然而在現(xiàn)實(shí)的評論語料中,一般不會事先預(yù)知產(chǎn)品的屬性以及屬性等級,B中國煤化工性及其情感標(biāo)簽.Branavan[6)較為巧妙地解決了這個(gè)問題,他將標(biāo)簽定義為“評價(jià)MHC N M H Gng battery life 等),并為單篇的網(wǎng)絡(luò)產(chǎn)品評論打上合適的標(biāo)簽,具體地,該方法首先在一些帶有 標(biāo)簽的網(wǎng)站(如epinion)上獲取某一產(chǎn)品的大量的人工標(biāo)注的標(biāo)簽(如small size 等)作為這一產(chǎn)品的標(biāo)簽庫;接著,使用相似度聚類的方法對這標(biāo)簽1842Joumnal of Sofware軟件學(xué)報(bào)Vol.21, No.8, August 2010庫進(jìn)行聚類,每- -類被視為- -個(gè)潛在的話題(即產(chǎn)品屬性),并月每一類話題包含若千個(gè)相似的情感標(biāo)簽(如smallsize和smartsize);繼而,使用話題模型分析-篇評論中潛在話題的分布情況(用概率值表示);最終通過對概率值的分析獲取最顯著的幾個(gè)潛在話題,并取其代表性情感標(biāo)簽作為這篇評論的標(biāo)簽.該種方法主要針對單篇網(wǎng)絡(luò)評論(單文檔)進(jìn)行分析,優(yōu)點(diǎn)在于標(biāo)簽更加清晰,有完整的意義;此外,由于同一類產(chǎn)品共享一個(gè)標(biāo)簽庫,方便產(chǎn)晶之間的對比,當(dāng)然,該方法還可以推廣到多文檔情感文摘中.Tag:焦距很一般,機(jī)身重量還可以,成像非常贊, ..Review:| 昨犬剛剛買了佳能400D.趕緊上.來跟大家說一說:昨天拍了-天照感覺這個(gè)相機(jī)成像非常好,像傳說中的一-樣但是焦距不容易控制,不是很滿意.但是機(jī)身承量還好,不是很重起碼我用起來還是不錯(cuò)的..Fig.3 Sentiment summarization based on sentiment tag圖3基于情 感標(biāo)簽的情感文摘3.2.3基于 新聞評論的文摘還有部分學(xué)者從事基于新聞評論領(lǐng)域的情感文摘研究.該種文摘和普通的新聞文摘比較類似,除了抽取重要的、信息含量大的核心句子之外,還要重視該句子中的情感信息.有學(xué)者(701提出,這種情感文摘的核心句需要包含兩方面的詞語:概念詞(concept words)和情感詞(sentiment words).因 此,他們將新聞評論信息中的詞語進(jìn)行了細(xì)致的分析,通過分析每個(gè)詞與話題的聯(lián)系找出概念詞,并通過拆分字的方法找出情感詞,進(jìn)而挑選出核心悄感句形成情感文摘.由于基于新聞評論的文摘應(yīng)用面并不是很廣,而且與普通的新聞文摘較為相似,所以目前從事這方面研究的學(xué)者并不多.4情感分析的評測 與資源建設(shè)4.1情感分析的評測隨著互聯(lián)網(wǎng)的發(fā)展和帶有情感色彩的主觀性文本的增多,情感分析得到了越來越多的學(xué)者和研究機(jī)構(gòu)的關(guān)注.近年來,為了推動情感分析技術(shù)的發(fā)展,國內(nèi)外的很多研究機(jī)構(gòu)紛紛組織了--些公共評測,為情感分析的方法研究提供統(tǒng)- - 的平臺.情感分析首先引起了國際文本檢索會議TREC的關(guān)注,并從2006年開始每年都有情感分析相關(guān)的評測任務(wù)出現(xiàn).由于TREC長年專注于檢索方面任務(wù)的評測,因此TREC首次關(guān)注的情感分析任務(wù)是博客檢索任務(wù).對于給定的查詢(話題),該任務(wù)要求在博客數(shù)據(jù)集上(近30GB,320萬篇,2006年規(guī)模)檢索帶有觀點(diǎn)的文檔,并且這些文檔必須含有主觀性信息,而不能是純客觀的敘述(71.除了觀點(diǎn)檢索任務(wù)之外,還有一個(gè)篇章情感分類的子任務(wù),即為檢索返回的文檔進(jìn)行情感分類,分為褒義、貶義和混合(positive,negative,mixed)3類.Blog Track 任務(wù)發(fā)展到TREC2009,有更多的情感分析的元素加入.如:判斷返回的文檔是主觀評論還是客觀事實(shí)、是深入的剖析還是淺顯的總結(jié);判斷返回文檔的博主是男士還是女士,以及是否是專家;判斷返回的文檔是個(gè)人博文還是公司博文等非常有意思的情感分析任務(wù).NTCIR(NII test collection for IR systems)的情感分析評測(multilingual opinion analysis task,簡稱MOAT)同樣出現(xiàn)在2006年,每年舉行一次,并擁有中、 英、日3種語言的標(biāo)準(zhǔn)語料庫.不同于TREC所關(guān)注的觀點(diǎn)檢索,NTCIR評測的主要任務(wù)是從新聞報(bào)道中提取主觀性信息.給定各個(gè)語種的句子,要求參加評測的系統(tǒng)判斷句子是否與篇章的主題相關(guān),并從句子中提取出觀點(diǎn)持有者、評價(jià)中國煤化工析NTCIR觀點(diǎn)分析的路線可以看出,其目標(biāo)是進(jìn)行多語種、多信息源、多粒度、|YHCN M H G.MOAT任務(wù)發(fā)展到NTCIR-8,也融入了一些新的內(nèi)容,如情感問答任務(wù).給定某一情感問題,如“豬流感有哪些負(fù)面影響?",從相關(guān)文本中找出正確的情感評價(jià);又如,跨語言情感分析即給定一個(gè)英文的查詢,從4種不同語言的文檔池中返回相關(guān)趙妍妍等:文本情感分析1843文檔.在國內(nèi),尤其是針對漢語的情感分析問題的研究才剛剛開始.COAE(Chinese opinion analysis evaluation)始辦于2008年,是國內(nèi)第一個(gè)情感分析方面的評測它致力于推動中文情感分析理論和技術(shù)的研究和應(yīng)用,同時(shí)建立中文情感分析研究的基礎(chǔ)數(shù)據(jù)集.COAE共設(shè)置6個(gè)任務(wù)[7),可分為3個(gè)方面:一是中文評價(jià)詞語的識別和分析,側(cè)重于詞語級的傾向性評測;二是中文文本傾向性相關(guān)要素的抽取,主要是抽取句子中的評價(jià)對象,側(cè)重于有關(guān)傾向性的相關(guān)信息的抽取;三是中文文本傾向性的判別,側(cè)重于篇章級的傾向性評測.COAE是首個(gè)提供產(chǎn)品類評價(jià)語料的評測,為中文情感分析的發(fā)展提供了很好的施展平臺.4.2情感分析的資源建設(shè)4.2.1情感 分析的語料除了第4.1節(jié)中3個(gè)國際/國內(nèi)評測所提供的語料以外,不少研究單位和個(gè)人也提供了- -定規(guī)模的語料:(1)康奈爾(Cormell)大學(xué)提供的影評數(shù)據(jù)集htpt////w..ooell.du/pecople/pabo/moviereviewdata/)由電影評論組成,其中持肯定和否定態(tài)度的各1 000篇;另外,還有標(biāo)注了褒貶極性的句子各5 331句,標(biāo)注了主客觀標(biāo)簽的句子各5000句.目前,影評庫被廣泛應(yīng)用于各種粒度如詞語、句子和篇章級的情感分析研究中.(2)伊利諾伊大學(xué)芝加哥分校(University of llinois at Chicago,簡稱UIC)的Hu和Liu提供的產(chǎn)品領(lǐng)域的評論語料:主要包括從亞馬遜和Cnet下載的5種電子產(chǎn)品的網(wǎng)絡(luò)評論(包括兩個(gè)品牌的數(shù)碼相機(jī)、手機(jī)、MP3和DVD播放器).其中,他們將這些語料按句子為單元詳細(xì)標(biāo)注了評價(jià)對象、情感句的極性及強(qiáng)度等信息.因此,該語料適合于評價(jià)對象抽取和句子級主客觀識別,以及情感分類萬法的研究.此外,Liu還貢獻(xiàn)了比較句研究[網(wǎng)]方面的語料.(3) Wiebe等人所開發(fā)的MPQA(multiple perspective QA)庫:包含535篇不同視角的新聞評論,是.一個(gè)進(jìn)行了深度標(biāo)注的語料庫.其中,標(biāo)注者為每個(gè)子句手工標(biāo)注出-些情感信息,如觀點(diǎn)持有者、評價(jià)對象、主觀表達(dá)式以及其極性與強(qiáng)度.文獻(xiàn)[74]描述了整個(gè)的標(biāo)注流程.MPQA語料適合于新聞評論領(lǐng)域任務(wù)的研究.(4)麻省理工學(xué)院(Massachusetts Institute of Technology,簡稱MIT)的Barzilay 等人構(gòu)建的多角度餐館評論語料:共4 488 篇,每篇語料分別按照5個(gè)角度(飯菜、環(huán)境、服務(wù)、價(jià)錢、整體體驗(yàn))分別標(biāo)注上1~5 個(gè)等級.這組語料為單文檔的基于產(chǎn)品屬性的情感文摘提供了研究平臺.(5)中國科學(xué)院計(jì)算技術(shù)研究所的譚松波博士提供的較大規(guī)模的中文酒店評論語料:約有10000篇,并標(biāo)注了褒貶類別,可以為中文的篇章級的情感分類提供-定的平臺.4.2.2情感分析的詞典 資源情感分析發(fā)展到現(xiàn)在,有不少前人總結(jié)出來的情感資源,大多數(shù)表現(xiàn)為評價(jià)詞詞典資源:(1) GI(genera inquirer)評價(jià)詞詞典(英文ht://ww.wjb.harvard.cdu/-inquir).該詞典收集了1914個(gè)褒義詞和2293個(gè)貶義詞,并為每個(gè)詞語按照極性、強(qiáng)度、詞性等打上不同的標(biāo)簽,便于情感分析任務(wù)中的靈活應(yīng)用.(2) NTU評價(jià)詞詞典(繁體中文).該詞典由臺灣大學(xué)收集,含有2 812個(gè)褒義詞與8 276個(gè)貶義詞(79.(3)主觀詞詞典(英文:p://www/c.sitt.edumema/.該詞典的主觀詞語來自O(shè)pinionFinder系統(tǒng).該詞典含有8 221個(gè)主觀詞,并為每個(gè)詞語標(biāo)注了詞性、詞性還原以及情感極性.(4) HowNet評價(jià)詞詞典(簡體中文、英文tp://www.keenage.com/html/e_ index.htm).該詞典包含9 193個(gè)中文評價(jià)詞語/短語,9142個(gè)英文評價(jià)詞語/短語,并被分為褒貶兩類其中,該詞典提供了評價(jià)短語,為情感分析提供了更豐富的情感資源.5情感分析的應(yīng)用中國煤化工隨著互聯(lián)網(wǎng).上評論文本的爆炸式增長,迫切需要計(jì)算機(jī)幫MYHCNMH G '息,,這使得情感分析研究具有重要的應(yīng)用.下面,本文就情感分析的應(yīng)用現(xiàn)狀以及應(yīng)●用戶評論分析與決策這是目前情感分析技術(shù)使用最頻繁的一個(gè)應(yīng)用點(diǎn).人們在購買某- -產(chǎn) 品之前,往往傾向于網(wǎng)上查詢該產(chǎn)品1844Journal of Software 軟件學(xué)報(bào)Vol.21, No.8, August 2010的相關(guān)評論,并通過與其他產(chǎn)品的對比來作最終的決策.由于用戶沒有足夠的時(shí)間和精力瀏覽全部的評論信息,導(dǎo)致最終的決策帶有風(fēng)險(xiǎn)性.情感分析技術(shù)則可以很好地解決這一難題.該技術(shù)首先自動獲取大量的相關(guān)評論信息,進(jìn)而挖掘出主要的產(chǎn)品屬性(如油耗)和評價(jià)詞語(如高),最終通過統(tǒng)計(jì)歸納推理,給用戶提供該產(chǎn)品各個(gè)屬性的評價(jià)意見,方便用戶作最終的決策.目前,國內(nèi)外有很多研究機(jī)構(gòu)根據(jù)現(xiàn)實(shí)生活中的具體需求研發(fā)出各個(gè)領(lǐng)域的情感分析系統(tǒng),幫助用戶對海量信息進(jìn)行分析和決策.例如,Liu等人研發(fā)的OpinionObserver 系統(tǒng)叮以處理網(wǎng)上在線顧客產(chǎn)品評價(jià)(),采用可視化方式對若干種產(chǎn)品評價(jià)對象的綜合質(zhì)量進(jìn)行比較;Wilson等人研發(fā)的OpinionFinder系統(tǒng)可以自動識別主觀性句子以及抽取句子中情感信息[76);上海交通大學(xué)則開發(fā)了一個(gè)用于漢語汽車論壇的情感分析系統(tǒng),挖掘并概括人們對各種汽車品牌的評論和意見[43].●輿情監(jiān)控互聯(lián)網(wǎng)具有開放性、虛擬性、隱蔽性、發(fā)散性、滲透性和隨意性等特點(diǎn),有越來越多的網(wǎng)民樂意通過這種渠道來表達(dá)觀點(diǎn),逐漸成為輿情話題產(chǎn)生和傳播的主要場所.網(wǎng)絡(luò)信息和社會信息的交融對社會的直接影響越來越大,甚至關(guān)系到國家信息安全和長治久安因此,社會管理者應(yīng)及時(shí)對這些輿論進(jìn)行反饋.然而,由于互聯(lián)網(wǎng)上的信息量十分龐大,僅靠人工的方法難以應(yīng)對網(wǎng)上海量信息的收集和處理,因此需要依靠情感分析技術(shù)自動地對輿情信息進(jìn)行監(jiān)控.雖然日前這一應(yīng)用點(diǎn)的研究成果還不是很多,但不影響其成為-一個(gè)有價(jià)值的應(yīng)用點(diǎn).●信息預(yù)測隨著互聯(lián)網(wǎng)的蓬勃發(fā)展,網(wǎng)絡(luò)信息對人們生活的影響已經(jīng)越來越不容忽視.某一個(gè)新事件的發(fā)生或者網(wǎng)絡(luò)上對某個(gè)事件的熱議都在很大程度上左右著人們的思維和行動.如在金融市場上,網(wǎng)絡(luò)上對某支股票的熱議都在很大程度上左右著金融實(shí)踐者們的行為,同時(shí)進(jìn)-一步影響眷股市變化的趨勢;又如,國外總統(tǒng)或議員大選的時(shí)候,很多參選者希望通過匯總選民的網(wǎng)絡(luò)言論來預(yù)測自己是否能夠獲選.因此,信息預(yù)測變得非常必要.情感分析技術(shù)可以幫助用戶通過對互聯(lián)網(wǎng)上的新聞、帖子等信息源進(jìn)行分析,預(yù)測某一事件的未來狀況.Devitt等人(?")通過對金融評論文本的情感極性識別,對術(shù)來的金融走勢作出預(yù)測.Lin等人[58)則構(gòu)造了--個(gè)“巴以戰(zhàn)爭”評論分析系統(tǒng),來區(qū)分某一評論是“支持巴萬”還是“支持以方".此外,Kim[59)通過分析大量美國大選時(shí)的網(wǎng)絡(luò)新聞評論來預(yù)測美國大選的結(jié)果.除了上面介紹的3個(gè)主要的應(yīng)用領(lǐng)域以外,情感分析在其他--些自然語言處理領(lǐng)域也扮演著重要的角色.例如,在信息抽取領(lǐng)域,抽取對象-般是反映客觀事實(shí)的文本,情感分析技術(shù)可用于將文本中的主觀句和客觀句進(jìn)行分離,提高信息抽取的準(zhǔn)確率441.情感分析技術(shù)還可以用于問答系統(tǒng)中,當(dāng)用戶所問問題是情感相關(guān)的問題時(shí),該技術(shù)可以幫助問答系統(tǒng)提供更真實(shí)的答案78]此外,情感分析技術(shù)還可以用于情感文摘的生成,進(jìn)而達(dá)到匯總歸納的目的25.0.5.66.情感分析技術(shù)的快速發(fā)展在很大程度上源于人們改進(jìn)人機(jī)交互現(xiàn)狀的愿望.該技術(shù)在以上眾多研究領(lǐng)域的應(yīng)用使其成為-一個(gè)非常重要的研究方向.6結(jié)束語本文在充分調(diào)研和深入分析的基礎(chǔ)上對情感分析的研究進(jìn)展進(jìn)行了綜述,其中重點(diǎn)介紹了情感分析研究中的幾個(gè)關(guān)鍵問題,包括情感信息的抽取、情感信息的分類、情感信息的檢索與歸納以及情感分析的評測與資源建設(shè)等.情感分析是一個(gè)新興的研究方向,在自然語言處理領(lǐng)域?qū)ζ溥M(jìn)行廣泛研究卻只有10年左右的時(shí)間,所以情感分析研究中尚有許多值得深入探索的問題.在本文的最后,我們基于大量的調(diào)研和近幾年來的研究經(jīng)驗(yàn)提出一些值得進(jìn)一步挖掘的研究點(diǎn),希望對本領(lǐng)域的其他研究者有所啟發(fā):問題1:如前所述,情感信息抽取的研究屬于情感分析的基礎(chǔ),有眾多的基礎(chǔ)研究任務(wù).然而,雖然人們已經(jīng)投入了很大的精力,但總的來看,還有許多工作需要進(jìn)一步細(xì)致中國煤化工別任務(wù)中,大量的研究者局限于詞本身來識別詞的主客觀性以及褒貶性,而忽視了|YHC NMH G.4節(jié)中Sen 1,Sen 2,Sen 3中的“高").因此,在接下來的工作里,迫切需要我們把情感信息抽取的各項(xiàng)任務(wù)做細(xì)、做深此外,組合評價(jià)單元作為一種情感信息完整豐富的情感單元,也非常值得深入且重點(diǎn)加以研究.趙妍妍等:文本情感分析1845問題2:目前來看情感信息分類的大部分工作都集中在句子級和篇章級的褒貶分類任務(wù)中.然而與普通的分類任務(wù)不同,更有意義的情感分類任務(wù)是針對評價(jià)對象的情感分類.即在-一個(gè)情感句或情感篇章中,挖掘出某--具體的評價(jià)對象所對應(yīng)的情感類別,具體表現(xiàn)為COAE評測的任務(wù)3.這是因?yàn)橛脩絷P(guān)注的是大眾對某-評價(jià)對象的情感傾向性,而不是對某---句子或篇章的情感傾向性.然而,這方面的研究工作還比較少且并不深入.此外,情感句的主客觀分類也非常具有研究價(jià)值,為情感信息分類起到了過濾不相關(guān)(客觀)信息的作用.目前主要使用基于特征分類的方法然而由于主客觀句的特征并不明確而導(dǎo)致效果并不理想.因此,如何找到--種有效的方法進(jìn)行主客觀句的分類是- -個(gè) 亟待解決的問題.問題3:基于情感標(biāo)簽的情感文摘是一種簡潔而有效的評論歸納方式,也引起了國外一些學(xué)者的關(guān)注.但總的來看,由于研究得比較粗糙,準(zhǔn)確率并不是很高,無法真正達(dá)到實(shí)用.因此在未來的工作中,需要我們進(jìn)-步將工作細(xì)化,如確定情感標(biāo)簽的形式、研究抽取情感標(biāo)簽的方法以及研究挖掘或生成評論的情感標(biāo)簽的模型等,都是值得深入研究的問題.問題4:情感分析領(lǐng)域在國外已經(jīng)有了十幾年的發(fā)展史,積累了一些情感資源和研究成果然而國內(nèi)的研究卻剛剛起步.由于語言的差異性,一些國外的研究技術(shù)和情感資源無法直接移植到中文處理中.因此,對于我們這些中文處理領(lǐng)域的研究者來講,如何結(jié)合中文處理的特點(diǎn),將--些成熟的技術(shù)和資源應(yīng)用到中文情感分析領(lǐng)域,是一個(gè)值得我們積極探索的任務(wù).致謝在此,我們向?qū)Ρ疚牡难芯抗ぷ魈峁椭睦蠋熀屯瑢W(xué)表示感謝.References:1] Hativassiloglou v, McKeown KR. Predicting the semantic orientation of adjectives. In: Proc. of the EACL'97. Morristown: ACL,1997. 174 -181.[2] Huang XJ, Zhao J. Sentiment analysis for Chinese text. Communications of CCF, 2008,4(2) (in Chincse with English abstract).[3] Yao TF, Cheng XW, Xu FY, Uszkoreit H, Wang R. A survey of opinion mining for texts. Jourmal of Chinese InformationProcessing, 2008.22(3):71- 80 (in Chinese with English abstract).[4] Pang B, Lee L. Opinion mining and sentiment analysis. Foundations and Trends in Information Retrieval, 2008,2(1-2):1-135. [doi:10.1561/150000011][5] Zhou LZ, He YK, Wang JY. Survey on research of sentiment analysis. Journal of Computer Applications, 2082811):2725-2728(in Chinese with English abstract).[6] Rao D, Ravichandran D. Semi-Supervised polarity lexicon induction. In: Lascarides A, ed. Proc. of the EACL 2009. Morristown:ACL, 2009.675 -682.[7] Wiebe J. Learning subjective adjectives from corpora. In: Schultz AC, ed. Proc. of the AAAL. Menlo Park: AAAI Press, 2000.735- -740.[8] Riloff E, Wiebe J. Learning extraction pttens for subjective expressions. In: Collis M, Steedman M, eds. Proc. of the EMNLP2003. Morristown: ACL, 2003. 105-112.[9] Turmey P, Littman ML. Measuring praise and critism: Inference of semantic orientation from association. ACM Trans. onInformation Systems, 2003,21(4):315-346. [doi: 10.1 145/944012.944013][10] Kim SM, Hovy E. Automatic detection of opinion bearing words and sentences. In: Carbonell JG, Sickmann J, eds. Proc. of theIJCNLP 2005. Morristown: ACL, 2005. 61-66.[11] Kim SM, Hovy E. ldentifying and analyzing judgment opinions. In: Bilmes J, et al, eds. Proc. of the Joint Human LanguageTechnology/North American Chapter of the ACL Conf. (HLT-NAACL). Morristown: ACL, 2006. 200-207.[12] Zbu YL, Min J, Zhou YQ, Huang XJ, Wu LD. Semantic orientation computing based on HowNet. Joural of Chinese InformationProcessing, 2006,20(1):14 -20 (in Chinese with English abstract).13] Andreevskaia A, Bergler s. Mining WordNet for a fuzzy sentiment: Sentiment tag extraction from WordNet glosses. In: McCartbyD, Wintner s, eds. Proe. of the European Chapter of the Association中國煤化工\CL). Morristown: ACL,2006. 209- -216.[14] Su F, Markert K. Subijctivity recognition on word senses via semi-supYHCN M H Goa Poc. ofte NAa.2009. Morristown: ACL, 2009. 1-9.[15] Esuli A, Sebastiani F. Determining the scmantic oricntatio of terms through gloss analysis. In: Herzog O, ed. Proc. of the ACM1846Journal of Sofware軟件學(xué)報(bào)Vol.21, No.8, August 2010SIGIR Conf. on Infornation and Knowledge Management (CIKM). New York: ACM Press, 2005. 617-624.[16] Esuli A, Sebastiani F. Determining term subjectivity and term oricntation for opinion mining. h: MeCarthy D, Wintner S, eds.Proc. of the European Chapter of the Association for Computational Linguistics (EACL). Morristown: ACL, 2006. 193 -200.[17]Kamps 3, Marx M, Mokken RJ. Using WordNet to measure semantic orientation of adjectives. In: Calzolani N, et al, eds. Proc. ofthe LREC.2004. 115-1118.[18] Mihalcea R, Banca C, Wiebe J. Learning multilingual subjective language via cross-lingual projections. In: CarrollJ, ed. Proc. ofthe Association for Computational Linguistics (ACL). Morristown: ACL, 2007. 976-983.[19] Wiebe J, Mihalcea R. Word sense and subjectivity. ln: Dale R, Paris C, eds. Proc. of the Conf. on ComputationalLinguistics/Association for Computational Linguistics (COLING/ACL). Morristown: ACL, 2006. 1065-1072.[20] Takamura H, Inui T, Okumura M. Extracting semantic orientation of words using spin model. In: Knight K, ed. Proc. of theAssociation for Computational Linguistics (ACL). Morristown: ACL, 2005. 133-140.[21]Yi J, Nasukawa T, Bunescu R. Sentiment analyzer: extracting sentiments about a given topic using natural language processingtechniques. In: Wu XD, Tuzhilin A, eds. Proc. of the IEEE Int'l Conf. on Data Mining (ICDM). 2003. 427- 434.[22] Hu M, Liu B. Mining opinion features in customer reviews. In: Hendler JA, ed. Proc. of the AAAI 2004. Menlo Park: AAAI Press,2004. 755- -760.[23] Ni MS, Lin HF. Mining product reviews based on association rule and polar analysis. In: Zhu QM, et al, eds. Proc. of the NCIRCS2007. 2007. 628-634 (in Chinese with English abstract).[24] Liu HY, Zhao YY, Qin B, Liu T. Target extraction and sentiment lasification. Journal of Chinese Information Processing, 2010,24(1):84- 88 (in Chinese with English abstract).[25] Popescu AM, Etzioni 0. Extracting product features and opinions from reviews. In: Mooney RU, ed. Proc. of the HLT/EMNLP2005. Morristown: ACL, 2005. 339-346.[26] BIei DM, Ng AY, Jordan MI. Latent dirichlet alocatio.o Journal of Machine Learming Research, 2003,3:993-1022. [doi: 10.1162/jmlr. 2003.3.4-5.993][27] Blei DM, Ng AY, Jordan MI. Correlated topic models. In: Scholkopf B, ed. Advances in NIPS. Hyatt Regency: MIT Press, 2006.147-154.[28] Titov I, McDonald R. Modeling online reviews with multi -grain topic models. In: Huai JP, Chen R, eds. Proc. of the www 2008.New York: ACM Press, 2008. 111-120.[29] Kim SM, Hovy E. Extracting opinions, opinion holders, and topics expressed in online news media text. In: Dale R, Paris c, eds.Proc. of the ACL Workshop on Sentiment and Subjectivity in Text.2006. 1-8.[30] Stoyanov V, Cardie C. Topic identification for fine-grained opinion analysis. In: McKeown K, ed. Proc. of the Conf. onComputational Linguistics. Morristown: ACL, 2008. 817-824.[31] Kim SM, Hovy E Determining the sentiment of opinions. In: Nirenburg s, ed. Proc. of the Coling 2004. Moristown: ACL, 2004.1367-1373.[32] Choi Y, Cardie C, Riloff E. Identifying sources of opinioos with conditional random fields and extraction patterms. In: Mooney RU,ed. Proc. of the HLT/EMNLP 2005. Moristown: ACL, 2005. 355-362.[33] Bethard s, Yu H, Thornton A. Automatic extraction of opinion propositions and tbeir holders. In: Proc. of the AAI Spring Symp.on Exploring Attitude and Affet in Text.2004. 22-24.[34] Wiebe J, Wilson T, Bell M. ldentifying collocations for recognizing opinions. In: Webber BL, ed. Proc. of the ACL/EACLWorkshop on Collocation: Computational Extraction, Analysis, and Exploitation. Morristown: ACL, 2001. 24-31.[35] Wiebe J, Wilson T. Learning to disambiguate potentially subjetive expressions. In: Roth D, van den Bosch A, eds. Proc. of theConf. on Natural Language Learming (CoNLL). Morristown: ACL, 2002.112-118.[36] Wilson T, Wiebe J, Hwa R. Just how mad are you? Finding strong and weak opinion clauses. In: Hendler JA, ed. Proc. of theAAAI 2004. Menlo Park: AAAI Press, 2004. 761-769.[37] Wilson T, Wiebe J, Hwa R. Recognizing strong and weak opinion clauses. Computational Inelligence, 2006.22(2):73-99.[38] Whiteiaw C, Garg N, Argamon s. Using appraisal groups for sentiment analysis. In: Fuhr N, ed. Proc. of the ACM SIGIR Conf. onInformation and Knowledge Management (CIKM). New York: ACM Press, 2005. 625- -631.[39] Moilanen K, Pulman s. Sentiment composition. In: Mitkov R, ed. Proc. of the Recent Advances in Natural Language ProcessingInt'l Conf. (RANLP 2007). 2007. 378 -382.[40] Choi Y, Cardie C. Learning with compositional semantics as structur中國煤化工o alysi In: Lapta M,Ng Ht, eds. Proc. of the EMNLP 2008. Mrristown: ACL, 2008. 793-MHCNMHG[41] Kobayashi N, Inui K, Matsumoto Y. Collecting evaluative expressions for opinion extraction. In: Nagao M, ed. Proc. of the Int'lJoint Conf. on Natural Language Processing (UCNLP). Morristown: ACL, 2004. 584 -589.[42] Bloom K, Garg N, Argamon S. Extracting appraisal expressions. In: Sidner C, ed. Proc. of the HLT-NAACL 2007. Morristown:趙妍妍等:文本情感分析1847ACL, 2007.308- -315.[43] Yao TF, Nie QY, Li JC, Li LL, Lou DC, Chen K, Fu Y. An opinion mining system for Chinese automobile reviews. In: Cao YQ, etal, eds. Proc. of the Frontiers of Chinese Information Processing. Bejing: Tsingbua University Press, 2006. 260- -281 (in Chinesewith English abstract).[44] Xu LH, Lin HF, Zhao J. Construction and analysis of emotional corpus. Jourmal of Chinese Information Processing, 2008.22(1):116-122 (in Chinese with English abstract).[45] Riloff E, Wiebe J, Phillips W. Exploiting subjectivity classification to improve information extraction. In: Yanco H, ed. Proc. ofthe AAAI 2005. Menlo Park: AAAI Press, 2005. 106-11111[46] Hatzivassiloglou V, Wiebe J. Effects of adjective orientation and gradability on sentence subjectivity. In: Kay M, ed. Proc. of theInt'1 Conf. on Computational Linguistics (COLING). Morristown: ACL, 2000. 299- -305.[47] Yu H, Hatzivassiloglou V. Towards answering opinion questions: separating facts from opinions and identifying the polarity ofopinion sentences. ln: Collins M, Steedman M, eds. Proc. of the EMNLP 2003. Morristown: ACL, 2003. 129-136.[48] Yao TF, Peng sw. A study of the lassification approach for Chinese subjective and objective texts. In: Zhu QM, et al, eds. Proc.of the NCIRCS 2007. 2007. 117-123 (in Chinese with English abstract).[49] Pang B, Lee L. A sentimental education: Sentiment analysis using subjectivity summarization based on minimurm cuts. In: Scott D,ed. Proc. of the ACL 2004. Morristown: ACL, 2004. 271-278.[50] Hu MQ, Liu B. Mining and summarizing customer reviews. In: Kohavi R, ed. Proc. of the KDD 2004. New York: ACM Press,2004. 168 -177.[51] Tumey P. Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews. In: Isabelle P, ed.Proc. of the ACL 2002. Morristown: ACL, 2002.417- -424.[52] Pang B, Lee L, Vaithyanathan s. Thumbs up? Sentiment clasifcation using machine learning techniques. In: lsabelle P, ed. Proc.of the EMNLP 2002. Morristown: ACL, 2002. 79-86.[53] Cui H, Mittal vO, Datar M. Comparative experiments on sentiment classification for online product reviews. In: Gil Y, Mooney RJ,eds. Proc. of the AAAI 2006. Menlo Park: AAAI Press, 2006. 1265-1270.[54] Kim SM, Hovy E. Automatic identification of pro and con reasons in online reviews. In: Dale R, Paris C, eds. Proc. of theCOLING/ACL 2006. Morristown: ACL, 2006. 483-490.[55] Zhao J, Liu K, Wang G. Adding redundant features for CRFs-based sentence sentiment classification. In: Lapata M, Ng HT, eds.Proc. of the Conf. on Empirical Methods in Natural Language Processing (EMNLP 2008). Morristown: ACL, 2008. 117-126.[56] Pang B, Lee L. Seeing stars: Exploiting class relationships for sentiment catcgorization with respect to rating scales. ln: Knight K,ed. Proc. of the Association for Computaional Linguistics (ACL). Morristown: ACL, 2005.115-124.[57] Goldberg AB, Zhu X. Seeing stars when there aren't many stars: Graph-Based semi-supervised learning for sentimentcategorization. In: Bilmes J, el al, eds. Proc. of the HLT-NAACL 2006 Workshop on Textgraphs: Graph-Based Algorithms forNatural Language Processing. Morristown: ACL, 2006. 45- -52.{58] Lin WH, Wilson T, Wiebe J. Which side are you on? ldentifying perspectives at the document and sentence levels. In: Bilmes J, etal, eds. Proc. of the Conf. on Natural Language Learning (CoNLL). Morristown: ACL, 2006. 109-1 16.[59] Kim SM, Hovy E. Crystal: Analyzing predictive opinions on the Web. In: Eisner J, ed. Proc. of the Joint Conf. on EmpiricalMethods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL). Morristown: ACL,2007. 1056-1064.[60] Hurst M, Nigam K. Retrieving topical sentiments from online document collections. ln: Proc. of the Document Recognition andRetrieval XI 2004. 27- 34.[61] Ounis 1, Rijke MD, Macdonald C, Mishne G, Soboroffl. Overview of the TREC-2006 Blog track. In: Proc. of the TREC.2006.[62] Zhang w, Yu C, Meng WY. Opinion retrieval from Blogs. In: Laender A, et al., eds. Proc. of the CIKM. New York: ACM Press, .2007. 831-840.63] Zhang w, Yu C. UIc at TREC 2007 Blog track. In: Proc. of the 16th TREC. 2007.[64] Zhang M, Ye XY. A generation model to unify topic relevance and lexicon-based sentiment for opinion retrieval. In: Chua TS,Leong MK, eds. Proc. of the ACM Special Interest Group on Information Retrieval (SIGIR). New York: ACM Press, 2008.411-418.[65] Liu B, Hu MQ, Cheng J. Opinion observer: Analyzing and comparin中國煤化工ed. Poe. of the www2005. New York: ACM Press, 2005. 342 -351.[66] Carenini G, Ng R, Pauls A. Multi-Document summarization of eval:MYHCN MH Gtner s, eds. Proc. of theEuropean Chapter of the Association for Computational Linguistics (EACL). Morristown: ACL, 2006. 305- -312.[67] Qin B, Zhao YY, Gao LL, Liu T. Recommended or not? Give advice on online products. In: Ma J, et al, eds. Proc. of the 5th Int'lConf. on Fuzzy Systems and Knowledge Discovery, IEEE Computer Society Press, 2008. 208-212.1848Jormal of Sofnware 軟件學(xué)報(bào)Vol.21, No.8, August 2010[68] Titov 1, McDonald R. A joint model of text and aspect ratings for sentiment summarization. In: McKcown K, ed, Proc. of the ACL208. Morristown: ACL, 2008. 308- -316.[69] Branavan s, Chen H, Eiseostein J. Learming document-level semantic properties from free- text annotations. In: McKeown K, ed.Proc. of the ACL 08: HLT. Morristown: ACL, 2008. 263- -271.[70] Ku LW, Liang YT, Chen HH. Opinion extraction, summarization and tracking in news and Blog corpora. In: Gil Y, Mooney RU,eds. Proc. of the AAAI 2006 Spring Symp. on Computational Approaches to Analyzing Weblogs. Menlo Park: AAAl Press, 2006.[71] Ounis 1, Rjke MD, Macdonald C. Overview of the TREC-2006 Blog track. lo: Proc. of the 15th Text Retrieval Conf. (TREC).2006.[72] Zhao J, Xu HB, Huang XJ, Tan SB, Liu K, Zhang Q. Overview of Chinese opinion analysis evaluation 2008. 2008 (in Chinese withEnglish abstract). htp://mlpr- web.ia.ac.cn/2008papers/gmhy/abl0.pdf[73] Jindal N, Liu B. ldentifying comparative sentences in text documents. In: Efthimiadis EN, ed. Proc. of the ACM Special InterestGroup on Information Retrieval (SIGIR). New York: ACM Press, 2006. 244 -251.[74] Wiebe J, Wilson T, Cardie C. Annotating expressions of opinions and emotions in language. Language Resources and Evaluation,2005,39(2-3):164- 210.[75]Ku LW, Lo YS, Chen HH. Using polarity scores of words for sentence-level opinion extraction. In: Proc. of the NTCIR-6Workshop Meeting. 2007. 316- 322.[76] Wilson T, Hoffmann P, Somasundaran s. Opinionfinder: A system for subjectivity analysis. In: Mooney RJ, ed. Proc. of theHLT/EMNLP 2005 Demonstration Abstracts. Morristown: ACL, 2005. 34-35.[77] Devitt A. Ahmad K. Sentiment polarity identifcation in financial news: A cohesionbased approach. In: Carroll J, ed. Proc. of theAssociation for Computational Linguistics (ACL). Morristown: ACL, 2007. 984- 991.1[78] Lita LV, Schlaikjer AH, Hong w. Qualitative dimensions in question answering: Extending the definitional QA task. In: Yanco H,ed. Proc. of the AAAL. Menlo Park: AAAI Press, 2005. 1616-1617.附中文參考文獻(xiàn): .2] 黃萱菁,趙軍.中文文本情感分析.中圖計(jì)算機(jī)學(xué)會通訊,2008,4(2).[3]姚天防,程希 文,徐飛玉,漢思嗚思克爾特,王春文本意見挖掘綜述.中文信息學(xué)報(bào)2008,23):71-80.[5] 周立柱,賀宇凱,王建勇.情 感分析研究綜述.計(jì)算機(jī)應(yīng)用,208,28(11):2725- -2728.[12] 朱孀嵐,閔錦,周雅倩,黃萱脊,吳立德.基于HowNet的詞匯語義傾向計(jì)算.中文信息學(xué)報(bào),2006,20(1):14 -20.[23]倪茂樹,林鴻飛.基 于關(guān)聯(lián)規(guī)則和極性分析的商品評論挖掘.見:第3屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集2007 628- -634.24] 劉鴻宇,趙妍妍,秦兵,劉挺.評價(jià)對象抽取及其傾向性分析.中文信息學(xué)報(bào),2010,24(1);:84 88.[43]姚天昉,聶青 陽,李建趣,李林琳,婁德成,陳珂,付字.一個(gè)用于漢語汽車評論的意見挖掘系統(tǒng).中文信息處理前沿進(jìn)展一中國中文信息學(xué)會成立二十五周年學(xué)術(shù)年會論文集2006.260-281.[44]徐琳宏,林鴻飛,趙 晶情感語料庫的構(gòu)建和分析.中文信息學(xué)報(bào)2080221)116-122.2[48]姚天昉,彭 思崴.漢語主客觀文本分類方法的研究.見:第3屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集2007.117-123.[72]趙軍,許洪波,黃萱菁,譚松波,劉康,張奇.中文傾向 性分析評測技術(shù)報(bào)告2008.0趙妍妍(1983 -),女,山東聊城人,博士生,劉挺(1972-),男,博士,教授,博士生導(dǎo)師,主要研究領(lǐng)城為情感傾向性分析.CCF高級會員,主要研究領(lǐng)城為自然語言處理,信息檢索.秦兵(1968- -),女,博士,教授,CCF會員,主要研究領(lǐng)城為文本挖擱.中國煤化工MYHCNMHG
論文截圖
版權(quán):如無特殊注明,文章轉(zhuǎn)載自網(wǎng)絡(luò),侵權(quán)請聯(lián)系cnmhg168#163.com刪除!文件均為網(wǎng)友上傳,僅供研究和學(xué)習(xí)使用,務(wù)必24小時(shí)內(nèi)刪除。