語言分類系統(tǒng)的設(shè)計
- 期刊名字:電子科技
- 文件大小:780kb
- 論文作者:邵澤國
- 作者單位:上海師范大學人文傳播學院
- 更新時間:2020-11-03
- 下載次數(shù):次
電子科技2012 年第25卷第12期圖像.編碼與軟件Electronic Sci. & Tech. /Dec. 15, 2012語言分類系統(tǒng)的設(shè)計邵澤國',2(1. 上海師范大學人文傳播學院,上海200234; 2.上海電子信息職業(yè)技術(shù)學院院長辦公室,上海201411)摘要在語言研究過程中,依據(jù)語言的某一或某些屬性和特征對其進行分類、歸納,是觀測和捕獲語言現(xiàn)象及規(guī)律的必要環(huán)節(jié)和有效方法。對語言進行分類也是將其在語言地圖上渲染與描繪的前提步驟。語言特征分類系統(tǒng)是漢語方言地理信息系統(tǒng)的一個子系統(tǒng),適用于語音及詞匯分類。文中以漢語方言字音分類為例,介紹了語言分類系統(tǒng)的設(shè)計思想和方法,以及如何把語言規(guī)律、語言特性等語言學知識同計算機技術(shù)相融合,系統(tǒng)可以幫助語言研究者對語言進行有效、快速的分類。關(guān)鍵詞語言分類; 方言特征;分配項中圖分類號TP391.1 文獻標識碼 A文章編號1007-7820(2012)12-130 -04Design of a Language Classification SystemSHAO Zeguo',2(1. College of Humanities and Communication,Shanghai Normal University ,Shanghai 20034,China;2. Dean's Office, Shanghai Technical Institute of Electronics & Information, Shanghai 201411, China)Abstract In the process of language research, language classification and induction ( according to one or moreattributes or characteristics of a language) is a necessary part of and an effective method for observing and capturingthe phenomenon and rules of language. To classify a language is also a precious step to render and portray itself inthe GIS system. The classification system designed by the author is a sub-module of Chinese dialeet geography infor-mation system, which has a general adaptability to various follow up classifications. This paper, on the basis of theChinese dialect phonetic system, discusses how to shift the computer technology into a powerful tool on the languageresearch in terms of language features and language rules. The system helps language researchers in classifying lan-guages fast and eficiently.Keywords language classification; dialect feature; allocation term“漢語方言地理信息系統(tǒng)平臺建設(shè)"是由潘悟云.兩個個體。因此,要研究、認識事物,必須對所研究的先生主持的一項教育部哲學社會科學研究重大課題攻事物進行分類,沒有分類就沒有科學[”。關(guān)項目,該系統(tǒng)“以地理空間數(shù)據(jù)庫(Geographical對語言的研究、分析、比較,特別是要將語言特征Database )和方言數(shù)據(jù)庫( Dialectical Database)為基礎(chǔ),在電子地圖上直觀地描繪出來,往往要按照一定規(guī)則通過程序?qū)Ψ窖詳?shù)據(jù)庫進行處理,真正實現(xiàn)自動提取方對語言進行分類。而文中所要討論的語言分類系統(tǒng)是言特征,自動繪制語言地圖,真正成為方言地理研究和漢語方言地理信息系統(tǒng)的-一個子系統(tǒng),它可以幫助語語言政策制定服務的方言地理信息系統(tǒng)(Geographical言研究者對語言進行有效、快速的分類。Informnation System of Dialect)[1-6)"。眾所周知,分類是人類認識客觀世界的一種基本1系統(tǒng)結(jié)構(gòu)與功能介紹的方法。人類最初對事物的命名就是一種分類活動。在漢語方言地理信息系統(tǒng)中,語言特征提取子系統(tǒng)從科學研究的角度說,之所以要研究一種事物, 目的是按照用戶設(shè)置的條件自動提取出各個語言點的語言特為了認識這種事物,以便可以能動地駕馭和利用這種征數(shù)據(jù)。此時的語言特征數(shù)據(jù)往往是一個個數(shù)據(jù)集。事物,使之為人類服務。而所要認識、研究的事物往往一般來講,不會用原始的數(shù)據(jù)集來作為待分配項,而是是紛繁復雜的,群體中的個體從外形到屬性,千差萬將數(shù)據(jù)集交給特征主體層提取子系統(tǒng),得到的主體層數(shù)別,各不相同??梢赃@樣說,世界上找不到完全相同的據(jù)歸并后作為待分配項。分類系統(tǒng)通過系統(tǒng)預設(shè)的分類規(guī)則或中國煤化I)完成對待分配項進收稿日期: 2012-06-25 .行分類。YHCNMHG,再加上語言點的地作者簡介:邵澤國(1978-),男,博士,講師。研究方向:理坐標值一開提父給地埋信息系玩( Geographic Informa-計算語言。tion System,GIS),以供GIS處理后畫出語言分類地圖。130www. dianzikeji. org.邵澤國:語言分類系統(tǒng)的設(shè)計圖像.編碼與軟件|語言特征提取系統(tǒng)|特征數(shù)據(jù)丈藝主體特征歸并,形成待分配項列表第一級分類(頗色選擇)|用戶自由分配|機器自動分配特 征規(guī)則表][人機交互調(diào)整- I第一級分類,進入第二級待分配列表第二級分類(圖例選捅)用戶自由分配機器自動分配-特 征規(guī)則表人機交互調(diào)整地理空間數(shù)據(jù)庫第二級類[分類結(jié)果顯示回歸語盲點、匹配空間信息一. 分類數(shù)據(jù)CIS系統(tǒng)圖1分類系統(tǒng)功能流程圖第一級分類,用顏色來標記,操作是即為待分配項據(jù)庫設(shè)計,所以這里的DB設(shè)計只是涉及到與分類系指定顏色,未指定的待分配項系統(tǒng)將分配其默認顏色,統(tǒng)相關(guān)的幾個數(shù)據(jù)表設(shè)計。這樣就形成了第-級分類的結(jié)果。在指定顏色時,提2.1.1主體層特征表 If mf供了兩種方式。--是用戶自由分配,用戶可以自由單該表用來存儲主體層提取的結(jié)果。在該表上歸并mf選或多選待分配項指定到某一顏色;二是機器 自動分指段,取唯一值作為待分配項 ,寫人表tb _clas的ef字段。配,用戶只要在特征規(guī)則表中選擇符合要求的特征規(guī)表1 If_mf 表結(jié)構(gòu)則,系統(tǒng)將會把符合規(guī)則條件的待分配項自動指定到字段pb_jfnamem用戶選擇的顏色下。無論用戶選用哪種方式,如果對類型bigintnvarchar說明方言點編號方言點名稱主體層特征值此時的分類結(jié)果不滿意,可以進行人機交互調(diào)整。身-級分類的結(jié)果可以作為第二級分類的待分配項,第2.1.2分類數(shù)據(jù)表 lf. _clas .二級分類的操作方法同- -級分類,第二級分類的結(jié)果該表中id字段由“0”開始每寫人一個cf的值自用圖例來標記。用戶可以在完成第- -級分類后就結(jié)束動加1,字段clid、c2id的所有值在分類操作前初始化分類工作,此時每個類別里的特征項對應的圖例與圖為“00”。 字段ph_ .type 存儲分類的結(jié)果,其值形如標由系統(tǒng)默認。分類操作過程中,每個操作的結(jié)果都“02 -01 -01”圖標編號。會在結(jié)果顯示框里同步顯示。最后的分類結(jié)果數(shù)據(jù)通表2 If_clas 表結(jié)構(gòu)過匹配重新回到各自的語言點,類別內(nèi)的不同語言點icclidc2idph. _typenvarchara用不同的圖標來標記。然后從地理空間數(shù)據(jù)庫中取得語言點地理空間坐標值,這些信息一并傳給 GIS系統(tǒng)。說明待分配項編 待分配項大類編號小類編號 類 別標識其功能流程如圖1所示。本分類系統(tǒng)通用于語音特2.1.3特征規(guī)則表If ftype征、義項特征以及語法特征的分類。在自定義分類時系統(tǒng)提供了“條件分類”的快捷方法,即對待分配項按條件自動選擇。過濾條件存儲2設(shè)計與實現(xiàn)在特征規(guī)則表Iffype中。特征類型指的是語音的發(fā)系統(tǒng)前臺使用Microsoft Visual Studio 2008 C#語音方法、發(fā)音部中國煤化工征類型有:鼻言,后臺使用Microsoft SQL Server2008系統(tǒng)。音、邊近音、邊閃YHCNMH G歐清、次濁、近2.1DB設(shè)計與實現(xiàn)音、清音、全清、全濁、塞擦音、墨音、閃音、送氣、響音、由于之前已經(jīng)完成了漢語方言地理信息系統(tǒng)的數(shù)濁音、阻音。sql 字段中的SQL語句是生成對應的特征www. dianzikeji. org131.圖像.編碼與軟件邵澤國:語言分類系統(tǒng)的設(shè)計類型在元數(shù)據(jù)表中對應的標記。配項從Ib3(對應控件C)移入到lb2(C或A)。如果該分表3 If ftype表結(jié)構(gòu)類名下有子類,同時刪除子類名(嵌套調(diào)用delname)。一字段id_typeql個Ibl的項的value對應- -個cid,這時將數(shù)據(jù)表If clas類型bigintnvarchar中值為cid的clid(或c2id)初始化為“00”。說明特征規(guī)則編號特征類型生 成規(guī)則的SQL語句2.3.3添加分 類項函數(shù)2.2用戶界 面設(shè)計控件G調(diào)用,用戶先選中l(wèi)b1中的某- -項( 對應控通過用戶界面用戶可以對待分配項劃分為兩級3件B),再選擇lb2(對應控件A或C)中的一些項,系層,即對待分配項可分為兩個級別,大類和小類;同時統(tǒng)將Ib2中選中的分配項移入lb3(對應控件C或C2)為繪制地圖提供顏色圖例、圖標3層標識信息。中,這些分配項歸為-類,用lbl的選中項命名。同時對數(shù)據(jù)表If _clas 的操作是將ef與lb2選中項匹配的記漢語方言特征分類系統(tǒng)錄的clid(或c2id)字段值改為lb1的選中項的值。2.3.4移出 分類項函數(shù)控件H調(diào)用,用戶選擇lb1 (對應控件C)中的某些項,系統(tǒng)將選中項移人到lb2中(對應控件C或A)。如選中項中包含-一個類下的所有項,則調(diào)用函數(shù)delname:將這個類名刪除。對數(shù)據(jù)表If_ clas 的操作是將cf與lbl選中項匹配的記錄的c1id(或c2id)字段初始化。圖2用戶界面2.3.5條件分 類函數(shù)AB、C為ListBox控件;A用于接收和顯示待分配用戶選擇lb1 (對應控件J)中的某- -項,其值與數(shù)項數(shù)據(jù);B(從左向右分別稱為B B2 )用來接收和顯示據(jù)表Ifftype中的type字段匹配,得到相應的SQL字分類命名數(shù)據(jù);B,用顏色表示;B2用圖例表示;C(從.段的值,即一一個SQL語句,系統(tǒng)執(zhí)行SQL得到一個數(shù)左向右分別稱為C、C2)用來接收和顯示對應類別下?lián)?讓后經(jīng)Ib2(對應控件A或C.)中出現(xiàn)在這個數(shù)據(jù)集中的項標志為選中狀態(tài)。的已分配項數(shù)據(jù)。D為TextBox控件,用于接收和顯示分類結(jié)果數(shù)據(jù)。3結(jié)束語E、F、G、H為Button 控件;E為添加分類名;F為從系統(tǒng)的處理機制看,除了系統(tǒng)開始運行時要裝刪除分類名;G為添加分配項;H為移除已分配項。I、J為DropDownList控件。I( 從左向右分別稱為1、載待分配項數(shù)據(jù)和分類完成后要輸出分類結(jié)果,這兩12)靜態(tài)獲取Items ,第~ -個為顏色選擇序列:褐色、藍色、個動作要訪問數(shù)據(jù)庫,其中間運行過程可以避免系統(tǒng)紅色綠色、粉色黑色;第二個為圖例選擇序列:實心空對數(shù)據(jù)庫的寫操作。所以用一個DataTable實例來存心、上實下空、上空下實、左實右空、左空右實、中心實點。儲據(jù)表If_clas,同時該系統(tǒng)與其他系統(tǒng)間數(shù)據(jù)集的傳K均為Button控件,“取消”為取消之前所有分類送借助session實現(xiàn)。操作,并清空控件B、C、D的顯示信息,同時改寫表lf_參考文獻clas。“確定”將分類結(jié)果數(shù)據(jù)寫人到表lf_ _clas ,并傳值[1] JOHN C. Introducing speech and langwage processing [ M].給GIS系統(tǒng)?!胺祷亍睘榉祷氐健胺窖蕴卣魈崛 表撁?。北京:北京大學出版社,2010.2] 曹志耘漢語方言地圖集[M].上海:商務印書館,2008.2.3功能實現(xiàn)[3] CHRISTIAN N. Peoessional C# ( programmer to program-這里僅介紹功能實現(xiàn)的幾個核心函數(shù)。mer) [M]. 北京:清華大學出版社,2010.4]郭鄭州. SQL Server 2008完全學習手冊[ M].北京:清華2.3.1分類命名 函數(shù)大學出版社,2011控件E調(diào)用。其功能是將用戶選擇的drl中的項[5]陸儉明.現(xiàn)代漢語語法研究教程[M].北京:北京大學出,2003.(text)寫入lb2,清除當前l(fā)b1的所有項。如做- -級分[6]潘悟云. 教育部哲學社會科學研究重大課題攻關(guān)項目投類時,將用戶選中的控件1中的項(褐色、藍色、紅色、標評審書[ R].上海:上海師范大學,2009.林燾.語音學教程[ M].北京:北京大學出版社, 1992.綠色粉色黑色之- -)寫人B,,清除C,的內(nèi)容。[8] PETER L.語音學教程( A course in phonetics)[M].張維佳,譯.北京:北京大學出版社.2011.2.3.2刪除分類 名函數(shù)[9] 朱曉中國煤化工書館.2010.控件F調(diào)用,其功能是刪除一個已 經(jīng)分配的類(大[10][據(jù)庫設(shè)計二階分析模式[ JYHC N M H G2003,28(1);:98 -101.類或小類)。用戶選擇Ibl (對應控件B)一些項,系統(tǒng)將[11] 雷特. SQL Server 2008 DBA人門經(jīng)典[M].張德群,譯.北lb1中選中的項清除,并將清除項(作為類名)下的所有分京:清華大學出版社,2010.132www. dianzikeji. org.
-
C4烯烴制丙烯催化劑 2020-11-03
-
煤基聚乙醇酸技術(shù)進展 2020-11-03
-
生物質(zhì)能的應用工程 2020-11-03
-
我國甲醇工業(yè)現(xiàn)狀 2020-11-03
-
石油化工設(shè)備腐蝕與防護參考書十本免費下載,絕版珍藏 2020-11-03
-
四噴嘴水煤漿氣化爐工業(yè)應用情況簡介 2020-11-03
-
Lurgi和ICI低壓甲醇合成工藝比較 2020-11-03
-
甲醇制芳烴研究進展 2020-11-03
-
精甲醇及MTO級甲醇精餾工藝技術(shù)進展 2020-11-03



