馬克斯普朗克人類歷史科學(xué)研究所發(fā)布最新版本的跨語言共詞化數(shù)據(jù)庫CLICS
0




馬克斯普朗克人類歷史科學(xué)研究所發(fā)布最新版本的跨語言共詞化數(shù)據(jù)庫CLICS(CREDIT:J.-M. List, T. Tresoldi / S. J. Greenhill)
(神秘的地球uux.cn報道)據(jù)EurekAlert!:由馬克斯普朗克人類歷史科學(xué)研究所的學(xué)者領(lǐng)導(dǎo)的一組科學(xué)家發(fā)布了最新版本的跨語言共詞化數(shù)據(jù)庫(Database of Cross-Linguistic Colexifications CLICS),涵蓋了超過3100種語言的斯普所發(fā)數(shù)據(jù)關(guān)聯(lián)詞匯。新版本的朗克歷史深圳包夜外圍(微信181-8279-1445)一二線城市模特空姐網(wǎng)紅學(xué)生上門數(shù)據(jù)庫以前所未有的規(guī)模提供了詞匯數(shù)據(jù),并為數(shù)據(jù)聚合提供了詳細、人類可復(fù)制的科學(xué)跨語庫工作流,使世界各地的研究言共學(xué)者都可以為數(shù)據(jù)庫的未來版本做出貢獻。
在每種語言中,布最本都有兩個或兩個以上的新版概念用同一詞表示的情況,例如英語單詞fly,詞化既指飛行的馬克行為,又指蒼蠅。斯普所發(fā)數(shù)據(jù)語言學(xué)家將這種模式稱為共詞化(colexification)。朗克歷史通過比較不同語言中的人類共詞化現(xiàn)象,研究人員可以洞悉廣泛的科學(xué)跨語庫問題,包括人類的研究言共深圳包夜外圍(微信181-8279-1445)一二線城市模特空姐網(wǎng)紅學(xué)生上門感知,語言的演變和語言的接觸。 CLICS數(shù)據(jù)庫的第三部分顯著增加了早期版本中可用的語言、概念和數(shù)據(jù)源的數(shù)量,從而使研究人員能夠以前所未有的細節(jié)和深度在全球范圍內(nèi)研究共詞化現(xiàn)象。
借助詳細的計算機輔助工作流程,CLICS促進了語言數(shù)據(jù)集的標準化,并為語言研究中的許多持續(xù)挑戰(zhàn)提供了解決方案。 Tiago Tresoldi表示:“過去數(shù)據(jù)匯總通常是通過臨時決定的步驟完成,但我們的新工作流程和最佳實踐指南是確保語言研究可重復(fù)性的重要一步。”研究應(yīng)用證明CLICS的有效性 最近在《科學(xué)》雜志上發(fā)表的一項研究中已經(jīng)說明了CLICS提供新證據(jù)以解決心理學(xué)和認知方面的前沿問題的能力,該研究集中在情感概念在全球語言中的不同表達。
這項研究比較了來自全球語言樣本中的用于情感概念的共詞化網(wǎng)絡(luò),并發(fā)現(xiàn)情感的含義在不同的語言家族中差異很大。“在這項研究中,使用CLICS來研究世界各地語言在情感詞匯方面的差異,但是數(shù)據(jù)庫的潛力并不局限于情感概念。”Johann-Mattis List說,“我們將來還會解決更多有趣的問題?!毙聵藴屎凸ぷ髁鞒虨槭占蓮?fù)制的全球詞匯數(shù)據(jù)提供可能性。
基于2018年首次提出的跨語言研究中標準化數(shù)據(jù)格式的新指南(guidelines for standardized data formats in cross-linguistic research,DOI:10.1038 / sdata.2018.205),CLICS團隊把數(shù)據(jù)庫從300種語言和1200種概念增加到了3156種語言和2906種概念。新版本還保證了數(shù)據(jù)聚合(data aggregation)過程的可重復(fù)性,符合研究數(shù)據(jù)管理中的最佳實踐原則?!坝捎谖覀冮_發(fā)了新的標準和工作流程,我們的數(shù)據(jù)不僅是公開、公平的(可查找、可訪問、可互操作和可再現(xiàn)),而且將語言數(shù)據(jù)從其原始形式提升到我們的跨語言標準的過程也更加高效?!盧obert Forkel說。
為CLICS開發(fā)的工作流的有效性已經(jīng)在涉及大量學(xué)者和學(xué)生的各種驗證實驗中得到測試和證實。兩項不同的學(xué)生任務(wù)為此展開,創(chuàng)建了新的數(shù)據(jù)集并逐步改進了現(xiàn)有數(shù)據(jù)。這兩項任務(wù)要求學(xué)生完成研究中描述的數(shù)據(jù)集,并創(chuàng)建的不同步驟,例如數(shù)據(jù)提取,數(shù)據(jù)映射(到參考目錄)和源識別?!白尯诵膱F隊以外的人使用和測試你的工具是必不可少的,這對微調(diào)所有流程有很大幫助,”Christoph Rzymski說。 隨著CLICS及其工作流程可供更廣泛的受眾使用,學(xué)者們將來不僅可以直接對數(shù)據(jù)庫做出貢獻,還可以在數(shù)據(jù)庫中使用。他們還可以從既有的設(shè)備中獲利并開始自己的目標收藏?!胺e極使用我們的標準和工作流程的語言學(xué)家的數(shù)量正在不斷增加。我們希望這個新版本的CLICS能夠進一步傳播它們?!盨imon Greenhill說。