科研进展—应用语言学研究室《藏语自然语言处理平台》发布

uedbet为什么关了

2018-08-16

  社会化合作机制刷新。长三角25家国家级双创示范基地成立联盟,四省市创新企业、投资人、创业者进入同一个“朋友圈”,仅一个多月便促成40多次有效对接,多个合作项目逐步落地;“长三角大型科学仪器协作共用网”集聚2000余家单位近3000台(套)大型科学仪器设施,总价值近300亿元;以一条高速公路为纽带,“G60科创走廊”从上海、浙江向安徽延伸,科创要素加快流动。  市场一体化加快推进。上海“一网通办”、江苏“不见面审批”、浙江“最多跑一次”,长三角在行政审批制度改革上同频共振、实招迭出,营造公平便利的市场环境。浙江民企抱团破冰,我国首条民营资本控股高铁——总投资449亿元的杭绍台高铁项目,为铁路投融资体制改革蹚出新路,助力长三角交通一体化。

  莎士比亚有言,“这世界是一个舞台,我们都是演员。

  建设法治政府有新途径。建设法治政府本身就是改革红利,同时,法治政府又是继续创造红利和公正分配红利的重要保障。习近平总书记多次强调,坚持依法治国、依法执政、依法行政共同推进,坚持法治国家、法治政府、法治社会一体建设,将“法治政府”建设纳入法治国家和法治社会的综合法治系统中加以推进和建设。

  两国人民通过旅游加深了对彼此的了解,从而促进两国在经贸、投资、文化、体育等领域的交流。我认为这就是两国去年双边关系取得的最大的成就。

    德清地处长三角腹地,位于长三角两小时交通圈内。

    “这主要是通过有监督的机器学习实现的。”从事人工智能研究多年的北京市计算机中心常务副主任刘彤介绍,目前机器学习主要分为有监督学习和无监督学习两种形式。有监督学习需要的大数据首先要通过人工标注,如在大量的狗狗视频中,研究人员先要标注摇尾巴和叫声代表什么意思。相比于无监督学习,有监督学习在精度、迭代次数等方面会更好一些,优质的数据是无监督机器学习的关键。

  2008年10月,任云南省政府副秘书长。

  此外,由于“乙支自由卫士”韩美联合军演暂停,原计划今年6月举行的“太极演习”也将推迟到下半年举行。“太极演习”是韩国军方单独举行的指挥所演习,今年的演习计划与10月底举行的野外机动训练“护国演习”联动举行,以提高训练效果。韩国军方从2005年起将“鸭绿江演习”改名“太极演习”,并开始由韩军联合参谋本部主导,于每年五六月份举行一次。

各栏目功能解释如下:藏文与拉丁转写互转。 这是早期藏语研究的一项基础内容。 在2007年以前,我国藏文信息处理和藏语语言研究没有采用统一的藏文字符编码国际标准。 为了实现资源共享,许多单位采用了藏文拉丁转写进行研究;拉丁转写也为读不懂藏文和不会键盘输入的科研人员提供了便利。

本平台藏文与拉丁转写之间的互转可以为不同目的的研究人员提供服务。

藏文文本拉萨音音标转换。

最近几年,藏语语音识别研究成为研究机构和一些企业关注的热点。

但是同时具有文本、音频和国际音标转写的资源十分有限,不能满足语音识别的要求。 我们根据文本与语音之间的对应关系,通过规则和统计方法把藏文文本自动转写成国际音标,可以实现文本自动转换成国际音标。

藏文文本分词。 分词是自然语言处理中最基本的研究内容。 在书写藏文文本时,词与词之间没有空格,计算机处理语言文本时,首先需要把一个藏文字串序列切分成一个一个单独的词,这个切分过程就是自动分词。 藏语自动分词研究开始于上世纪八十年代,经历了词典匹配分词、组块分词和统计分词三个阶段。

当前藏语分词效果已经有了很大的提高,但是仍然没有公开发布过藏语分词软件。

我们研究室从2002年开始研究藏语分词,取得了不少成果,积累了不少经验。

本平台采用了条件随机场模型,训练语料库约一百万词,全部进行了分词校对,分词准确率约95%。

分词训练语料和分词模型已经在多个单位使用,效果良好。

藏文字性标注。 基于词级的词性标注模型总会遇到未登录词的问题。

为了解决这个问题,我们试图缩小标注单位,把藏文的字作为标注单元,然后通过字构词的规则推断部分未登录词的词性。

本项研究选择了中小学藏文语文教材文本作为训练语料,构建了字、词的边界标记和类型标记语料库,约二十多万词的训练语料。

字性标注语料库规模还需要进一步增加,而且在字性校正时,需要有高水平的藏语知识,目前的标注准确率在90%左右,我们将继续努力,不断完善。 分词标注一体化。

藏语词性标注研究已经取得了一些成果,但是同样也存在较多的问题,一是各家的词性标注规范不一致,二是词性标注的训练、测试语料不一致,三是都没有公开各自的标注系统。 我们采用了分词标注一体化研究思路,实验结果表明一体化分词标注的结果要比分步进行好。 本平台展示的一体化模型训练材料使用了民族所应用语言室研制的分词标注语料库,语料规模约一百二万词。 标注准确率约90%。

人名地名识别。

人名、地名属于命名实体范畴,是自然语言处理中的重要研究内容。 本平台展示的识别系统可以把任一一篇文本中的人名地名标注出来。

人名地名识别效果好坏与分词准确率的高低有密切关系。

本系统的识别准确率大约维持在85%-90%,不同类型的文本识别效果存在一定的差异。

句法语义。

展示了我们正在构建的短语结构树库。

构建句法树库十分艰难,一是没有现成的藏语句法树库可以使用;二是能够参与写句法树库的人员极少,因此进展缓慢。 目前还没完成自动句法分析系统;同时考虑到材料十分宝贵,没有展示太多的句子。

语言调查。

展示了拉萨藏语3000词汇的录音,提供给对藏语感兴趣的学者使用,我们也采用自动处理的方式对音频材料进行标注,目前尚未免费提供;如果有需要,可以与我们联系。

平台中随后将陆续提供更多的藏语方言材料。 语音数据。

展示部分句子级的语音标注材料。

我们与天津大学合作完成了3100句藏语(卫藏方言)口语句子的文本和音频材料,共计30人的录音并进行了音频标注。

机器翻译。

机器翻译主要展示口语机器翻译。

藏语机器翻译已经有多个展示系统,但大部分是新闻语料的翻译系统,我们提供的平台关注的是口语翻译,口语文本双语材料极为有限,给研究带来巨大困难。 尽管目前翻译系统效果还不理想,但我们正努力一步步扩大资源,改善算法,把语言规则和统计结合起来,不断提高翻译效果。

本平台涉及藏语自然语言处理多个领域,正如其他语言处理一样,每种功能的效果受制于当前该语言处理的整体技术水平,我们力求做到当前最好,并努力不断改进,力争每隔一段时间更新一次,把最新的研究成果融入平台中,不断提高各种功能的效果。