您好,欢迎来到Science Data Bank !     |  
>
DOI
 
PID
数据状态
 公开
 
统计信息
未评分   122 次浏览
元数据
标题 汉维可比语料数据集
学科分类 信息科学
作者 冯韬,李淼,曹宜超,曾伟辉
关键词 语料库建设; 可比语料; 汉维; 数据挖掘
摘要 语料库的构建是自然语言处理领域的重要工作。但是,双语平行语料库的规模和领域并不能满足实际的需求,尤其是在维吾尔语信息处理中表现的更加明显。因此,从互联网上挖掘汉维双语资源的工作,对于汉维双语资源的建设、促进民族之间的交流具有十分重要的作用。本文针对维吾尔语复杂多变以及汉维语言形态差异大等特点,研究并设计了汉维可比语料挖掘系统。本系统主要包括汉维网页正文抽取,汉维可比语料候选获取以及跨语言相似度计算等几个部分。目前已经有5000多个汉维可比语料篇章,主要是新闻领域语料和政府公文等。该语料库对于少数民族语言分析与教学,汉维机器翻译等领域具有十分重要的作用。为了使用的便利,本数据集对汉语和维吾尔语进行了进一步的加工和规范化操作。
DOI 10.11922/sciencedb.748
提交者 ft2016@mail.ustc.edu.cn
提交时间 2019-04-08 09:47

在线服务
引用
当您使用此数据集时,请引用
冯韬,李淼,曹宜超,曾伟辉 (2019). 汉维可比语料数据集. Science Data Bank. http://www.dx.doi.org/10.11922/sciencedb.748
下载数据引用包:
RIS   RIS (适用于 EndNote, Reference Manager, ProCite, RefWorks)
BibTex   BibTex (适用于 BibDesk, LaTeX)
APIs
获取数据集元数据 http://www.sciencedb.cn/dataSet/metaData/748
获取文件属性信息 http://www.sciencedb.cn/dataSet/listFiles/748
获取文件内容 http://www.sciencedb.cn/dataSet/downloads/748