中国初步建成大规模藏语数据资源库

11

中新社西宁5月25日电 (记者 孙睿)记者25日从青海师范大学省部共建藏语智能信息处理及应用国家重点实验室获悉,该实验室已初步建成600TF算力的智算平台和面向多领域多用途的大规模藏语数据资源库。

青海师范大学省部共建藏语智能信息处理及应用国家重点实验室2021年2月经中国科技部批准建设,是中国唯一的藏语信息处理领域国家重点实验室。实验室拥有5000平方米的科研用房和1.5亿元人民币的专业研发设备。

该实验室主任赵海兴介绍,近年来,实验室构建了藏文百科知识、新闻、经济、文化艺术等多领域文本语料40G以上,藏语语音数据15000小时、各类文化资源近2万件,规模达到1600GB,是目前国内外最大的基于国标的大型标注语料库,对中国涉藏地区教育、语言研究以及社会文化发展起到积极推动作用。

同时,该实验室还构建了大规模藏汉平行语料库,并通过迭代式回译策略等进行数据增强及质量评价,训练了融合单语语言模型和注入双语词典信息的深度神经网络翻译模型,在新闻、法律等领域准确率达90%以上。

此外,该实验室还搭建藏文文献资源数字化协同工作平台,构建文献图文对照数据150余万文本行,复杂场景图文资源220万个,开展藏文印刷字体、复杂场景藏文区域检测研究,自动检测视频帧中的文字区域,并将其分割成单个字符或行文本。利用深度学习对分割处理后的文本进行识别,实现了藏文文献标准体和手写体扫描识别系统、藏语视频流复杂场景中的藏文识别。(完) 【编辑:刘欢】

“潮玩”行业观察:原创IP需多元化 培育潮流文化生态

各地就业政策频出 “花式”引才聚才

《湖南省水污染防治条例》5月1日起施行 强化系统治理

杭州亚运会女子板球开赛:印尼取得开门红

新型毒品“丧尸烟弹”在台泛滥 有军人、警察吸食

张火丁亲授 李林晓将带来程派名剧《白蛇传》《锁麟囊》

中国20城今年首批集中供地成交总金额超9000亿元

“分”到碗里了吗?——江苏多地分餐制推行成效见闻

紫光国微发布2021年三季度报告净利润增长112.90%

西藏阿里边检民警:“万家团圆是我们最大的心愿”

景德镇当代陶瓷艺术作品展在海口开展

习近平:中国永远不称霸、不扩张、不谋求势力范围

斯诺克冠中冠:中国军团丁俊晖等三人出战 马克·艾伦率先进四强

东西问|刘元春:中国金融体系何以长期保持稳定?

《金砖国家特殊经济区经贸合作发展报告2025》在杭州发布

文章版权声明:除非注明,否则均为内蒙古满世慧通物流有限公司原创文章,转载或复制请以超链接形式并注明出处。