首页>推荐 > 正文

多家主流媒体参建!格桑花藏地语料库建设今日启动

2025年04月23日 10:40

4月22日,“2025天府融媒大讲堂——主流媒体系统性变革之技术赋能”活动现场,格桑花藏地语料库建设正式启动。

格桑花藏地语料库建设正式启动

记者从现场了解到,该语料库由天府融媒(四川)科技有限公司、四川省全媒信息传播研究院共同发起,尼玛扎西院士工作站(电子科技大学)、藏地阳光全媒体中心、甘孜州传媒中心、四川日报全媒技术中心等多家机构共同建设。

党的二十大提出,要实施国家文化数字化战略,增强中华文明传播力影响力。今年,教育部、国家语委、中央网信办联合印发的《关于加强数字中文建设 推进语言文字信息化发展的意见》指出,“以加强数字中文建设为重点,以集成化、智能化、国际化为导向”,“促进中文数据的规模生产、优质集成、融合创新、规范治理和复用增效”“加快推进语言文字信息化发展”,明确要求推进“古籍数字化整理关键技术研究”和“国家关键语料库、高质量民族语言文字语料库”建设。

格桑花代表着幸福和吉祥,是藏族人民对美好生活的向往和期盼。以“格桑花”命名,寓意语料库将像格桑花一样传承藏族文化,并为藏语在人工智能时代的应用注入新的希望和活力。

目前,格桑花藏地语料库已初步搭建藏语语料训练系统。接下来,将对已整理的超200亿字符的藏文资料、30000多小时的音视频资料进行训练,形成千万条高质量多模态藏语语料。同时,基于已有的翻译词库构建500万级“藏汉英对照”平行语料库。

记者了解到,今后语料库还将通过数据清洗、知识提取等智能处理,形成藏语核心语料及细分领域知识库,并借助格桑花藏地语料库建设藏语智能体综合平台,开发藏语知识问答、藏汉互译等智能体,为藏语研究、内容生产与传播提供支撑。


0

评论

0 条评论 手机发评论