0731-88575765

印刷项目
火狐体育在线登录网址:AI研习丨丝路多语言混合智能信息处理研究及展望
来源:火狐体育足球app网站 作者:火狐体育app最新版下载发布时间:2024-05-15 05:56:55

  本文结合新疆多语种信息技术重点实验室在中国少数民族语言文字信息处理方面积累的成果与特色,以及近几年开展的亮点工作,对丝绸之路经济带多语言混合智能信息处理方面的研究和应用进行了探讨及展望。

  新疆尔自治区(简称“新疆”)地处中国西北、亚欧大陆腹地,是一个多民族、多语言和多元文化的荟萃地,同时也是中国与中西亚等国家进行经济文化交流的重要通道。习“共建丝绸之路经济带”战略构想和“丝绸之路经济带新疆核心区建设”的提出,使新疆站在了构建丝绸之路经济带的最前沿,新疆迎来了重大的历史发展机遇。

  当今世界正处于百年未有之大变局,人工智能、量子技术、虚拟现实等新一代人工智能技术正在深刻改变人类的生产和生活方式,把握数字网、网络化、智能化融合发展的契机,开展多语言混合智能信息处理领域的相关研究,对于发挥新疆多民族、多语言的优势与特色,发挥新疆战略枢纽、桥头堡和主力军作用,促进新疆与周边“一带一路”沿线国家语言和信息的互联互通意义重大。

  新疆多语种信息技术实验室(简称“实验室”)依托于新疆大学信息科学与工程学院(互联网空间安全学院),其前身是由我牵头成立的新疆大学多语种信息技术探讨研究室(校级),2008 年 12 月由新疆尔自治区科学技术厅批准成为自治区重点实验室。实验室紧跟时代发展,围绕国家和自治区时代需求和重大战略布局,前期以多语种信息处理及自动化、系统及基础软件研发、自然语言理解为主要研究方向,在 DOS 操作系统本地化(主要为尔语、哈萨克语和柯尔克孜语,简称“维哈柯”)、Windows 操作系统本地化、Linux 操作系统本地化、嵌入式操作系统及软件研发、办公套件、印刷排版、电子政务、民文视窗、维哈柯文输入法等方面开展了大量研究工作。针对新疆少数民族语言文字的特性,构建了维哈柯文信息处理、输入输出的理论方法和技术体系,解决了一系列技术难题,主持制定5 项国际标准和 22 项国家标准,构建了面向机器翻译的大型平行语料库、语音数据库、词性标注语料库、语法信息词典、语言形态分析库、词频统计库、语义知识库等,开展了多语言的编码转换、语种识别、智能输入、文字校对、编辑排版、声图文一体化处理、语音识别与合成、多媒体信息处理及应用、搜索引擎等关键技术研究,以及语料库知识库建设、词干提取、词类标注、命名实体识别与关系抽取、句法分析、框架语义构建与语义角色标注等自然语言处理方面的基础研究。基于上述理论、技术体系研发了许多多语种基础与共性系统软件,解决了自治区当时的一系列科技难题和重大需求,产生了重大经济和社会效益,相关这类的产品在疆内外推广应用,获得了用户群的肯定与称赞。此阶段,新疆少数民族语言信息化建设经历了从无到有,从无所依据到逐步形成完整、成熟的理论和技术体系,填补了多项国际和国内空白,为新疆少数民族信息化建设奠定了坚实的基础,同时也给中国其他少数民族语言信息化建设提供了重要引导和参考作用。

  2013年9月,习在访问中亚四国时,首次提出共同建设地跨欧亚地区的“丝绸之路经济带”战略构想。2015年3月,国家发展改革委、外交部、商务部联合发布的《推动共建丝绸之路经济带和21世纪海上丝绸之路的愿景与行动》中精确指出“发挥新特的区位优势和向西开放的重要视窗作用,形成丝绸之路经济带上重要的交通枢纽、商贸物流和文化科教中心,打造丝绸之路经济带核心区”,实验室与时俱进,适时调整研究方向,紧紧围绕“丝绸之路经济带新疆核心区建设”和自治区“社会稳定和长治久安”总目标,以自然语言智能处理和理解理论与技术、视觉信息智能处理理论与技术、互联网空间安全与数据分析技术为主要研究方向,大力开展多语种语音识别、语音合成、机器翻译、图像识别、网络内容安全等方面的智能化研究工作,取得了一系列标志性成果。

  下面将从国产多语种操作系统和信创软件、丝绸之路经济带多语言互译平台,以及面向公共安全的多语种舆情监测、预警系统三个亮点工作进行展开,探讨如何借助数字化、信息化、智能化手段在丝绸之路经济带沿线国家,实现经贸、交通、文化、教育、医疗等领域的政策沟通、信息联通、贸易畅通、相互连通和民心相通。

  操作系统软件作为信息技术的基础性系统软件平台,能否实现国产替代,直接影响着我国互联网生态的自主可控,习多次强调“没有网络安全就没有国家安全”“不掌握核心技术,我们就会被卡脖子、牵鼻子,不得不看别人脸色行事”“关键核心技术要不来、买不来、讨不来”,操作系统这个最基础、最底层的软件很有几率会成为我国发展的绊脚石。自20世纪80年代以来,我国主要少数民族语言信息化的科技工作人员们在这方面做了大量工作,30 多年来,基本紧跟了汉文信息化水平,其发展历史大致上可以分为 DOS 操作系统、Windows 操作系统和 Linux 操作系统三个阶段。在此期间,新疆大学、西北民族大学、青海大学、西藏大学、内蒙古大学、广西计算中心等单位分别在各自的领域展开了大量研究工作,相继制定了多语种的编码标准、键盘布局标准和字体标准,同时依据这一些标准,基于 DOS、Windows、Linux 等操作系统先后开发了多语种的字库、输入法、字处理软件,以及多语种操作系统软件产品,并在各地区和领域进行了广泛推广,为后续少数民族语言信息化打下了坚实基础。然而受限于当时基础软件平台的因素,不同语言的编码标准、字型、键盘布局等尚未统一,相当部分的信息化产品兼容性很差,在信息安全方面没办法得到有效保障,信息化交流互通需求很突出。

  近年来,在国家的全力支持下,我国信息技术应用创新产业(简称“信创产业”)取得了巨大成就,国产 CPU 取得群体性突破,达到或接近国际领先水平,实现量产并大批量应用于国产服务器、计算机终端、移动终端等电子科技类产品中,初步打破了美国等西方国家在这一领域的长期垄断;国产基础软件快速集约发展,数据库系统、中间件、办公软件均取得长足进步,大幅缩小了与国外基础软件的差距,开始规模化普及应用,并与基于国产 CPU 的计算机相配套,逐步形成我国自主可控的信创产业生态链。目前,国产桌面操作系统产业方兴未艾,已经兴起的 10 多家操作系统企业主要力量集中在汉文领域,而在我国多民族大家庭中占了重要位置的各少数民族语言领域,由于相对于产出而言投入较大,国内各操作系统企业在此方面的工作投入相对较少,这将制约各少数民族语言操作系统,以及各少数民族信息化的发展,如不尽快开展相关工作,跟着时间的推移,少数民族信息化事业将会越发滞后。

  少数民族语言文字历史悠远长久、源远流长,是中华民族文化与文明的重要组成部分。在信息技术应用创新的背景下,基于国产软硬件体系,构建多语种信息处理技术体系,既可以轻松又有效地解决我国少数民族语言信息处理中的大量基础性、共同性的关键和核心问题,避免重复开发,保证各民族语言处理软件的兼容性和相互支持,进而促进少数民族信息化事业的发展,也可以使少数民族语言信息化摆脱受制于国外基础软硬件平台的现状,保障我国语言信息化的安全,促进我国多语种信息处理技术和成果对一带一路建设中的辐射、引领性作用,为国产多语种信创软件面向一带一路的推广奠定基础。为了推进此项工作, 2016 年 12 月我们发起成立了“国产多语种操作系统技术联盟”,2017 年承担了国家语委重大科研项目“国产多语种桌面操作系统通用规范研制”,2021 年加入了信创工委会,并联合相关知名单位大力推进国产多语种操作系统和信创软件研发工作。

  自习提出“一带一路”倡议以来,共建“一带一路”慢慢的变成了增进各国民众福祉的重大举措,成果正在惠及世界。“一带一路”建设的主要内容是政策沟通、设施联通、贸易畅通、资金融通、民心相通,这“五通”哪一通也离不开“语言相通、信息互通”。“一带一路”沿线种官方语言,其中大多数为非通用语种,不同语言与汉语之间的语言沟通、信息互通障碍已成为制约“一带一路”各项合作交流的核心问题,也是我国及四周的国家反恐维稳和情报舆情分析的主要掣肘。同时也应该注意到,语言的区域性和地缘性特征显著,同语系语言在语言特性及使用上存在一定的相似性,通过整合国内开展机器翻译方面研究的机构和资源,研究同语系及跨语系自然语言的互译工作,将有效促进“一带一路”沿线国家的文化、科技、医疗、教育、旅游等方面的交流与合作。

  新疆大学在前期多语种数据库构建、语音识别、语音合成、机器翻译等研究工作的基础上,构建了丝绸之路经济带多语言互译平台,并于2019 年成为工信部“新一代AI产业创新重点任务”智能翻译领域的新疆唯一揭榜潜力单位。目前,通过采集尔语-汉语、汉语-尔语、哈萨克语(哈国)-中文、中文 - 哈萨克语(哈国)、吉尔吉斯语(吉国)-中文、中文 - 吉尔吉斯语(吉国)、乌尔都语 - 中文、中文 - 乌尔都语、乌兹别克语 - 中文、德语 - 中文、法语 -中文的语料,建设了以上 11 种翻译的语料数据,使用改进的端到端多语言神经网络Transformer翻译模型,实现了以上 11 种机器翻译产品。其中,与科大讯飞合作研发的双向语音翻译系统在新疆脱贫攻坚、乡村振兴及 24 万驻村干部的“访惠聚”工作中应用,明显提高了社会治理的能力和水平。

  为了进一步发挥新疆本土的特色与优势,服务丝绸之路经济带新疆核心区建设,目前新疆大学正在开展以下工作。

  大规模采集并构建中亚、南亚、西亚主要国家及民族的自然语言语料库,重点开展哈萨克语、柯尔克孜语、乌兹别克语、土耳其语与汉语平行语料库、语音数据库建设,研究其语言形态、文字特性等方面的特征,研究多语言知识的挖掘及采集方法和模型。

  对阿拉伯语系、阿尔泰语系语族和印度 - 伊朗语族开展了词法分析、句法分析,以及多语言的词法、句法、语义、篇章、情感、蕴含、信息抽取等语言分析方法等方面的研究与开发工作。研究复杂形态语言和长距离语言模型、跨语言文法推导等技术,根据语言特点采用规则、统计、神经网络等不同方法实现。

  研究不同语系语言机器翻译、形态复杂语言机器翻译、资源匮乏语言机器翻译、枢轴语言机器翻译等理论与方法,重点突破汉语 - 印度伊朗语族、汉语 - 阿拉伯语智能机器翻译核心技术。

  利用语言间的相似特性、单语和双语数据的神经机器翻译、基于迁移学习的多语言神经机器翻译框架等,对汉语 - 中亚西亚阿尔泰语系多种语言互译技术开展同语系自然语言机器翻译方面的方法和模型研究。针对低资源语音翻译研究,基于迁移学习的方法,采用半监督机制提升语音识别的鲁棒性,构建低资源高鲁棒性语音识别系统;提取语音信号文本、说话人、信道的编码变量;基于不同语种的发音机制相同这一假设和数据驱动与知识引导相结合的人工智能新方法,开展基于 Global Phone 的多语种统一声学建模方案研究,提高不同语言的数据共享能力和自动化水平。利用端到端语音识别方法,直接从语音波形映射到识别输出,提高识别效果。

  为了大力推进此项工作,2018年4月,中国工程院信息与电子工程学部在北京举办了“丝绸之路经济带多种语言互译平台开发应用研讨会”。共有国家部委有关司局领导,以及高校、研究院所和企业人工智能专家共 80 余人出席,这中间还包括 7 位院士。大会通过了《关于快速推进丝绸之路经济带多种语言互译平台开发应用的倡议》,对开发建设丝路多种语言互译平台的重要性、必要性与紧迫性给予充分肯定,要求快速推进。2021年6 月发起成立了中国人工智能学会多语种智能信息处理专业委员会,旨在凝聚国内有名的公司、高校和研究机构构建丝绸之路经济带多语言互译平台,全方面提升丝路沿线国家和地区的交通、文化、教育、农业、林业、水利、智慧城市、环保、防灾减灾、公共安全、旅游业等领域的应用研发合作。

  2020年2月3日,习在中央会会议讲话中,精确指出“要加强舆情跟踪研判,主动发声、正面引导,强化融合传播和交流互动,让正能量始终充盈互联网空间”。新疆既是我国反恐维稳的主要阵地,也是境内外敌对势力在意识形态领域进行渗透的主要场地,敌对势力主要使用阿尔泰语系、阿拉伯语系中的少数民族语言在网络上进行渗透和传播暴恐思想,组织暴恐活动,极少使用英语和汉语等语言。目前虽有一些较为成熟的中英文网络舆论情况管控系统,但缺乏有效的多语言网络舆论情况管控系统和平台,针对这一现状及新疆多民族、多语言和多元文化的特点,我们首次提出并实现维、哈、柯多语言自动识别、转换及正规化方法,提出并实现维、哈、柯语义分词方法,开展网络文本、语音、视觉等大数据的采集、聚类、情感、异常、预警、可视化等方面的模型、算法及方法研究。开展情报收集、面向反恐的视频与音频分析及检索、人脸识别、说话人识别、目标对象实时跟踪等感知理论与技术等方面的研究,重点突破多语言知识库系统构建、关联知识表征与挖掘、跨媒体敏感信息监测、跨媒体热点和敏感话题识别及跟踪、跨媒体分析推理、社交网络话题发现、尔语知识图谱构建、知识演化与推理、智能描述与生成等技术,实现跨媒体知识表征、分析、挖掘、推理、演化和利用,构建跨媒体多语言舆情分析和监测预警系统,这对于我国反恐维稳和自治区社会稳定长治久安具备极其重大意义。

  国之交在于民相亲 , 民相亲在于心相通。2017年习的发言。一带一路沿线国家涉及的语言多种多样,其中大多数为非通用语言,借助智能化、信息化手段研究同语系和跨语系的机器翻译,使得不同国家、不同民族的人们顺畅沟通和理解,才能够更好地进行文化、科技、医疗、教育、旅游等方面的交流与合作,以此来实现“民心相通”。面对百年未有之大变局,把握数字化、网络化、智能化发展机遇,发挥新疆核心区作用,快速推进“一带一路”基础通信设施和国产多语种操作系统、信创软件研发工作,切实提高面向公共安全的舆情监测、预警能力,对于缩小数字鸿沟,推动数字化的经济转型,构建互联网空间命运共同体意义深远。


Copyright © 2012-2018 火狐体育在线登录网址|火狐体育足球app网站最新版下载 版权所有

琼ICP备056483614896号