首页 / 数码周边 / 正文

国产中文大语言模型“天河天元”发布

时间:2023-05-22 10:43:50

2023年5月18日,第七届世界智能大会在国家会展中心(天津)正式开始。此次展会设置了八大展馆和室外展区,其中智能科技展为期四天,包括信息技术应用创新、人工智能、5G + 工业互联网、智能交通、智能制造、智慧生活、数字金融、数字健康、国际与省市等主题展示区,以及智能驾驶、5G两大体验专区。

天津依托天河占据了全国超过20%的超级计算算力资源,为了充分发挥超算在算力方面的优势,推动国产异构超级计算机平台在AI应用开发和服务领域中的应用,国家超算天津中心在第七届世界智能大会期间举行的世界智能科技创新合作峰会上发布了“天河E级智能计算开放创新平台”和“天河天元大模型”。

据介绍,中文大语言模型的数据集非常稀缺。国家超算天津中心搜集整理了网页数据、各种开源训练数据、中文小说数据、古文数据、百科数据、新闻数据,以及专业领域的中医、医药、问诊、法律等多种数据集,训练数据集总token数达到350B,最终训练打造出了自己的中文语言大模型——天河天元大模型。

天河新一代超级计算机实现了从硬件到软件环境全面自主的信息技术应用创新,官方也在展区展示了天河新一代超级计算机上采用的计算芯片、主板等核心技术。

未来,国家超算天津中心还将在“天河天元大模型”的基础上启动深度训练面向医疗、工业、法律等领域的专业模型。未来大模型将在深度学习平台的支撑下成为产业智能化基座。

综上所述,本次世界智能大会上国家超算天津中心发布了“天河E级智能计算开放创新平台”和“天河天元大模型”,其中“天河天元大模型”是一款国产中文大语言模型,数据集包括小说、古文、百科、新闻、中医、法律等多种数据集,训练数据集总token数达到350B。未来该模型还将启动深度训练面向医疗、工业、法律等领域的专业模型,成为产业智能化基座。

《国产中文大语言模型“天河天元”发布》不代表本网站观点,如有侵权请联系我们删除

抖十三数码科技 广州小漏斗信息技术有限公司 版权所有 粤ICP备20006251号