首页>热点 > 要闻 > > 正文
“海量垂域数据+AI算法积累”夯实大模型底座

智慧芽大模型算法通过网信办备案

2024-02-21 10:13:37
来源:中国高新技术产业导报 作者:李洋 评论:0
  2月18日,根据《互联网信息服务深度合成管理规定》,国家互联网信息办公室公开发布第四批境内深度合成服务算法备案信息,“智慧芽文本生成大模型算法”成功通过备案(备案编号:网信算备320508893984201240017号),成为业内率先获得国家网信办大模型算法备案的企业。
 
  据悉,智慧芽已成功训练专注知识产权领域的“PatentGPT”和专注于医药领域的“PharmGPT”两款垂直领域大模型,致力于为知识产权、研发创新、生物医药等应用场景提供高效的信息检索、分析和应用体验,颠覆传统科创信息获取和服务范式,显著提升科技创新效能。其中,PatentGPT达到了通过中国专利代理师资格考试的水平,PharmGPT达到了通过中国执业药师职业资格考试、美国注册药剂师考试(NAPLEX)的水平,部分能力超越GPT-4。
 
  智慧芽PatentGPT和PharmGPT建立在庞大的、高质量的垂直行业数据集之上,其预训练数据达到了千亿级token的规模。上述训练数据既包含了智慧芽10余年积累和深加工的全球170个受理局的超过1.8亿专利、超过1.6亿篇论文、超过2100万则新闻、超过8.6亿个生物序列、超过2.5亿个化学结构、超过4万种靶点、超过8万种新药数据等。另外,在智慧芽垂直领域独特的数据配方构成上,还加入了7000余本专业书籍、丰富的行业常识等内容。
 
  智慧芽在专利、生物医药等行业的AI算法领域有着丰厚的技术积累,在过去10余年间成功采用计算机视觉、机器学习、自然语言处理、神经网络、OCR识别、知识图谱、大模型技术等处理和分析各类数据,辅助用户进行创新决策。其中,智慧芽AI算法团队曾构筑了数十种Bert模型以清洗、处理数据,为自研大模型的训练奠定了坚实基础。针对大模型训练,智慧芽围绕数据、算法训练、测试、强化学习构筑了四大平台。值得一提的是,智慧芽采用了增强式预训练的策略,基于专利和医药领域超40位专家反馈及其2万多条对比数据的强化学习,配合RAG(Retrieval-Augmented Generation,检索增强生成)加强大模型理解能力,减少幻觉,对齐人类意图,将大模型精度提升至80%。

(责任编辑:王丹萍)

版权与免责声明:
①凡本站注明稿件来源为:中国高新技术产业导报、中国高新网、中高新传媒的所有文字、图片和音视频稿件,版权均属本网所有,任何媒体、网站或个人未经本网协议授权不得转载、链接、转贴或以其他方式复制发表。已经本网授权使用作品的,被授权人应在授权范围内使用,并注明“来源:中国高新网、中高新传媒或者中国高新技术产业导报”。违反上述声明者 ,本网将追究其相关法律责任。
② 任何单位或个人认为本网站或本网站链接内容可能涉嫌侵犯其合法权益,应该及时向本网站书面反馈,并提供身份证明,权属证明及详细侵权情况证明,本网站在收到上述文件后,将会尽快移除被控侵权的内容或链接。
③如因作品内容、版权和其他问题需要与本网联系的,请在该事由发生之日起30日内进行。电话:010-68667266 电子邮件:dbrmt#chih.org (请将“#”换为“@”)
排行
  • 全部/
  • 本月

编辑推荐


扫描添加 中国高新技术产业导报

(数字报)

扫描添加 中国高新APP客户端
扫描添加 导报微信公众号