据悉,智慧芽已成功训练专注知识产权领域的“PatentGPT”和专注于医药领域的“PharmGPT”两款垂直领域大模型,致力于为知识产权、研发创新、生物医药等应用场景提供高效的信息检索、分析和应用体验,颠覆传统科创信息获取和服务范式,显著提升科技创新效能。其中,PatentGPT达到了通过中国专利代理师资格考试的水平,PharmGPT达到了通过中国执业药师职业资格考试、美国注册药剂师考试(NAPLEX)的水平,部分能力超越GPT-4。
智慧芽PatentGPT和PharmGPT建立在庞大的、高质量的垂直行业数据集之上,其预训练数据达到了千亿级token的规模。上述训练数据既包含了智慧芽10余年积累和深加工的全球170个受理局的超过1.8亿专利、超过1.6亿篇论文、超过2100万则新闻、超过8.6亿个生物序列、超过2.5亿个化学结构、超过4万种靶点、超过8万种新药数据等。另外,在智慧芽垂直领域独特的数据配方构成上,还加入了7000余本专业书籍、丰富的行业常识等内容。
智慧芽在专利、生物医药等行业的AI算法领域有着丰厚的技术积累,在过去10余年间成功采用计算机视觉、机器学习、自然语言处理、神经网络、OCR识别、知识图谱、大模型技术等处理和分析各类数据,辅助用户进行创新决策。其中,智慧芽AI算法团队曾构筑了数十种Bert模型以清洗、处理数据,为自研大模型的训练奠定了坚实基础。针对大模型训练,智慧芽围绕数据、算法训练、测试、强化学习构筑了四大平台。值得一提的是,智慧芽采用了增强式预训练的策略,基于专利和医药领域超40位专家反馈及其2万多条对比数据的强化学习,配合RAG(Retrieval-Augmented Generation,检索增强生成)加强大模型理解能力,减少幻觉,对齐人类意图,将大模型精度提升至80%。
(责任编辑:王丹萍)