比如,“芽仔”可以帮助用户快速理解专利、论文等技术文献页面中的关键信息;可以一键生成围绕某个技术领域的预研报告。甚至只要告诉“芽仔”相关的技术方案背景,技术问题和使用的技术手段,就能快速得到一篇完整、清晰、规范的技术交底书。
目前,“芽仔”已在智慧芽研发情报库、专利数据库、新药情报库等产品上线。
今年2月,“智慧芽文本生成大模型算法”通过国家互联网信息办公室第四批境内深度合成服务算法备案,具备了正式向用户开放的资质。智慧芽技术副总裁屠昶旸表示:“大模型在垂直领域的应用,有望跟随企业进入百行千业,产生更大的应用价值。”
据悉,截至目前,智慧芽已经训练专利大模型和生物医药大模型。其中,专利大模型通过中国专利代理师资格考试的水平,生物医药大模型达到了通过中国执业药师职业资格考试、美国注册药剂师考试(NAPLEX)的水平。
智慧芽垂直领域大模型的预训练数据达到了千亿级token的规模,包含了十余年积累和深加工的全球170个受理局的超过1.8亿专利、超过1.6亿篇论文、超过2100万则新闻、超过8.6亿个生物序列、超过2.5亿个化学结构、超过4万种靶点、超过8万种药物数据等。另外,在智慧芽垂直领域独特的数据配方构成上,还加入了7000余本专业书籍、丰富的行业常识等内容。
(责任编辑:王丹萍)