2月18日,依据《互联网信息服务深度组成办理规则》,国家互联网信息办公室揭露发布第四批境内深度组成服务算法存案信息,“才智芽文本生成大模型算法”成功通过存案(存案编号:网信算备240017号)。才智芽成为业界首先取得国家网信办大模型算法存案的企业。
根据高质量的数据和抢先的算法技能优势,才智芽已成功练习专心常识产权范畴的“PatentGPT”和专心于医药范畴的“PharmGPT”两款笔直范畴大模型,致力于为常识产权、研制立异、生物医药等使用场景供给高效的信息检索、剖析和使用体会,推翻传统科创信息获取和服务范式,显着提高科学技能立异效能。
值得一提的是,PatentGPT达到了通过我国专利署理师资格考试的水平,PharmGPT达到了通过我国执业药师工作资格考试、美国注册药剂师考试(NAPLEX)的水平,部分才能逾越GPT-4。
此外,在MMLU(Massive Multitask Language Understanding)、C-Eval,以及才智芽面向业界初次提出的专利大模型测验基准(patent-bench)的测评成果为,才智芽大模型在问答、总结、写作、翻译、分类等方面才能皆优于商业通用大模型。
才智芽AI大模型的成功使用,离不开底层海量优质数据资源的堆集,以及十余年AI算法技能研制的沉积。
海量高质量的笔直职业数据集:才智芽PatentGPT和PharmGPT的成功建立在巨大的、高质量的笔直职业数据集之上,其预练习数据达到了千亿级token的规划。上述练习数据既包含了才智芽十余年堆集和深加工的全球170个受理局的超越1.8亿专利、超越1.6亿篇论文、超越2100万则新闻、超越8.6亿个生物序列、超越2.5亿个化学结构、超越4万种靶点、超越8万种新药数据等。别的,在才智芽笔直范畴共同的数据配方构成上,还加入了7000余本专业书本、丰盛的职业常识等内容。
笔直范畴AI算法堆集与继续迭代:才智芽在专利、生物医药等职业的AI算法范畴有着丰盛的技能堆集,在曩昔十余年间成功选用计算机视觉、机器学习、天然语言处理、神经网络、OCR辨认、常识图谱、大模型技能等处理和剖析各类数据,辅佐用户进行立异决议计划。其间,才智芽AI算法团队曾构筑了数十种Bert模型以清洗、处理数据,为自研大模型的练习奠定了坚实基础。
针对大模型练习,才智芽环绕数据、算法练习、测验、强化学习构筑了四大渠道。值得一提的是,才智芽选用了增强式预练习的战略,根据专利和医药范畴超40位专家反应及其2万多条比照数据的强化学习,合作RAG(Retrieval-Augmented Generation检索增强生成)加强壮模型理解才能,削减错觉,对齐人类目的,将大模型精度提高至80%。
现在,根据才智芽大模型技能的多项AI功用已上线才智芽各产品,受到了用户的广泛好评。在才智芽研制情报库Eureka中用户通过AI技能问答能轻松完成天然对话的方法,输入技能问题或关键词后,就可以取得通过收拾汇总的有关技能计划。在才智芽新药情报库Synapse中,用户可通过医药情报帮手一键生成翔实的药物调研陈述,还可提炼总结中心信息,将所选英文内容翻译成中文,或解说生物医药术语等。