材料合成路徑預(yù)測(cè)是物質(zhì)科學(xué)領(lǐng)域的重要課題。1990年諾貝爾化學(xué)獎(jiǎng)授予了美國(guó)有機(jī)化學(xué)家Elias James Corey教授。近年來大語(yǔ)言模型的崛起以及預(yù)訓(xùn)練-微調(diào)方法的應(yīng)用,使得通用大語(yǔ)言模型的理解能力在各垂直領(lǐng)域顯示出了較好的表現(xiàn),但在材料領(lǐng)域仍缺乏相關(guān)的應(yīng)用和研究。
近期,我中心人工智能部和中國(guó)科學(xué)院物理研究所SF10組合作,通過使用來自400多萬(wàn)篇論文中提取的35675個(gè)無(wú)機(jī)材料固相反應(yīng)合成過程,將數(shù)據(jù)處理為13878條高可信度的合成路徑描述數(shù)據(jù),并對(duì)開源大語(yǔ)言模型LLaMA2-7B進(jìn)行微調(diào)訓(xùn)練,成功研發(fā)了專注于無(wú)機(jī)材料合成路徑預(yù)測(cè)任務(wù)的大語(yǔ)言模型——MatChat(http://chat.aicnic.cn/onchat),目前已經(jīng)上線運(yùn)行并開放使用。
該模型基本具備材料合成領(lǐng)域知識(shí)的生成和推理能力,經(jīng)實(shí)驗(yàn)驗(yàn)證,在預(yù)測(cè)合成復(fù)雜的無(wú)機(jī)材料時(shí),具備了超過ChatGPT的性能表現(xiàn)。受限于數(shù)據(jù)集的數(shù)量和質(zhì)量,該研究成果仍然需要更多的語(yǔ)料使其滿足不同材料設(shè)計(jì)的需求,但也展示出了大模型在材料領(lǐng)域具有強(qiáng)大的創(chuàng)新潛力和應(yīng)用空間,為材料研究和創(chuàng)新帶來了新啟發(fā)和思路。
該項(xiàng)成果由中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心王彥棡研究員、中國(guó)科學(xué)院物理研究所孟勝研究員牽頭,已發(fā)表在Chinese Physics B期刊。論文共同第一作者為我中心人工智能部碩士研究生陳子逸、工程師萬(wàn)萌,通信作者為物理所劉淼研究員、中心王宗國(guó)副研究員。該工作得到中國(guó)科學(xué)院網(wǎng)信專項(xiàng)(CAS-WX2023SF-0101)應(yīng)用示范項(xiàng)目的支持。
MatChat模型部署平臺(tái)對(duì)話實(shí)例
相關(guān)成果:
Chen, Z.-Y., et al. (2023). "MatChat: A Large Language Model and Application Service Platform for Materials Science." Chinese Physics B.
論文鏈接:https://iopscience.iop.org/article/10.1088/1674-1056/ad04cb
平臺(tái):http://chat.aicnic.cn/onchat
代碼:https://github.com/materialsCnicCas/CASMatChat
責(zé)任編輯:郎楊琴