材料合成路徑預測是物質科學領域的重要課題。1990年諾貝爾化學獎授予了美國有機化學家Elias James Corey教授。近年來大語言模型的崛起以及預訓練-微調方法的應用,使得通用大語言模型的理解能力在各垂直領域顯示出了較好的表現(xiàn),但在材料領域仍缺乏相關的應用和研究。
近期,我中心人工智能部和中國科學院物理研究所SF10組合作,通過使用來自400多萬篇論文中提取的35675個無機材料固相反應合成過程,將數(shù)據(jù)處理為13878條高可信度的合成路徑描述數(shù)據(jù),并對開源大語言模型LLaMA2-7B進行微調訓練,成功研發(fā)了專注于無機材料合成路徑預測任務的大語言模型——MatChat(http://chat.aicnic.cn/onchat),目前已經(jīng)上線運行并開放使用。
該模型基本具備材料合成領域知識的生成和推理能力,經(jīng)實驗驗證,在預測合成復雜的無機材料時,具備了超過ChatGPT的性能表現(xiàn)。受限于數(shù)據(jù)集的數(shù)量和質量,該研究成果仍然需要更多的語料使其滿足不同材料設計的需求,但也展示出了大模型在材料領域具有強大的創(chuàng)新潛力和應用空間,為材料研究和創(chuàng)新帶來了新啟發(fā)和思路。
該項成果由中國科學院計算機網(wǎng)絡信息中心王彥棡研究員、中國科學院物理研究所孟勝研究員牽頭,已發(fā)表在Chinese Physics B期刊。論文共同第一作者為我中心人工智能部碩士研究生陳子逸、工程師萬萌,通信作者為物理所劉淼研究員、中心王宗國副研究員。該工作得到中國科學院網(wǎng)信專項(CAS-WX2023SF-0101)應用示范項目的支持。
MatChat模型部署平臺對話實例
相關成果:
Chen, Z.-Y., et al. (2023). "MatChat: A Large Language Model and Application Service Platform for Materials Science." Chinese Physics B.
論文鏈接:https://iopscience.iop.org/article/10.1088/1674-1056/ad04cb
平臺:http://chat.aicnic.cn/onchat
代碼:https://github.com/materialsCnicCas/CASMatChat
責任編輯:郎楊琴