絕大多數化學知識都存在于非結構化的自然語言中,但結構化數據對于創新和系統的材料設計至關重要。傳統上,該領域依賴于手動管理和部分自動化來提取特定的數據。大語言模型(LLM)的出現代表了一個重大轉變,可能使非專家能夠有效地從非結構化文本中提取結構化、可操作的數據。雖然將LLM應用于化學和材料科學數據提取帶來了獨特挑戰,但領域知識為指導和驗證LLM輸出提供了機會。近日,德國耶拿大學Kevin Maik Jablonka對用于化學數據提取的大語言模型進行了綜述研究。
本文要點:
1) 該綜述全面概述了化學中基于LLM的結構化數據提取,綜合了當前的知識并概述了未來的方向。作者解決了缺乏標準化指導方針和現有框架的問題,以利用LLM和化學專業知識之間的協同作用。
2) 該綜述為旨在利用LLM進行數據驅動化學研究的研究人員提供基礎資源。這些見解可以顯著增強跨化學學科的研究人員獲取和利用科學信息的方式,從而加速開發滿足關鍵應用需求的新型化合物和材料。
Mara Schilling-Wilhelmi et.al From text to insight: large language models for chemical data extraction Chem. Soc. Rev. 2024
DOI: 10.1039/D4CS00913D
https://doi.org/10.1039/D4CS00913D