• Multiwfn可以計算的分子描述符一覽

    Multiwfn可以計算的分子描述符一覽

    文/Sobereva@北京科音

    First release: 2021-Jun-22  Last update: 2023-Jul-5


    0 前言

    做QSAR(定量結構活性關系)和QSPR(定量結構屬性關系)需要提供分子的描述符(molecular descriptor)作為輸入信息,從而根據擬合的經驗關系預測分子的生物活性以及物理化學性質。特別是隨著基于(深度)神經網絡的機器學習方式的興起,分子描述符更是受到了高度的關注。產生豐富且有不同物理意義的描述符對于化學領域的機器學習尤為重要。

    強大、易用、免費的波函數分析程序Multiwfn(http://www.shanxitv.org/multiwfn)可以基于不同原理計算許多分子以及原子的描述符,其中有不少都是通過其它公開的程序無法直接計算的。鑒于時不時有做QSAR/QSPR的人問及相關的事情,筆者覺得有必要寫一個文章對Multiwfn能算的繁多的描述符做一個簡要的匯總,供相關研究者了解Multiwfn在這方面能起到的用處。本文提到的描述符簡單來說就是指一個分子一個值,或者一個原子一個值的那種量。構建預測模型中適合考慮哪些,應根據被預測的量與這些值的物理意義以及實際展現出的重要程度進行定奪。這些描述符除了用來預測分子性質外,也可以構建關系用來預測或解釋特定問題,比如某種反應的難易或勢壘的高低、分子間作用的強弱、各類實驗現象等等。

    目前已經有一些基于Multiwfn計算的描述符通過機器學習預測分子性質的文章,例如Phys. Chem. Chem. Phys. (2021) DOI: 10.1039/D1CP05072A利用Multiwfn計算的一些描述符建立了很好的預測分子親核性的模型。

    Multiwfn可以基于命令行運行,因此可以非常方便地通過腳本調用Multiwfn對大批體系自動進行計算、提取數據和處理數據,筆者專門寫過文章進行詳細說明,非常建議一讀:《詳談Multiwfn的命令行方式運行和批量運行的方法》(http://www.shanxitv.org/612)。如果對Multiwfn不了解的話,務必看《Multiwfn入門tips》(http://www.shanxitv.org/167)、《Multiwfn FAQ》(http://www.shanxitv.org/452)、《詳談Multiwfn支持的輸入文件類型、產生方法以及相互轉換》(http://www.shanxitv.org/379)以了解相關知識。

    下面根據描述符的類型依次進行介紹。本文只是Multiwfn能算的描述符的一個不完整羅列,還有很多零零碎碎的相對次要的就沒有提及。


    1 靜電勢相關的描述符

    如果對于靜電勢不了解的話,強烈建議看《靜電勢與平均局部離子化能相關資料合集》(http://bbs.keinsci.com/thread-219-1-1.html)里的資料了解基本知識。分子表面的靜電勢與分子間靜電相互作用的關系特別密切,也因此Politzer等人提出了general interaction properties function (GIPF)的概念。GIPF描述符可以視為基于分子表面靜電勢做統計分析得到的描述符的統稱。常見的GIPF包括分子表面靜電勢最大值和最小值、分子表面靜電勢正值/負值/所有部分的平均值/方差、分子表面靜電勢為正和為負的面積、電荷平衡度等等,詳細介紹和公式見Multiwfn手冊3.15節。Multiwfn的主功能12定量分子表面分析功能可以計算這些描述符,參考《使用Multiwfn的定量分子表面分析功能預測反應位點、分析分子間相互作用》(http://www.shanxitv.org/159)以及Multiwfn手冊4.12.1節的例子。GIPF描述符在預測分子性質上已有特別廣泛的應用,在《使用Multiwfn預測晶體密度、蒸發焓、沸點、溶解自由能等性質》(http://www.shanxitv.org/337)里我給了大量應用例子。由于GIPF是極其重要的一類分子描述符,物理意義很強,千萬不要忽視。實際上基于GIPF預測的很多分子性質本身也可以再進一步作為描述符來用。

    筆者在《談談如何衡量分子的極性》(http://www.shanxitv.org/518)和Carbon, 171, 514 (2021)中提出了分子極性指數(molecular polarity index, MPI)的概念,可以衡量任意分子的等效極性,也是基于分子表面靜電勢定義的,同樣可以用Multiwfn的主功能12計算。

    Multiwfn的主功能12還可以計算不同靜電勢區間的分子表面積。默認就會輸出靜電勢大于0、小于0的面積,還會輸出筆者定義的非極性和極性表面積,即靜電勢絕對值<=10 kcal/mol和>10 kcal/mol的表面積。讀者還可以用Multiwfn做分子表面靜電勢面積統計得到靜電勢在各個區間面積的具體值,可以分別作為不同的描述符,詳見《使用Multiwfn結合VMD分析和繪制分子表面靜電勢分布》(http://www.shanxitv.org/196)。

    用Multiwfn主功能12對分子表面靜電勢統計后會得到分子表面上各個靜電勢極大點和極小點的位置以及數值,位于特定原子附近的極值點的數值有特殊意義,比如鹵原子的sigma-hole區域對應的表面靜電勢極大點數值和鹵鍵強度關系非常密切,而氮原子附近的表面靜電勢極小點可以用來預測堿性(例如J. Chem. Inf. Model., 60, 1445 (2020)用Multiwfn算的這個量預測胺類物質的pKb)。

    Multiwfn還可以計算整個三維空間中靜電勢極小點位置及其靜電勢的具體數值,這也被用于一些文獻提出的QSAR/QSPR方程中。計算方法見《繪制靜電勢全局極小點+等值面圖展現孤對電子位置的方法》(http://www.shanxitv.org/493)。

    Multiwfn中獨家支持筆者提出的局部分子表面分析,可以得到暴露在分子表面的每個原子在各自表面上的靜電勢統計指標,比如每個原子局部范德華表面的靜電勢平均值。Multiwfn手冊4.12.3節給出了通過這個量預測親核反應位點的例子。

    Multiwfn的定量分子表面分析(主功能12)極為普適,能分析的絕不僅限于靜電勢,對于任意實空間函數都可以做定量統計分析,比如平均局部離子化能(ALIE)、局部電子附著能(LEAE)、局部電子親和能(LEA)、電子離域范圍函數(EDR)等,可以得到它們的極大/極小值、平均值、方差等等。Multiwfn手冊4.12.2節給了分子表面ALIE定量統計的實例。ALIE體現局部位置電子被電離的難易程度,它在分子表面的分布被大量文章所分析討論,對于預測親電反應活性很重要,見前述的《靜電勢與平均局部離子化能相關資料合集》中的資料,并且建議參看《使用Multiwfn和VMD繪制平均局部離子化能(ALIE)著色的分子表面圖(含視頻演示)》(http://www.shanxitv.org/514)來對這個函數有個直觀的認識。ALIE在預測分子性質上也很有用,比如在J. Chem. Phys., 98, 4305 (1993)中Politzer發現分子體積除以分子表面ALIE的平均值與分子的極化率有極好的相關性。在《使用Multiwfn通過局部電子附著能(LEAE)考察親核反應位點、難易及弱相互作用》(http://www.shanxitv.org/676)中介紹的LEAE對ALIE有重要互補性,它可以預測親核反應的優先位點和反應速率常數,而且和鹵鍵的相互作用能有非常密切的相關性。


    2 與概念密度泛函理論、反應性有關的描述符

    在概念密度泛函理論框架中有許多與分子、原子的反應性存在密切聯系的描述符。相關知識見《概念密度泛函綜述和重要文獻合集》(http://bbs.keinsci.com/thread-384-1-1.html)。在Multiwfn中可以非常方便地計算這些量,見《使用Multiwfn超級方便地計算出概念密度泛函理論中定義的各種量》(http://www.shanxitv.org/484)和《通過軌道權重福井函數和軌道權重雙描述符預測親核和親電反應位點》(http://www.shanxitv.org/533)。能算的有下面這些,具體公式在Multiwfn手冊3.25節都給了。
    ? 分子描述符:垂直電離能、垂直電子親和能、Mulliken電負性、化學勢、電子硬度(等同于fundamental gap)、電子軟度、親電指數(Parr定義的原始形式和后來定義的更嚴格的ωcubic)、親核指數
    ? 原子描述符:簡縮福井函數、簡縮雙描述符、簡縮局部軟度、相對親電指數、相對親核指數、簡縮局部親電指數、簡縮局部親核指數、簡縮局部ωcubic親電指數 、超離域度(superdelocalizability)

    Multiwfn還可以算所謂的FED(前線電子密度),利用Multiwfn算分子軌道成份的功能就可以很容易地手動得到,見http://bbs.keinsci.com/thread-11679-1-1.html。還可以算RSC Adv., 3, 1486 (2013)中提出的所謂的Parr函數,對于原子來說其實就是分子在+1和-1電荷狀態下原子的自旋布居,自旋布居的計算見《談談自旋密度、自旋布居以及在Multiwfn中的繪制和計算》(http://www.shanxitv.org/353)。


    3 與分子結構有關的描述符

    Multiwfn能計算許多跟分子結構特征有關的描述符。

    在Multiwfn主功能100的子功能21里,可以計算特定一批原子的回轉半徑、轉動常數、轉動慣量、原子間最大和最小距離,見Multiwfn手冊3.100.21節的說明。

    Multiwfn能計算分子的長、寬、高,見《使用Multiwfn計算分子的長寬高以及顯示分子的主軸》(http://www.shanxitv.org/426)。

    Multiwfn可以基于不同方式計算分子的半徑,見《談談分子半徑的計算和分子形狀的描述
    》(http://www.shanxitv.org/190)和《使用Multiwfn計算分子的動力學直徑》(http://www.shanxitv.org/503)。

    Multiwfn可以以不同方式計算分子體積,見《談談分子體積的計算》(http://www.shanxitv.org/102)。

    Multiwfn可以計算筆者在J. Mol. Model., 27, 263 (2021) DOI: 10.1007/s00894-021-04884-0中提出的分子平面性參數(molecular planarity parameter, MPP)和偏離平面跨度(span of deviation from plane, SDP),這倆是彼此互補的而且特別理想的定量衡量分子或體系局部平面性的參數。詳細介紹和例子見《使用Multiwfn定量化和圖形化考察分子的平面性(planarity)》(http://www.shanxitv.org/618)。

    Multiwfn可以計算整個分子或者特定一批原子對應的面積,見《使用Multiwfn和VMD計算分子表面積和片段表面積》(http://www.shanxitv.org/487)。

    Multiwfn可以計算分子的球形度來定量衡量分子輪廓接近球形的程度,見《使用Multiwfn計算分子的球形度(sphericity)》(http://www.shanxitv.org/661)。

    Multiwfn能夠計算含有孔洞的分子的孔洞體積《使用Multiwfn可視化分子孔洞并計算孔洞體積》(http://www.shanxitv.org/408)。對于周期性體系也可以計算自由體積,見《使用Multiwfn圖形化展示分子動力學模擬體系中的孔洞、自由區域》(http://www.shanxitv.org/539)和《使用Multiwfn計算晶體結構中自由區域的體積、圖形化展現自由區域》(http://www.shanxitv.org/617)。

    Multiwfn可以計算BLA衡量環狀或者鏈狀體系中的鍵交替變化情況,見《使用Multiwfn計算Bond length/order alternation (BLA/BOA)和考察鍵長、鍵級、鍵角、二面角隨鍵序號的變化》(http://www.shanxitv.org/501)。

    Multiwfn可以一次性導出分子所有內坐標數據,見http://bbs.keinsci.com/thread-23029-1-1.html

    Multiwfn可以根據原子間距離和原子半徑根據特殊公式計算原子的配位數,見手冊3.100.9節的介紹。


    4 與原子有關的描述符

    除了前面提到的以外,還有很多其它Multiwfn可以算的與原子有關的描述符,可以用于預測和解釋局部特征,如局部反應能力、局部作用強度、局部酸/堿度等。

    原子電荷有廣泛的用處,也與很多問題關系密切,比如與靜電作用強度密切相關、與NMR化學位移密切相關、與反應難易密切相關(J. Phys. Chem. A, 119, 8216 (2015)、J. Phys. Chem. A, 118, 3698 (2014))、與反應位點密切相關(物理化學學報, 30, 628 (2014)、Sci. China Chem., 58, 1845 (2015))。Multiwfn可以計算種類十分豐富的原子電荷,包括ADCH、Hirshfeld、Hirshfeld-I、VDD、Mulliken、修改的Mulliken(SCPA、Stout & Politzer、Bickelhaupt三種)、L?wdin、CM5、1.2*CM5、CHELPG和Merz-Kollmann擬合靜電勢、RESP、RESP2、AIM(也叫Bader電荷)、EEM、PEOE。具體原理在Multiwfn手冊3.9節有詳細的介紹,在手冊3.7節有許多例子。有一些原子電荷的計算也有專門的文章,AIM電荷計算見《使用Multiwfn做電子密度、ELF、靜電勢、密度差等函數的盆分析》(http://www.shanxitv.org/179);1.2*CM5電荷計算有快速的腳本,見《計算適用于OPLS-AA力場做模擬的1.2*CM5原子電荷的懶人腳本》(http://www.shanxitv.org/585);RESP/RESP2電荷有專門的文章和快捷腳本,見《RESP擬合靜電勢電荷的原理以及在Multiwfn中的計算》(http://www.shanxitv.org/441)、《計算RESP原子電荷的超級懶人腳本(一行命令就算出結果)》(http://www.shanxitv.org/476)、《RESP2原子電荷的思想以及在Multiwfn中的計算》(http://www.shanxitv.org/531)。

    Multiwfn可以計算原子的氧化態,見《使用Multiwfn通過LOBA方法計算氧化態》(http://www.shanxitv.org/362)。Multiwfn在計算Mayer和Wiberg鍵級的時候會給出原子價和自由價,計算例子見手冊4.9.1節。

    Multiwfn可以計算原子的極化率、原子有效體積,見《使用Multiwfn計算分子中的原子極化率》(http://www.shanxitv.org/600)。

    Multiwfn的AIM分析功能可以計算分子中原子的體積(以0.001 a.u.電子密度等值面為邊界),見《使用Multiwfn做電子密度、ELF、靜電勢、密度差等函數的盆分析》(http://www.shanxitv.org/179),在《使用Multiwfn和VMD繪制原子盆(AIM盆)》(https://www.bilibili.com/video/av85202089)視頻里有直觀的圖形示意。

    Multiwfn的模糊空間分析功能(主功能15)的主功能2可以計算原子的偶極矩、四極矩、八極矩。還可以對特定片段來算,參考《使用Multiwfn計算分子片段的偶極矩和復合物中單體的偶極矩》(http://www.shanxitv.org/558)。模糊空間分析功能里的主功能1可以對Multiwfn支持的上百種實空間函數(見手冊2.6、2.7節的介紹)在各個原子空間內積分,因此能得到原子的眾多的描述符,比如可以在原子空間里積分局部溫度、ELF、動能密度、能量密度、源函數等等。Multiwfn的模糊空間分析功能里支持Becke、Hirshfeld、Hirshfeld-I這些模糊式原子空間劃分方式,Multiwfn也支持在AIM原子空間(也叫AIM原子盆)內積分這些函數,后者需要用主功能17盆分析模塊來做,參考《使用Multiwfn做電子密度、ELF、靜電勢、密度差等函數的盆分析》(http://www.shanxitv.org/179)以及手冊4.17節的相關例子。

    Multiwfn可以計算軌道成份,HOMO和LUMO軌道中各個原子以及原子軌道的成份尤為有意義,計算方法見《談談軌道成份的計算方法》(http://www.shanxitv.org/131),另參考《利用布居分析判斷基函數與原子軌道的對應關系》(http://www.shanxitv.org/418)。

    Multiwfn還可以計算各個原子核位置的任意實空間函數,有些有實際意義。比如原子電荷位置的自旋密度就和超精細耦合的費米接觸項密切相關。原子核位置的靜電勢(扣除這個核產生的靜電勢的貢獻)與pKa關系密切,見J. Comput. Chem., 39, 117 (2018)。在Multiwfn的子功能1里面輸入諸如a4,就可以得到各種函數在4號原子核位置的值。

    原子的能量指數(energy index, EI)在J. Phys. Chem., 94, 5602 (1990)中提出,后在J. Phys. Chem., 96, 157 (1992)中進行了進一步討論。這個量體現的是某個原子上平均每個價電子的能量,和原子在分子中的電負性有密切聯系。詳細介紹見Multiwfn手冊3.200.12節,在4.200.12節有計算例子。另外,基于兩個原子的EI還可以計算它們間的鍵極性指數考察鍵的極性。


    5 其它的描述符

    分子的電荷分布特征可以通過電多極展開來描述。Multiwfn可以計算分子的偶極矩、四極矩、八極矩、十六極矩,見Multiwfn手冊3.300.5節的介紹。

    Multiwfn可以計算electronic spatial extent(電子空間范圍) <r^2>,這是衡量分子的電子密度空間分布廣度的一個很有用的量,而且與分子的(超)極化率有正相關性。Multiwfn不僅可以對這個體系計算這個量,還可以對原子計算它來衡量各個原子的電子空間分布廣度的區別,詳見《電子空間范圍<r^2>和電子徑向分布函數的含義以及在Multiwfn中的計算》(http://www.shanxitv.org/616)。

    量子化學計算完了就得到軌道信息,在里面可以讀取HOMO、LUMO能級。在Multiwfn里提取HOMO、LUMO更為方便,載入諸如Gaussian的fch文件、ORCA的molden文件等,進入主功能0的時候屏幕上直接就顯示了HOMO、LUMO能級,以及二者的差值,即HOMO-LUMO gap。

    對各種軌道,包括最重要的HOMO和LUMO,Multiwfn做軌道成份分析時可以計算衡量軌道離域程度的ODI指數,對整個體系以及特定片段都可以算,見《通過軌道離域指數(ODI)衡量軌道的空間離域程度》(http://www.shanxitv.org/525)。

    Multiwfn可以計算d帶中心,這是廣為使用的催化方面的描述符,見《用Multiwfn計算過渡金屬的d-band center(d帶中心)》(http://www.shanxitv.org/582)。以文中類似方法也可以計算諸如p帶中心。

    Multiwfn可以計算十分豐富的定量衡量整體或者局部芳香性的指標,比如HOMA、多中心鍵級、AV1245/AVmin、PDI、FLU、FLU-pi、香農芳香性等等,詳見《衡量芳香性的方法以及在Multiwfn中的計算》(http://www.shanxitv.org/176)。

    Multiwfn還能計算大量與鍵有關的描述符,比如各種鍵級的數值、AIM理論定義的鍵臨界點(bond critical point, BCP)位置的各種實空間函數的值、基于BCP性質定義的一些的量(如鍵橢率、bond degree、eta index、鍵金屬性等等)、原子重疊空間內各種實空間函數的積分(諸如筆者提出的拉普拉斯鍵級就是基于這種思想定義的,涉及重疊空間內積分電子密度拉普拉斯函數)、鍵偶極矩,等等。大部分在《Multiwfn支持的分析化學鍵的方法一覽》(http://www.shanxitv.org/471)里都有介紹。

    當孤對電子與當前研究的問題關系密切時,可以用Multiwfn計算ChemPhysChem, 14, 3714 (2013)中提出的ELF localization domain population and volume (HELP and HELV),這是孤對電子的布居數和體積的一種定義。在原文里發現HELP與分子的電離能有很好的相關性。HELP和HELV的計算例子看Multiwfn手冊的4.17.8節。

    Multiwfn對芳環可以計算Chem. Commun., 48, 9239 (2012)中提出的LOLIPOP指數,與分子的pi-pi堆積能力有密切關系。筆者認為這對于考察諸如多環芳烴體系通過pi-pi堆積插入DNA導致致癌的毒性有密切關系,因此也是個有用的描述符。LOLIPOP的計算看Multiwfn手冊4.100.14節的例子。

    Multiwfn可以可以基于Gaussian的輸出文件提取和進一步計算一大堆與(超)極化率有關的量。它們體現體系對外電場的響應,也是重要的分子描述符。詳見《使用Multiwfn分析Gaussian的極化率、超極化率的輸出》(http://www.shanxitv.org/231)和《使用Multiwfn計算與超瑞利散射(HRS)實驗相關的量》(http://www.shanxitv.org/499)。

    Multiwfn的子功能100的子功能4可以利用Becke的多中心積分算法對Multiwfn支持的上百種實空間函數(看手冊2.6、2.7節的介紹)在全空間進行積分,一些函數的積分結果可以作為分子描述符,這個功能的具體介紹看手冊3.100.4節,例子見4.100.4節。而且用戶還可以非常方便地自己修改源代碼定義新的用戶自定義的被積函數,做法見手冊2.7節開頭,然后使用功能100的子功能4時被積函數選擇用戶自定義函數,即可在全空間積分自己定義的新函數,可見極度靈活!

    劉述斌等人將信息論和密度泛函理論中的概念相結合用于廣泛的化學問題的研究,提出了Information-theoretic approach (ITA)的思想,并定義了許多定量指標,綜述見Acta Phys. -Chim. Sin., 32, 98 (2016)(http://dx.doi.org/10.3866/PKU.WHXB201510302)和WIREs Comput Mol Sci., 10, e1461 (2019)(https://doi.org/10.1002/wcms.1461)。Multiwfn可以計算ITA中的各種對分子或整體定義的量,計算方法筆者匯總在了《Calculating information-theoretic quantities and some relevant quantities by Multiwfn》文檔里(http://www.shanxitv.org/multiwfn/res/ITA.pdf),這些量都可以作為描述符。

    劉述斌在J. Chem. Phys., 126, 244103 (2007)提出了一種能量分解思想,將體系總能量拆分為steric、electrostatic、quantum三部分,并被用于諸多問題的研究,詳見Multiwfn手冊3.24.2節的介紹,在手冊4.21.2節有這種分析的具體例子。Multiwfn做這個分析的時候還會把大量中間涉及到的能量成分都會輸出出來,都可以考慮直接或間接(比如取比值)作為分子描述符。

    久久精品国产99久久香蕉