2024年5月7日至5月11日,在奧地利維也納Messe Wien會議展覽中心舉辦了The International Conference on Learning Representations(ICLR 2024)。實驗室碩士生段士童同學作為第一作者的論文《DENEVIL: Towards Deciphering and Navigating the Ethical Values of Large Language Models》被本屆ICLR 2024錄用,并參加了此次會議。

海報展示現(xiàn)場
本工作提出了一個可以動態(tài)評估大語言模型價值觀的評估框架DeNEVIL。DeNEVIL通過迭代式的生成,誘導大語言模型生成違反特定價值觀的提示?;诘赖禄A理論(Moral Foundation Theory),論文利用DeNEVIL算法構建了Moral Prompt價值觀評估數(shù)據(jù)集,然后測試了27個主流的大語言模型,發(fā)現(xiàn)了語言模型與人類價值觀的不一致性。而后探索了基于上下文對齊的方式,嘗試對大語言模型進行了對齊。

模型圖例
學者網(wǎng)

評論 0