还有世界首位提示词工程师Riley Goodside表示,这才是考验顶尖模型的数据集该有的难度。 如果按照大学科来算,入选的题目可以分为八大类,其中占比最多的是数学(42%),然后是物理和生物医药(均为11%)。