研 议
面向人文社科研究者的多视角 AI 学术预审系统
研议不是文献总结器,也不是论文代写工具。它把每一次研究提案——从开题报告到投稿论文——放进四个独立学术视角构成的审议现场,让研究者在正式提交前先听见来自不同位置的独立判断,并据此反复打磨、迭代完善。
当通用 AI 不够时
研议服务于正在进行选题、开题、研究设计和投稿修改的人文社科博士生与青年研究者。他们通常已经会用大模型做文献总结和语言修改——真正稀缺的不是「再生成一份意见」,而是在面对导师、开题委员会或期刊审稿人之前,获得来自不同学术位置的独立挑战:
- 大同行 追问:这个研究为什么值得学界关心?
- 小同行 追问:概念、材料和方法在该领域内是否成立?
- 盲审人 追问:什么问题足以导致开题失败或论文被拒?
现有 AI 工具通常只给一次性综合回答:角色共享上下文容易附和,分歧被压缩成虚假共识,判断来源不可追溯,下次从头开始。
研议把一次性 AI 问答,转化为独立、可追溯、可持续积累的研究评议流程。
四个独立视角,一次 Editor 合议
用户最少只需提交一份开题报告,也可补充过往论文、优秀文章、相关文献与私有 Research Context Pack。当运行环境支持真实子 Agent 时,研议并行启动四个独立评审角色:
四个角色独立读取同一份材料,不查看彼此结论,以降低 Lead 锚定和角色附和。主 Agent 仅承担 Editor 职责:合并重复问题;保留少数意见;区分诊断与方案共识;排列优先级;组织最终报告。若不支持真实子 Agent,系统明确降级为单 Agent Compact Review,不伪装多 Agent。
完整交付物
研议交付的是一份 Research Review Packet,包含四个平级组件:
对照与实证
项目使用同一批研究材料,对多类方案进行对照:
| 方案 | 优势 | 主要局限 |
|---|---|---|
| 裸模型 | 单次整体判断较强 | 视角单一,缺少稳定协议、来源追踪和历史积累 |
| 通用 Idea Evaluator | 结构清楚、评分直观 | 更适合一般创意评估,难以覆盖人文社科特有的理论、材料与方法问题 |
| 早期单体多角色 Skill | 增加角色和报告结构 | 角色共享上下文,容易被 Lead 锚定,Editor 可能制造虚假共识 |
| 研议最终版 | 独立角色形成互补判断,可追溯、可积累 | 运行成本高于裸模型,更适合高风险、低频研究决策 |
研议建立了覆盖质性访谈、历史档案、横截面定量与课堂实验的跨方法测试集,设置隐藏问题清单,生成与评分模型分离。固定 Rubric 经两位人文社科博士和一位北京大学国际关系学院副教授咨询修订。在四个最终可比案例中:
| 版本 | 平均分 |
|---|---|
| 裸模型 | 77.3 |
| 单体多角色 Skill | 79.7 |
| Lead 主干补丁版 | 77.2 |
| 原生独立多 Agent 完整报告 | 92.7 |
最终版本在四类案例中均高于裸模型,并在核心问题覆盖、学科专项风险识别、角色意见差异、判断可追溯性、用户决策价值方面形成稳定增量。
· 历史研究案例重新识别此前版本持续遗漏的关键过渡期
· 一位北京大学人文社科博士生使用真实开题材料试用后,给予明确正面反馈
产品提升并不来自更长 Prompt,而来自真正独立的角色执行和更适合研究决策的交付结构。
研议的差异化不在于「增加几个角色名称」,而在于:独立上下文评议 + 分歧可追溯 + 证据状态管理 + 私有 Context Pack 写回。
为研究决策而建
研议适用于:
它定位于高风险、低频、值得投入更多推理成本的研究决策。
研议不是:
研议不替研究者作出判断。它让研究者在作出重要学术决定前,听见更多独立、可追溯,并能够随研究过程持续积累的同行意见。