AI Fake News Detector:构建可溯源的事实核查系统
AI Fake News Detector 是一款集成大语言模型(LLM)与语义嵌入技术的开源新闻验证工具。它通过提取文本中的核心主张,联动多个搜索引擎实时抓取证据,并利用向量计算评估证据的相关性,最终将结论定性为“正确”、“错误”或“部分正确”。该系统不仅支持中英双语界面,更强调核查路径的透明度,所有推理过程与证据来源均可追溯。
核心功能特性
🔍 高精度事实核查机制
系统并非简单地进行关键词匹配,而是通过一套严谨的逻辑链路工作:
- 智能声明提取 :自动从冗长的文本中解析出可被验证的具体主张。
- 多源证据检索 :集成 SearXNG 与 DuckDuckGo(支持代理配置),确保信息源的多样性。
- 语义相关性计算 :利用嵌入模型计算证据与声明之间的向量相似度,剔除无关干扰信息。
- 透明推理链 :完整展示从证据检索到结论推演的每一个步骤,拒绝“黑盒”判断。
🤖 灵活的模型生态
支持多种模型供应商,兼顾本地隐私与云端性能:
- 本地部署 :兼容 Ollama(如 GPT-OSS 120B + Nomic Embed)及 LM Studio。
- 云端服务 :原生支持 OpenAI 官方 GPT 系列。
- 通用接口 :支持任何兼容 OpenAI 格式的自定义 API 端点。
🌍 全球化语言支持
- 自动识别 :能够智能处理中文、英文、日文、韩文等多种语言的输入文本。
- 自定义输出 :用户可手动指定输出语言,或由系统根据输入自动适配。
- 本地化 UI:提供完整的中英文界面切换,降低使用门槛。
📊 数据管理与导出
- 全量历史记录 :完整保留每次核查的轨迹,方便后续对比。
- 专业报告生成 :支持一键导出 PDF 格式的核查报告。
- 多用户隔离 :支持独立账户体系,确保不同用户的记录互不干扰。
核查工作流程
系统在接收文本后,将按照以下顺序执行自动化处理:
- 声明提取 :分析文本,提取出具体的可核查主张。
- 证据搜索 :调用搜索引擎获取相关实时信息。
- 语义排序 :通过嵌入模型对搜索结果进行相关性筛选和排序。
- 事实判断 :综合证据,判定结果为 TRUE / FALSE / PARTIALLY TRUE。
- 结果呈现 :输出最终结论,并附带完整的推理过程与证据链接。
快速使用指南
- 环境配置 :在 Web 界面选择合适的模型提供商(如 OpenAI 或 Ollama)及具体模型。
- 参数设定 :配置所需的搜索引擎(SearXNG 或 DuckDuckGo)并选择输出语言。
- 执行核查 :输入待验证的新闻文本,点击开始。
- 结果分析 :在界面中实时跟踪处理进度,审阅最终结论及证据链。
- 归档导出 :根据需要将结果保存至历史记录或导出为 PDF 报告。
技术实现要点
- 语义匹配 :深度集成 BGE-M3 Embedding 模型,实现高精度的语义相似度计算。
- 长文本优化 :针对长篇内容采用自动切块技术,并结合证据优选算法提高准确率。
- 前端交互 :基于 Streamlit 构建,通过流式传输实时展示核查步骤,提升用户体验。
项目资源
GitHub 项目地址:https://github.com/CaptainYifei/fake-news-detector
正文完
