Daily AI Insight Engine
信息高度图名的时代,真正稀缺的不是信息,而是结构化的判断力。
每天面对 arXiv、TechCrunch、Hacker News、 Product Hunt 等数十个渠道的资讯与文章,真正需要的是一个能在信息噪音中提取信号、在碎片中构建体系的洞察引擎。
项目简介
更详细的功能、设计细节与安装指南,详见 daily-ai-insight-engine GitHub 仓库。
daily-ai-insight-engine 是一款 AI 驱动的信息聚合与分析引擎,致力于解决信息过载难题。它自动采集 19 个中英文优质信息源,涵盖学术论文、技术博客、科技媒体及社区讨论四大领域;经由四阶段流水线处理,完成自动聚合、深度解读与洞见提炼,最终输出结构化的洞察报告与交互式可视化看板。
多源自动采集
19 个中英文源,RSS/API/爬虫/无头浏览器四种策略,关键词过滤 + 时间窗口 + 去重
四阶段流水线
采集 → 事实提取 → 深度分析 → 总编合成,每阶段产物可回溯、可重跑
三人格并行分析
技术架构师、资本分析师、风险评估师三种视角并行深度解读,产出 32+ 结构化字段
零后端可视化
Next.js 16 直接读取 JSON 文件渲染 Dashboard,无数据库、无 API 层、无网络请求
A 层 · 学术/技术前沿:arXiv、OpenAI、DeepMind、Anthropic、NVIDIA
B 层 · 产品/开发者情绪:Hacker News、Product Hunt、GitHub Trending、知乎
C 层 · 商业/资本视角:TechCrunch、The Verge、机器之心、36氪、量子位
· 当日 TOP 5 事件与深度解读
· 技术/应用/政策/资本四维趋势判断
· 风险信号与机会信号双维度预警
· 事件类型分布、情绪分布、影响力排行等可视化图表
四阶段流水线
Stage 1 — 数据源筛选与采集
四种抓取策略(RSS / API / Scrape / Browser)覆盖不同站点类型。关键词过滤 + 时间窗口截断 + URL 去重 + 标题相似度去重,每层配额上限 5 篇,按 impact_score 择优。
Stage 2 — 事实提取
构建 Agent(使用 deepseek-v4-pro 模型,温度系数为 0.1)精确提取:TLDR 摘要、客观事实总结、事件类型、实体识别(公司/技术/人物/产品/地区)、关键逻辑链(3-6 条)、影响力评分(1-10)。支持断点续跑。
Stage 3 — 深度分析
构建 Agent(使用 deepseek-v4-pro 模型,温度系数为 0.3)实现并行分析:Tech Architect × Capital Analyst × Risk Assessor 三维度同时执行。外层 3 文件并发,内层 asyncio.gather 并行 = 每轮最多 9 个 Agent 调用。失败隔离:单维度异常不阻塞其他维度,产出定性评估、价值评估、前瞻与行动建议。
Stage 4 — 总编合成
Stage-4a Frontmatter 聚合
递归扫描分析产物,零 LLM 调用,<1 秒完成。
Stage-4b Editor-in-Chief 合成
单次调用、完整输出,产出最终日报。
三种消费模式
流水线产物通过三种方式消费,覆盖从底层数据钻取到高层洞察阅读的完整链路:
数据源探索(Source Explorer)
按 Golden Triangle 三级金字塔浏览被筛选、采集的信息数据源,钻取到每篇文章在各阶段的提取与分析结果,理解 Agent 分析链路。
- 三级金字塔信源卡片网格:A/B/C 三层分组,每张卡片含名称、描述、关键词、文章数及 Tier/语言/抓取策略徽章。
- 单源详情页:展示该源全部文章列表,每篇标注处理阶段状态(scout → extracted → analyzed)。
- Stage 2 提取结果:TLDR 摘要、事件类型、实体识别(公司/技术/人物)、关键逻辑链(3-6 条)。
- Stage 3 分析结果:影响力评分(1-10)含理由、情绪与开发者情绪、技术颠覆性、复合价值、风险矩阵。
交互看板(Dashboard)
Next.js 16 暗色主题 Dashboard,零后端架构,Server Component 直接 readFile 读取 daily-report.json 渲染。
- KPI 指标卡 + 双环形图(事件类型分布 × 情绪分布)
- TOP 5 事件影响力排行 + 实体频率柱状图
- 四维趋势卡片(技术/应用/政策/资本)+ 深度解读面板
- 风险信号 + 机会信号双列表,附严重等级标签
可读报告(Markdown Report)
Stage-4b Editor-in-Chief Agent(Claude Opus)一次性生成结构化 Markdown 日报,适合阅读与分享。
- 执行摘要 + 当日数据概览(样本总量 / 信源数 / 语言覆盖)
- TOP 5 事件 + 为何重要 + 支撑证据
- 3 篇深度解读(背景 → 影响 → 后续关注)
- 风险/机会信号各 5-7 条,附严重等级与判断依据
项目时间线
24h MVP 验证
从零搭建核心流水线:采集 + 提取 + 分析 + 合成四阶段跑通,验证 AI 资讯自动加工的可行性。确立 Markdown + YAML Frontmatter 作为阶段间数据交换格式。
Pipeline 工程化
引入 asyncio 并发控制、断点续跑、指数退避重试、五级 JSON 恢复解析。完善 19 个信息源配置与三级金字塔筛选策略。三人格并行分析落地。
Dashboard 可视化
Next.js 16 App Router + Recharts + Tailwind CSS 4 暗色主题。零后端架构:Server Component 直接 readFile 读取 JSON,Zod 验证后渲染。双 Schema 契约:Pydantic(Python)+ Zod(TypeScript)。
持续建设与 Agent 化
定时自动运行 + 推送通知。探索多 Agent 协作深化分析质量,引入历史对比与趋势追踪。开放自定义信息源与人格配置。