结合LLM的采集系统示例

根据用户输入的需求文本,自主生成提示词,理解并执行且返回的通用爬虫。

在这里插入图片描述

采集层:代理IP轮转、‌多模态容错机制‌、优先调度算法,指数退避策略
预处理:降噪(justext 、stoplist 、filter_css)、增强(dict、keyword)
AI解析层:按网站域名分配独立解析Worker
后处理层:负责存储和维护解析规则

任务流程

在这里插入图片描述

点赞

发表回复