ReaderLM-v2：HTML转换和解析

2025年2月23日 0条评论 420次阅读 1人点赞 Lx

file

ReaderLM-v2 是Jina AI 发布的一个参数量为 1.5B (15.4 亿) 的小型语言模型，专用于将 HTML 转为 Markdown，也可转为JSON 结构化数据。

file

ReaderLM-v2 支持 29 种语言，可处理高达 512K token 的输入和输出组合长度。除了 markdown 转换之外，还引入了 HTML 转 JSON 生成功能，允许用户根据给定的 JSON Schema 从原始 HTML 中提取特定信息。

file

如何使用，官方给出了两种测试方法

Reader API： 只需在请求头中指定 x-engine: readerlm-v2 并通过 -H 'Accept: text/event-stream' 启用响应流式传输：

curl https://r.jina.ai/https://news.ycombinator.com/ -H 'x-engine: readerlm-v2' -H 'Accept: text/event-stream'

Google Colab：
https://colab.research.google.com/drive/1FfPjZwkMSocOLsEYH45B3B4NxDryKLGI?usp=sharing

Google Colab测试

HTML to Json测试，
在这里插入图片描述

通过输入指令测试， (Experimental) Extract information by instruction
在这里插入图片描述

通过输入指令测试
在这里插入图片描述

file

Google免费的 GPU 有一些限制，可能会影响结果，也会导致更高的内存使用和更慢的处理速度。

对于本地部署，可以通过Docker运行，具体步骤参考：https://github.com/rbehzadan/readerlm-docker

官方建议 RTX 3090/4090。

要发表评论，您必须先登录。