ReaderLM-v2 是Jina AI 发布的一个参数量为 1.5B (15.4 亿) 的小型语言模型,专用于将 HTML 转为 Markdown,也可转为JSON 结构化数据。
ReaderLM-v2 支持 29 种语言,可处理高达 512K token 的输入和输出组合长度。除了 markdown 转换之外,还引入了 HTML 转 JSON 生成功能,允许用户根据给定的 JSON Schema 从原始 HTML 中提取特定信息。
如何使用,官方给出了两种测试方法
Reader API: 只需在请求头中指定 x-engine: readerlm-v2 并通过 -H 'Accept: text/event-stream' 启用响应流式传输:
curl https://r.jina.ai/https://news.ycombinator.com/ -H 'x-engine: readerlm-v2' -H 'Accept: text/event-stream'
Google Colab:
https://colab.research.google.com/drive/1FfPjZwkMSocOLsEYH45B3B4NxDryKLGI?usp=sharing
Google Colab测试
HTML to Json测试,
通过输入指令测试, (Experimental) Extract information by instruction
通过输入指令测试
google Colab :
https://colab.research.google.com/drive/18SbJLp1hjpsTnmb06vFmVQauEkXTPr46?usp=sharing
Google免费的 GPU 有一些限制,可能会影响结果,也会导致更高的内存使用和更慢的处理速度。
对于本地部署,可以通过Docker运行,具体步骤参考:https://github.com/rbehzadan/readerlm-docker
官方建议 RTX 3090/4090。