最近看到的 3 个 GitHub 开源项目,分享一下。

01

PageLM:NotebookLM 开源平替

PageLM 是又一个开源版的 Google NotebookLM。
图片[1]-最近看到的 3 个 GitHub 开源项目,分享一下。-AI Express News
NotebookLM 最火的功能就是把一堆资料扔进去,它能给你生成播客对话、测验题或者复习卡片。
PageLM 就是干这个的,把学习资料喂给它,它不光能帮你整理重点,还能把死板的文字变成互动的学习资源。
比如你上传一份历史课件,它能直接反向给你出几道测试题,或者把重点知识变成 Flashcards 方便记忆。
最重要的是它不像谷歌的产品那样把数据锁在云端,你可以自己部署,对于那些在意隐私或者想根据自己需求魔改功能的开发者来说,这玩意儿比官方的 NotebookLM 灵活多了。
图片[2]-最近看到的 3 个 GitHub 开源项目,分享一下。-AI Express News
开源地址:https://github.com/CaviraOSS/pagelm

02

DeepSeek-OCR-2

DeepSeek 这次又整了个狠活。
以前的 OCR 傻乎乎地从左到右、从上到下扫描图片,遇到报纸排版或者复杂表格就容易乱码。
DeepSeek 这个新版本用了一个叫 DeepEncoder V2 的技术,让模型像人眼一样按逻辑去阅读,哪儿是标题、哪儿是分栏。
就像他们说的:探索更像人类的视觉编码。
图片[3]-最近看到的 3 个 GitHub 开源项目,分享一下。-AI Express News
而且这模型特别轻量,参数量只有 3B,跑起来不吃配置,但效果据说比很多闭源的大模型还好。
它甚至直接拿了一个小的语言模型(Qwen2-0.5B)来当视觉编码器用,这思路挺野的,等于让模型在图片的时候就已经带上了理解的脑子,而不只是单纯地认字。
图片[4]-最近看到的 3 个 GitHub 开源项目,分享一下。-AI Express News
开源地址:https://github.com/deepseek-ai/DeepSeek-OCR-2

03

Awesome Web Agents

Steel.dev 本身是做 AI 浏览器基础设施的,就是专门给 AI Agent 提供浏览器环境的。

他们把自己在这个圈子里看到的最好的工具、框架、论文都整理到了这个列表里。

图片[5]-最近看到的 3 个 GitHub 开源项目,分享一下。-AI Express News

如果你想做一个能操控浏览器、自动帮你在网上订票、抓数据或者填表单的 AI Agent,别满世界乱搜了,直接看这个列表就行。

里面涵盖了从底层驱动,比如 Puppeteer、Playwright 到上层框架,比如 LangChain 里的相关模块,再到最新的学术论文,基本上把 Web Agent 这个垂直领域的家底都翻出来了。

这种列表最大的好处就是帮你省时间。

现在 AI Agent 发展太快,今天出一个新框架,明天发一篇新论文,很容易跟丢。

Steel 这个团队因为自己就靠这行吃饭,所以选出来的东西质量比较高,基本没有凑数的,想入坑 Web Agent 开发的话,把这个库 Star 一下是个好起手。

开源地址:https://github.com/steel-dev/awesome-web-agents

04

点击下方卡片,关注逛逛 GitHub

这个公众号历史发布过很多有趣的开源项目,如果你懒得翻文章一个个找,你直接关注微信公众号:逛逛 GitHub ,后台对话聊天就行了:

图片

<原文链接:https://mp.weixin.qq.com/s/dfvaV5Mt3NaphQbB-6eBGQ

© 版权声明
THE END
喜欢就支持一下吧
点赞15 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容