用 AI 辅助读代码时，最尴尬的不是模型看不懂，而是工具太慢、太贵：grep

用 AI 辅助读代码时，最尴尬的不是模型看不懂，而是工具太慢、太贵：grep 一堆关键词，再 read 一堆大文件，Token 一半被无关代码吃掉，延迟还高。

Semble 就是来解决这个问题的：一个专为 AI Agent 打造的代码检索库。它不靠暴力扫描，而是直接把“自然语言提问”映射成“精准代码片段”，把 grep+read 的那套低效流程彻底换掉。

[赞]核心亮点：快、准、省

😁Token 杀手级优化
相比传统 grep+read ，Semble 平均节省约 98% 的 Token。
在 2k Token 预算下就能达到 94% 召回率，而 grep+read 要撑到 100k 才能勉强 85%。

😁毫秒级响应，CPU 即可跑

★索引全仓库：~250ms

★单次查询：~1.5ms

全部跑在 CPU 上，不需要 GPU、API Key 或任何外部服务。

😁自然语言 + 符号混合搜索
直接问：“认证是怎么实现的？”
或输入符号、路径、行号，Semble 都能返回语义最相关的代码块，还能根据已知位置找到相似实现。

😁全自动索引与热更新
支持本地路径和 Git URL，自动克隆并缓存索引；本地文件改动会被监听并实时重索引，Agent 永远查到最新代码。

[彩虹]技术内幕（简版）

Semble 内部用 Chonkie 做代码感知分块，然后用两套检索器打分：

😁potion‑code‑16M 静态嵌入模型（语义相似度）

😁BM25（标识符、API 名精确匹配）

两者通过 Reciprocal Rank Fusion（RRF）融合，再用代码感知信号重排。

因为查询时不跑 Transformer 前向传播，所以全程毫秒级。

在 63 个仓库、19 种语言、1250+ 查询的基准测试中：

Semble 达到了 137M 参数 CodeRankEmbedHybrid 99% 的检索质量，但索引快 218 倍、查询快 11 倍。

[礼物]一句话总结：

如果你经常用 AI Agent 啃陌生代码库，Semble 能把“grep 盲扫 + 全文读取”升级成“语义检索 + 精准片段返回”，既省钱（Token）又省时间（延迟）。

📎 GitHub：github点com/MinishLab/semble

YC科技资讯网

用 AI 辅助读代码时，最尴尬的不是模型看不懂，而是工具太慢、太贵：grep

热门分类