一个技术简单的有用服务,谁有空做?

By 饱读书名 at 2020-02-28

我想到一个有用的工具,但自己懒得动手。看看谁有兴趣做:

用途:敏感词解码。

刚刚看到墙内有些网站敏感词屏蔽得丧心病狂,例如:给你量一××温,其实这个很容易破。思路如下:

1、学习大量语料,只要把语料里所有连续二至六个字的串(不含标点)都存下来,每个串出现的频率可以不存。

语料可以偏向特定的类型,例如你特别喜欢小黄文,可以开展专项学习。

2、要维护一个长度不超过四个字的敏感词库。

3、开始匹配:对敏感文中每个敏感词的位置,用所有长度相同的敏感词来替换,替换后从语料库评估是否符合语言习惯。这样就能很快解码敏感词了。

在小概率下,可能有多个敏感词都解得通,这时不妨把它们都列出来,读者自然知道该怎么选。

谁有兴趣快来做吧,最好做成网页,我等着用现成的。

谁有空, 有用, 简单, 服务, 技术


靠!思路都被你说出来了,我连思考的乐趣都没有了,你当我是工具人吗?

dongdongfm at 2020-02-28
1

@dongdongfm #1 你能不能有更好的思路?

饱读书名 at 2020-02-28
2

@饱读书名 #2 更好的思路,就是先分析一下这东西对自己有没有用。 只在墙内发表的文章值不值得自己看?我个人没有需求。如果我做,我也会做成浏览器的扩展。但是依然还有很多问题:视频弹幕的也能替换吗?百度文库的能替换吗?还有,大家都用移动端APP了,我的PC端浏览器扩展有多少人会用?

dongdongfm at 2020-02-28
3

上面的黑体两边各有两个英文星号

dongdongfm at 2020-02-28
4

只有密文没有明文,训练个鬼。

小二 at 2020-02-28
5

@小二 #5 再看一遍。

饱读书名 at 2020-02-28
6

@饱读书名 #6 你先把敏感词库弄出来再谈别的。

小二 at 2020-02-28
7

@小二 #7 谁做谁弄。缺的随时补。

饱读书名 at 2020-02-28
8

我强烈怀疑现在已经没有敏感词库了,所有东西都是先审后发

rrrr at 2020-02-28
9

@rrrr #9 可以用旧的敏感词库,不断添加新词。百度贴吧等许多地方还是不审就发。

饱读书名 at 2020-02-28
10

@rrrr #9 @小二 #7 敏感词库哪里可以找到?

puf夏 at 2020-02-28
11