V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
zxp

一个网站的终极内容防复制的设计,没见过更加丧心病狂的了,求破求算法

  •  
  •   zxp · Jan 27, 2014 · 7687 views
    This topic created in 4473 days ago, the information mentioned may be changed or developed.
    很多年前发现的一个奇葩网站,内部所有文章的内容都用一种奇葩的防复制设计,不但防机器人,还防人肉复制,曾想破了脑袋去破,最终还是放弃了,耿耿于怀了很多年,原始网址忘记了,就用一个图片来说说这个设计吧,看看大家有没有破法。



    整篇文章被多个表格包围,表格大小随机,一个文字一格,手工复制出来,导成纯文字版整个文章文字顺序全部打乱,无法阅读。
    32 replies    1970-01-01 08:00:00 +08:00
    Livid
        1
    Livid  
    MOD
    PRO
       Jan 27, 2014 via iPhone   ❤️ 4
    如果对方还考虑 SEO 的话,把 UA 伪装成百度看看能不能拿到不同的输出。
    raincious
        2
    raincious  
       Jan 27, 2014   ❤️ 3
    截图OCR转换。
    jjplay
        3
    jjplay  
       Jan 27, 2014
    国人都是人才...
    Evance
        4
    Evance  
       Jan 27, 2014
    如果生成的算法在后端,那么通过字符串处理的办法,很大情况情况无解,通过 @raincious 所说的办法比较有效。
    如果算法在前端,找到生成脚本修改处理的算法函数即可。
    hq5261984
        5
    hq5261984  
       Jan 27, 2014   ❤️ 2
    chrome浏览器 粘帖为纯文本。
    然后自己再排版。
    bengtuo
        6
    bengtuo  
       Jan 27, 2014
    只要能看到正确的内容 便是可以破的
    FrankFang128
        7
    FrankFang128  
       Jan 27, 2014
    好办法。 对付copy者很管用。
    FrankFang128
        8
    FrankFang128  
       Jan 27, 2014
    @bengtuo 中文OCR识别度太烂,所以楼主说的这种暂时无解,我觉得。
    Mutoo
        9
    Mutoo  
       Jan 27, 2014   ❤️ 4
    其实也不是没办法,可以把每个字的位置信息提取出来,然后做一个二维链表把它们重新排序。就像古代印刷术那样,最后得到文字内容。

    提取位置的方法有很多,这里我弄了个示例
    http://jsfiddle.net/mutoo/w5KJz/
    casparchen
        10
    casparchen  
       Jan 27, 2014 via iPad
    他怎么处理的,你就逆处理呗。比如他是按原文本行列号生成表格坐标,那只需将坐标转换成行列号再拼凑字符串即可
    icedx
        11
    icedx  
       Jan 27, 2014 via Android
    @FrankFang128 没有识别不出来的文字 只有识别不出文字的软件
    jinwyp
        12
    jinwyp  
       Jan 27, 2014
    我觉得,有了canvas, 以后内容可以直接用canvas输出, 很难复制
    yangff
        13
    yangff  
       Jan 27, 2014
    @jinwyp 前端绘制都可以做,大不了自己编译个chrome把freetype的接口暴露出来,直接服务端下发图片就行了,只能ORC。
    x86
        14
    x86  
       Jan 27, 2014
    贴个地址出来
    raincious
        15
    raincious  
       Jan 27, 2014
    @FrankFang128 False。就算建立自己的字图索引,网页截图那么高精度的采样,识别这个,没有任何问题。
    zxp
        16
    zxp  
    OP
       Jan 27, 2014
    关键是上面只是这个网站页面的一种情况,最纠结的就是表格还有嵌套,所以要写个机器人来自动抓内容面临的困难太大了,网站内容的自动生成的算法也很让人困扰,最后只能怀疑网站是全人工手动制作的,只能佩服站长为了防复制的巨大毅力了。。。
    Mutoo
        17
    Mutoo  
       Jan 27, 2014   ❤️ 1
    @zxp 建立字符位置信息可以无视嵌套。位置是相对于网页边界的。
    zxp
        18
    zxp  
    OP
       Jan 27, 2014
    @Mutoo 啊,很对,很好的思路!
    zxp
        19
    zxp  
    OP
       Jan 27, 2014
    内容生成的算法其实之前也想过一些,比较靠谱的是先生成表格的布局,对每个格子进行编号,然后对格子排序,把文字内容按顺序填写进去,相对抓取的难度应该要小一些。
    hsu
        20
    hsu  
       Jan 27, 2014
    @Mutoo 赞一个。
    xiaket
        21
    xiaket  
       Jan 27, 2014   ❤️ 1
    @zxp 这种防复制的算法也只需要写一次, 随机生成一种用多个block来填满一个页面的方法, 然后将文章排版后映射到每个格子中, 最后再渲染出来.

    如果做得更过分, 还可以在css/js里面再做一些效果. 改变前面说的映射表... 例如让某个block不显示/把某个block放到左边/用某个block覆盖其他block等等等等...
    shakoon
        22
    shakoon  
       Jan 27, 2014
    赞,这招原创文学网站可以借鉴
    FrankFang128
        23
    FrankFang128  
       Jan 27, 2014   ❤️ 1
    @shakoon 嗯,我也觉得,简单的随机切割,使得破解难度大大增加。看看上面说的几个解决方案,没有编程基础的人员搞不定的。所以可以防止一大片想要 copy 的人。
    davidyin
        24
    davidyin  
       Jan 27, 2014
    复制的时候不是连表格一起复制的么?
    粘帖的时候也连表格一起就好了。
    d0a1ccec
        25
    d0a1ccec  
       Jan 27, 2014
    来个url吧 ,楼主
    anheiyouxia
        26
    anheiyouxia  
       Jan 27, 2014
    我记得N年以前似乎也遇到过这样的网站
    9hills
        27
    9hills  
       Jan 27, 2014
    @FrankFang128 网页截图这么清晰,中文OCR识别率很高的。
    icyalala
        28
    icyalala  
       Jan 27, 2014   ❤️ 2
    只要人能认出来,就防止不了人肉复制啊。。
    你看起点中文之类的网站比这还要丧心病狂,换字体,渲染成图片,那些盗版小说站点照样能弄出来。。靠的就是“手打”。。

    在中国,人力成本非常低。。。
    xunyu
        29
    xunyu  
       Jan 27, 2014
    对啊,ocr啊,在去噪下就解决了
    zxp
        30
    zxp  
    OP
       Jan 27, 2014
    @d0a1ccec 哎呀,当年没能搞定那个网站,一直很纠结,时间长了就忘了。。。就是因为忘了那个网址,只有在sina上面随便截取了一个页面,做个说明。。。

    抱歉了各位,实在是想不起来那个网址了。
    yangzh
        31
    yangzh  
       Jan 27, 2014
    @FrankFang128 中文 ocr 是手写不能识别。这种“机器”的“端正”字体的话对于 ocr 程序还是没压力的。
    84840
        32
    84840  
       Jan 27, 2014
    先查源代码研究下这个网站是如何实现这种排版的,没有破解不了的网站。

    时间。。。,这时候我想起了《卡徒》
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3468 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 84ms · UTC 10:53 · PVG 18:53 · LAX 03:53 · JFK 06:53
    ♥ Do have faith in what you're doing.