采集背后的故事

2006年8月2日 | 分类: 学习笔记 | 标签:

这两天一直忙于新站点“ 杀虾 ”的制作,为了给网站及论坛增加内容,
动用了不少采集器,门面算是马马虎虎给撑起来了。嘿嘿…采集器功不可没啊
所用的采集器中,个人觉得 火车采集器(LocoySpider) 最为好用,有很强大的字符替换、过滤功能,还可以自己编写登陆模块,理论上是可以给所有的cms系统进行采集入库。其 官方论坛 上也有不少各类高人发布的登陆模块和采集规则,非常方便。
至于另一个 小蜜蜂采集器 ,据说也是功能强大,但是我kc的研究了半天,居然硬是没有成功采集过一次,只好放弃….. [03]
昨天天晚上费了半天劲配置规则,给论坛上采了一大堆的鬼故事。导入到论坛后居然死活都无法换行…研究了半天才知道是之前为了图方便,开通了HTML。于是关掉html权限,文章显示算是正常了。之后因为忙于给某JR配置他新买的服务器,也没时间再管这些。结果今天中午又有人告诉我说mm区的图片全都变成链接了,原来之前采集的图片居然都是用html方式发帖的,因为小说的原因关掉了html解析,所以就全变回源代码了。

经过分析,发现编辑后并选中“启用 Html 代码”就可以解决问题,但是1K多帖,全让我手工去修改,这事是打死我也不干啊….再采集?可惜我那辛苦配置的规则已经被删除了 [30] 显然也不是好办法….无计可施的时候让我想到了直接编辑数据这招,嘿嘿,说干就干,开动phpmyadmin,通过对比改动前后的差别,还真让我找到捷径了,一条命令搞定 [06]

UPDATE `cdb_posts` SET `htmlon`=1 WHERE `htmlon`=0 AND `bbcodeoff`=-1

顺便还过滤了下字符,让网站前台显示错位的问题也得到了解决
Mysql字符替换:

UPDATE `cdb_posts` SET `message`=REPLACE(`message`, ‘

‘, ‘ ‘)

该条命令的含义是把cdb_posts表中message字段中的</div>标签替换为半角空格

最后发表下额外的感慨:世界上最远的距离,不是从中国到美国,而是从电信到网通…