Discuz教程网

Discuz X2采集-DXC采集插件发布

  [复制链接]
authicon dly 发表于 2011-11-8 17:21:33 | 显示全部楼层 |阅读模式
插件作者: Milu 无法下载,请举报
插件编码: GBK简体 UTF8简体 
适用版本: Discuz! X2.0 
支持站点: http://www.56php.com
作品介绍: 批量注册,虚拟会员在线,批量更换头像,采集文章,采集文章发布。

dxc采集插件功能十分强大,主要有如下特点:


  • 强大的自动提取功能。本功能是dxc采集器的亮点之一。运用特殊的算法,采集器会自动提取任何页面中文章的标题和内容,目前准确率高达95%左右。彻底告别繁琐的正则采集,让不懂写规则的菜鸟轻松入门。
  • 灵活的采集地址配置。你可以指定采集整个网站的文章,也可以采集某个文章列表的文章,你也可以从指定的url范围采集。。甚至连规则都不用写,就可以采集出一个网站的文章。你也可以按照关键词让采集器自动去寻找相关文章。
  • 多种识别方式。你可以用dom方式识别列表页,或者文章内容。你只需告诉程序,文章内容所在的dom是div还是p,class是什么,或者id是什么,提供这些信息即可。或者如果你是高手,你也可以直接输入正则匹配。或者采用智能提取模式,什么都不用写,让程序自动提取。
  • 齐全的发布功能。可以向门户,博客,论坛发文章。图片自动本地化,自动加上水印。可以指定随机用户发布。有了这些功能,你的网站内容瞬间变得充实。


还有许多功能你要亲自使用才能体会,你会发现,采集是一件如此简单的事情!

附加的功能还非常的多,比如批量注册,虚拟会员在线,批量更换头像。。



运行环境:
1.php5.2以上
2.请装最新版本的zend optimizer,否则无法运行本插件。(一般zend optimizer 3.3.X)

3.请用非IE浏览器运行此插件!

插件部分截图

231422mjzjnq2fiv3lg3m5.jpg.thumb.jpg
DXC采集插件
2314206efk5ke1nknde15e.jpg.thumb.jpg
DXC采集插件
231419t4td690dn9209tkn.jpg.thumb.jpg
DXC采集插件
231416k3pmmrzpnk96zmcb.jpg.thumb.jpg   
DXC采集插件

安装方法:

请下载后得到milu_pick文件夹,放到插件目录中安装即可。

一些采集的例子,解压之后请将txt文件导入。
采集265g新游戏动态.zip (1.35 KB, 下载次数: 65)



上一篇:大家有没有捕鱼达人的游戏插件?
下一篇:怎么调用discuz程序里的头部和底部文件呀?
authicon  楼主| dly 发表于 2011-11-8 17:23:00 | 显示全部楼层
dxc采集教程之如何根据关键词采集腾讯搜搜的文章?



  • 选择采集器类型。选择‘精准的’,这一步不解释了。
  • 采集范围设置:选择“从分页列表采集文章”。
  • 分页网址。假如我们在腾讯搜搜的博客搜索中搜搜“php”这个关键词,、
    那么网址是
    http://blog.soso.com/qz.q?pid=s.idx&op=blog.blog&ty=blog&w=php
    翻到第二页,网址是http://blog.soso.com/qz.q?w=php%C7%B0%D1%D8&sc=qz&ty=blog&sd=0&st=r&cid=&op=blog.blog&pid=qz.s.res&pg=2
    然后翻到第三页,网址是http://blog.soso.com/qz.q?w=php%C7%B0%D1%D8&sc=qz&ty=blog&sd=0&st=r&cid=&op=blog.blog&pid=qz.s.res&pg=3
    看出规律了吗?别看url太长就头晕了,其实前面的部分是不变的,后面的数字有变化而已。如果我们要采集从第1页到第30页(30页之后,大多数文章和关键词相关不大了)
    网址就是这样http://blog.soso.com/qz.q?w=php%C7%B0%D1%D8&sc=qz&ty=blog&sd=0&st=r&cid=&op=blog.blog&pid=qz.s.res&pg=[1,30]
  • 列表区域识别方式.这里选择"dom获取",dom获取就足矣。正则匹配不好搞,这部分的功能暂时未做得强大。
  • 列表区域识别。这是个重头戏,你得告诉程序,列表中哪些是文章的链接地址?这里要借助firefox浏览器的firebug插件或者谷歌浏览器对网页的源代码进行查看,然后进行分析,如下图:
    161506c6y1oefdffq0fpo6.jpg


    看出结构了吗?无非就是一个li下面有个h3,h3下面只有一个a标签,那么就可以这样填:li h3。程序就知道获取一个li h3 下面的a标签的链接了,倘若下面不仅仅有一个a标签,有多个a标签,那么这时候你就要告诉程序更多的信息。比如a[title=*]这样就是告诉程序去获取有title属性的a标签的链接。
  • 文章信息获取方式。因为我们搜索到的文章来自多个网站,我们没办法根据某个特定的规则去采集,所以这里选择只能选择"智能识别",让程序自动去提取。到了这里,基本上就可以采集了,其他的一些选项不用解释大家应该都可以明白的了。

附上本例子的配置,用采集器导入就行了。
-php.txt (1.48 KB, 下载次数: 62)
authicon 胶州城网 发表于 2011-11-8 18:26:27 | 显示全部楼层
单贴采集???????
authicon 迷茫の执着 发表于 2011-11-8 18:43:59 | 显示全部楼层
胶州城网 发表于 2011-11-8 18:26
单贴采集???????

这个不是单贴采集哈!

这个我也研究过,写了几个采集规则,有需要的友友可以用下哦!

网络游戏新闻网-游戏新闻.rar (1.4 KB, 下载次数: 44)

评分

参与人数 1学习币 +6 收起 理由
avatar dly + 6 赞一个!

查看全部评分

authicon 小邪 发表于 2011-11-8 19:31:28 | 显示全部楼层
看看.......
authicon 小邪 发表于 2011-11-8 19:31:47 | 显示全部楼层
看看.......
authicon 小邪 发表于 2011-11-8 19:32:03 | 显示全部楼层
看看.......呀
authicon 胶州城网 发表于 2011-11-8 21:45:11 | 显示全部楼层
迷茫の执着 发表于 2011-11-8 18:43
这个不是单贴采集哈!

这个我也研究过,写了几个采集规则,有需要的友友可以用下哦!

不错哦,下下来备用

authicon 小邪 发表于 2011-11-9 09:18:18 | 显示全部楼层
围观中。。。
authicon BOHOHOBO 发表于 2011-11-9 10:50:32 | 显示全部楼层
不错  很强大
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

1314学习网 ( 浙ICP备10214163号 )

GMT+8, 2025-5-2 01:46

Powered by Discuz! X3.4

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表