Discuz教程网

今日头条资讯采集 测试版(2019.04.30更新)

[复制链接]
authicon Discuz应用中心 发表于 2019-5-1 04:25:09 | 显示全部楼层 |阅读模式
主要功能描述:采集今日头条文章、图片、头条号文章,自动发布到论坛、门户、群组

使用说明文档链接: https://pan.baidu.com/s/1HbaqNWoQr2Bq8XRR3mnDhg 提取码: jbqy

测试版只是提供给大家了解此插件,有有效期不能长期使用

只需 添加马甲、网站导航导入规则、网站导航设置发布板块 三步就可以自动采集数据
可以支持关键词搜索分类采集,只需要在网站导航里添加自己想要采集的分类
需要采集任何网站数据可联系管理员自定义开发采集插件

采集设置的步骤:
1、后台插件 采集管理 网站导航 点击导入规则,会导入默认已添加的采集导航
2、采集导航列表 设置采集 设置采集到论坛或门户(想自动采集需要开启 自动采集 选项)
3、以上设置后就可以采集信息了,可以点击 最新采集 或 分页采集 手动采集信息,开启了自动采集,会有计划任务自动执行采集脚本

后台 设置
        是否自动采集发帖:
                若开启会自动采集网站导航最新内容并且自动发布到网站导航指定的板块或门户

        每次自动发帖数量:
                若 是否自动发帖 已开启此设置生效,可以控制每次自动发帖的发帖数量,若开启图片本地化建议不要设置太大

        发帖是否进审核:
                是:采集资源发帖并进入审核状态,后台内容审核通过前台才会展示;否:若采集信息命中后台关键词,发帖进审核,否则前台直接显示

        发帖时间:
                不填发帖时间为当前自动发帖时间;填写格式为以秒为单位的整数时间用-分割;例如0-3600,发帖时间为当前采集时间减去0-3600时间段随机的时间
       
        帖子浏览量:
                不填浏览量默认为0;填写格式整数-分割;例如0-100,随机0-100范围的整数设置为浏览量

        是否采集内容评论:
                开启会采集第一页评论,以马甲身份发回复或门户评论

        图片是否居中展示:
                若开启帖子或门户图片单行居中展示
       
        图片是否本地存储:
                是:采集资源图片保存到本地,占用本地磁盘,选择此项请注意服务器硬盘空间是否充足;否:图片远程访问,此时非本站图片为盗链模式,第三方网站若加了防盗链图片将无法显示,此时建议开启图片盗链访问

        是否开启图片盗链:
                若开启第三方图片资源将缓存到本地,定期清除节省服务器空间

        伪原创替换比例:
                控制替换关键词的比例,0%为关闭伪原创功能

        帖子展示样式:
                自定义帖子主楼css展示样式,必须包含<style></style>,可清空帖子展示将不受影响

        门户展示样式:
                自定义门户css展示样式,必须包含<style></style>,可清空文章展示将不受影响

        采集来源:
                不填此项不会展示发帖的采集来源;填写格式自定义来源信息用{url}替换;例如:来源{url}

        声明:
                由于采集信息均来自互联网,可填写网站采集声明,自定义显示在帖子内容末尾,不填不展示

后台 采集管理 顶部每个按钮说明

        已发:
                采集到本地已发布的数据列表,可搜索和查看

        未发:
                采集到本地未发布的数据列表,可搜索、编辑、删除、发布、审核

        网站导航:
                添加:可以添加想要采集的zaker网站导航分类到本地的导航列表,采集任务会根据添加的导航采集相关数据,每个导航添加时必须要指定板块、门户、群组,会把导航数据采集到指定板块、门户、群组
                删除:删除添加的导航
                导入规则:首次安装必须导入规则,默认会导入常用的网站导航
                采集日志:会记录最近采集的日志
                设置采集:可以编辑已添加的导航
                最新采集:采集此导航最新数据,即第一页数据
                分页采集:采集此导航分页数据,即多页数据

        马甲:
                设置采集数据发帖时的作者,输入uid批量添加;可以根据板块指定对应的马甲用户进行发帖

        伪原创:
                可以添加或导入原始词库
                后台可以控制内容替换的百分比,从而控制替换内容的完整性
                可以备份自己的词库

须知:
        X3以上版本会自动添加计划任务,可在 工具 计划任务 查看计划任务是否正常开启
        x2.5版本计划任务只能添加系统计划任务
        计划任务设置每5分钟执行一次
       
        计划任务脚本地址:host/plugin.php?id=ror_grab_toutiao
        host为自己论坛的域名

        linux 系统计划任务命令
        crontab -e //进入编辑列表
        i //插入数据,光标移到最后一行添加
         */5  *  *  *  * curl host/plugin.php?id=ror_grab_toutiao

采集分类设置cookie,具体cookie设置看参照文档

图片盗链优化

优化编码
优化采集标题截取长度

头条规则修改更新
注意此版本更新一定要重新导入规则才可以正常使用

增加发布标题长度

支持未发编辑采集设置
优化采集分类添加
优化内容编码
使用 系统字符串截取兼容环境

修复采集分类不能设置

头条接口变动已做关键字采集处理

取消默认css样式的图片居中和图片显示间隔
默认安装配置关闭自动采集标签

添加是否采集内容标签开关

修复文章批量采集到群组失败

添加文章采集功能
支持文章和图片采集
可以输入多篇文章url地址或者多篇图片页面url地址,批量采集
此版文章批量采集功能修改了采集规则,重新导入规则后此功能才可用

优化采集计划任务队列



运行环境:discuzX2.5 discuzX3 discuzX3.1 discuzX3.2 discuzX3.3 discuzX3.4 discuzF1.0 discuzL1.0
适用编码:简体中文 简体中文UTF8



应用推荐:https://www.discuz.1314study.com/services.php?mod=product

应用下载地址
游客,如果您要查看本帖隐藏内容请回复





上一篇:【国度】手机登录 1.4 价值99元(2019.04.30更新)
下一篇:今日头条资讯采集 2.2.0 价值100元(2019.04.30更新)
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

1314学习网 ( 浙ICP备10214163号 )

GMT+8, 2024-5-2 21:39

Powered by Discuz! X3.4

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表