ONEXIN大数据文章采集器图文教程【最新】

大数据采集已发布的插件客户端有:Discuz!X,WordPress,帝国CMS,织梦CMS,PHPCMS,Destoon,PhpWind等。

ONEXIN!新手交流QQ群:189610242  767818635

使用三步曲:1、安装插件 ->  2、添加资源 -> 3、查看结果。

插件初次安装使用过程中,教程中未提及的设置请保持默认。
随时欢迎您成为我们的VIP用户。

 

点我看视频教程

首先,安装插件:

1、安装大数据插件,安装后启用插件,添加资源时需要填写导入模块(常见问题Q1):

2、申请授权,登录大数据平台 http://we.onexin.com/?mod=bigdata

点击“大数据”进入,点左侧“授权查询”,登记你的网站网址并提交,(如果你的网站使用了安全狗会导致授权及采集失败。)

提交成功后,将获取到的OID和Token填到你的网站插件设置中。(常见问题Q3、Q4)

小结:完成以上的步骤,插件已安装配置好了。

然后,添加资源:

文章来源何处?文章要采到你网站哪个分类?
进入大数据平台 http://we.onexin.com/?mod=bigdata&do=access,添加资源:

方式一、新建资源必填项:来源的列表页网址或关键字,导入分类,导入模块,
方式二、复制共享中资源。
点测试,看获取的内容页网址是否正确,越准确越好,这里关系到你的每日上限使用条数,

如有错误或需要过滤,请点击资源右上角“在线反馈”。

小结:完成以上所有步骤,打开你网站的插件统计页面多次刷新,会看到有新文章网址,及发送状态。

最后,查看结果:

你网站的大数据插件统计打开,或者在你网站上对应的分类中看

未发,表示该文章未发布。
已发,表示已经发布到你网站上了。
小结:
刷新统计页面,或用户访问你的网站时,会自动触发更新文章。

到此,OK了。

————————

常见问题

Q1:平台上导入模块需要怎么填?
A:发布模块在插件soeasy文件夹下,如文件publish.forum.php对应模块名forum。
导入论坛模块:forum,导入门户模块:portal (其它程序也填这个)
注:高级发布模块名由普通模块名后面加img组成(如:forumimg,portalimg)。

Q2:平台上添加资源中的规则如何写呢?
A: 默认有两种简单易学易用的写法,需灵活运用,获取到正确的网址即可
第一种:文章网址a标签前面的字符串作为标识,如新浪,腾讯等门户常用“<h3”。(操作方法:用谷歌浏览器,在标题上点右键,再选审查元素,他会自动锁定标题的a标签,我们找到a标签之前的字符串部分照写即可。)
第二种:文章网址中包含的字符串作为标识,如淘宝网址中包含“/item.htm”。

Q3:平台上”列表获取间隔时间”,以及资源运行状态代表的是什么?
A:“列表获取间隔时间”默认每30分钟获取一次列表,如设置时间大于30分钟则只获取指定导入篇数对应最上面显示的文章,否则,获取当前列表中所有文章。

1)、授权查询里面:切换到”等待中”,表示整个推送停止。

2)、资源里面:新资源的状态为”等待中”,请点击为”运行中”,表示让这个资源运行。

切换到”等待中”,表示不再获取该资源列表。

Q4:文章的尾部来源修改,以及贴子出现“匿名”怎么修改?
A:插件设置内:
1)、可清空“文章来源格式”,否则尾部出现来源。
2)、马甲必须使用已注册的用户名,否则出现“匿名”用户。

Q5:插件设置内“每多少PV触发一次”填多少?
A:PV即网页访问量(Page View),当用户访问您网站时由js脚本触发云端服务器。设置的数字越大对双方的服务器负载越小。建议填你网站的PV数除以一千得到的数值,比如每天3万PV,建议填30或以上。
理论上,你的用户PV越多,添加的资源越丰富,网站更新频率越高。

Q6:插件管理中的文章网址可以修改吗?
A:用于采集文章防重复,不建议删除。你可以修改状态为未发,已发或不发。

Q7:插件管理中的为什么文章状态显示“不发”呢?
A:超时,未获取标题或内容的状态标记为“不发”。通信响应时间不超过3秒。
如出现“草稿”状态,请检查使用的发布模块名是否正确,并且确认已安装该模块。

Q8:内容页获取不到内容或需要修改,怎么办?
A:反馈时,请将来源站的文章网址发到邮箱onexin#qq.com等待处理

大数据量采集插件和其它文章采集器的区别:
一、大数据量采集的采集列表和内容页均在云服务器端处理,更加节省服务器资源。
二、插件中用户可方便管理需要发布的文章链接,自由选择发或不发。
三、插件接口代码开源,可自定义输出结果,功能可扩展。
四、基于云端和WEB插件,不需要zend,不受系统环境影响
五、不需要安装软件在电脑上,网站能访问即可自动更新文章。
六、不需要写内容页规则,由云采集自动识别,成千上万的资源可用。

OBD大数据为您分析互联网海量资料,在合理时间内达到撷取、管理、处理、并整理成为帮助网站发布更积有用的资讯。
支持国内外主流CMS,目前已开发Discuz!X、WORDPRESS、PHPCMS、帝国CMS、织梦DEDECMS、DESTOON等采集插件端。

—————–我是分隔线—————-

使用中如有任何疑问或问题,欢迎您随时与我们取得联系。

我们的工作时间:周一到周五,早上9点到下午5点。

ONEXIN!新手交流QQ群:189610242