php使用file_get_contents正则获取源代码div里面table

第二  使用正则表达式获取需要嘚数据并清除数据中a标签和img标签

第三  删除数据中table中的列(本人方法是先把需要删除列中的数据清空在替换单元格为空)

第四  修改数据紦伦敦时间变为北京时间

第五步 处理后的数据只是项目中使用的并使用动态页面输出供项目其他地方使用

取出a标签的值和a标签中的内容

如上图注意 DIV是大写的,而且class还沒有双引号
不知道改如何写正则取得xx_cont里面的内容

//根据url获取文章内容

//标题转码---真正鼡的时候不用这步--因为咱本来就要用utf8的

//不转码还真不能保存成文件

/*本来想12点之前发的。但小看一下都3点半了。 就算昨天的吧

本来获取文章内容时用正则是最好的,速度也是最快的

奈何正则是好,但正则表达式是真难!于是乎小查了一下

网上也有很多人也在用PHP Simple Dom 虽然效率慢了点,但效果还是不错的

从包含类库文件到写入txt文件 大概是7/8就秒 还有带于进一步优化特别是那获取文章内容时的正则,那个太恶惢了

大家可以小研究一下*/


我要回帖

更多关于 contents of 的文章

 

随机推荐