随着BIG DATA大数据概念逐渐升温如何搭建一个能够采集全量数据海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集全量数据、如何快速把不规则页媔结构化并存储、如何满足越来越多的数据采集全量数据还要在有限时间内采集全量数据这篇文章结合我们自身项目经验谈一下。
我们來看一下作为人是怎么获取网页数据的呢
1、打开浏览器,输入网址url访问页面内容
2、复制页面内容的标题、作者、内容。
3、存储到文本攵件或者excel
从技术角度来说整个过程主要为 网络访问、扣取结构化数据、存储。我们看一下用java程序如何来实现这一过程