当你使用搜索引擎开始搜索互联网信息时,你已经享受网络爬虫带来的技术福利,如果把互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛,如果它遇到你想要的资源,那么它是按照一定的规则,自动从网站的相关网页中自动搜索与提取互联网上公开且可以访问到的网页信息数据的一种程序。互联网中的海量数据孕育巨大价值,通过对这些数据进行专业化处理,分析提取“加工”后实现数据的“增值”,能更好地辅助决策。
现阶段,在我国的科学技术和经济发展中,对海量数据采集需求迫切,提取与存储这些数据是进一步实现数据分析的关键与前提。网络爬虫已经成为自动获取互联网数据的主要方式,目前,网络爬虫技术应用很广泛,可以使用搜索引擎搜索网站公开信息进行分析,汇总新闻摘要、跟踪特定市场的趋势,或者收集每日股票价格以建立预测模型等。但是,如果网络爬虫技术使用不当,会造成侵犯公民个人信息、侵犯著作权、甚至造成非法侵入或获取计算机信息系统等一系列的法律纠纷。