大数据应用导论 Chapter1 ｜大数据技术与应用概述

日期：2024-11-07 作者：caijiyuan 移动：http://gzhdwind.xhstdz.com/quote/3355.html

下面是一些机构的定义： 维基百科： 传统数据处理应用软件不足以处理的大型而复杂的数据集；包含的数据大小超过了传统软件在可接受时间内处理的能力。 互联网数据中心(IDC)： 为了能够更经济地从高频率、大容量、不同结构和类型的数据中获取价值而设计的新一代架构和技术。

1、数据量巨大(海量) 2、数据类型众多 数据类型多样，包括各种形式的数据。按分类可分为： ①、结构化数据： Excel文件、csv文件等。 结构化数据为表格形式的数据：每列数据类型相同，切不可再细分。 ②、半结构化数据： 邮件、网页、JSON文件、日志文件等。 这些数据的结构和内容混在一起，没有明显的区分。 ③、非结构化数据： 图片、视频等 3、处理速度快 ①、数据产生非常快，要求处理的速度快； ②、强调实时分析，输入后立即处理； ③、处理速度越快，越有利于创造价值 4、数据来源真实 数据的准确性和可信赖度高 5、潜在价值大 ①、有价值的信息分散于海量数据中 ②、庞大的数据量隐藏了巨大财富 ③、通过数据分析与数据挖掘可豁达价值

1、物联网（Internet of things）

2、云计算(Cloud computing)

3、云平台（Cloud Platform）

4、云计算的关键技术

①、虚拟化： 将一台计算机虚拟为多台逻辑计算机，每个逻辑计算机可运行不同的操作系统，且应用程序互相独立，显著提高计算机工作效率。 ②、分布式存储： 将大数据文件切分为许多快、分散存储再多台机器组成的集群中。 ==Tips：==集群是指将几台服务器集中起来进行一项服务。 ③、分布式计算： 把一个大数据集切分成多个小数据集，分布到不同的机器上并行处理，极大提高数据处理速度。

5、大数据、云计算和物联网的关系：

6、大数据发展大事件

大数据应用的流程：

数据采集我们一般通过Python网络爬虫进行实现；关于数据存储和数据清洗的问题，可以采用原始的先存储后清洗，也可以先进行数据清洗，然后进行数据存储。

1、数据采集

数据采集：又称数据获取，从传感器和互联网等渠道自动采集信息的过程。下面为一些常见的数据采集工具：

1、普通

1、python网络爬虫： Urllib：HTTP请求库，用于请求、下载网页 Requests：基于Urllib，但更加快捷方便 Scrapy：爬虫框架，用于从网页中提取数据 2、Webmagic(Java)：垂直爬虫框架，简单爬虫开发流程，专注于逻辑功能的开发。 3、BotnetSpider(C#)：国人开源的跨平台、高性能、轻量级爬虫软件，.NET最为优秀的开源爬虫之一

2、分布式采集工具

1、Chukwa(hadoop)：用于监控大型分布式系统的数据收集系统，构建在HDFS和Mapreduce之上。 2、Kafka：由Apache开源，高吞吐量的分布式发布订阅消息系统。 3、Flume(Cloudera)：分布式的海量日志采集、集合和传输系统。

2、数据存储

数据存储：数据以某种格式记录在计算机内部或外部存储介质上。数据存储不一定是以文件的形式存储，它可以是以数据库的形式进行存储，由数据库决定，怎样写入到文件中或者怎样保存在内存中。下列为常见的数据库系统：

1、关系型数据库(SQL)

1、MySQL(小型数据库)：最流行的关系型数据库管理系统之一，将数据保存于不同表中。 2、Oracle(大型数据库)：甲骨文公司数据库管理系统，高效率、可靠性高、适应高吞吐量。 3、SQL Server：Microsoft公司的数据库管理系统，使用方便、可伸缩性好、与相关软件集成程度高。

2、非关系型数据库(NOSQL）

1、Hbase：高可靠性、高性能、可伸缩的分布式存储系统，可在PC Server上搭建大规模结构化存储集群。 2、MongoDB：介于关系型数据库和非关系型数据库之间的产品，功能丰富；基于分布式文件存储数据库，由C++编写。 3、Redis：一个日志型、高性能Key-Value数据库，数据可以从主服务器向任意数量的从服务器同步。

1、数据清洗

数据清洗：为了便于后续的处理和分析，对数据进行的质量诊断、数据整合、数据转换、缺失值处理和异常值处理等操作。

1、数据清洗的方法

1、缺失值处理：对存在缺失的数据进行插补 2、异常值处理：对数据集中存在的不合理值进行处理 3、数据转换：将数据从一种表现形式转换成另一种表现形式

2、数据清洗的工具

1、Mapreduce(Hadoop)：基于集群的高性能并行计算框架；并行计算与运行软件框架；并行程序设计模型与方法。 2、Pandas(Python)：解决数据分析任务的Python库，提供了诸多数据清洗的函数和方法。 3、OpenRefine：数据清洗工具，能够对数据进行可视化操作，类似Excel，但其工作方式更像数据库。

2、数据分析

利用机器学习等技术从数据中构建模型，从而挖掘出有价值的信息。

1、数据分析的方法：机器学习

2、数据分析的工具

1、Scikit-learn(Python)：机器学习库，包含众多机器学习算法，使用方便。 2、Tensorflow：Google开源的深度学习技术，追随者众多，目前最火热的深度学习框架。 3、torch：Facebook力推的深度学习框架，具有较好的灵活性和速度，拥有Python版本Pytorch。 4、Spark：Apache开源的为大规模数据处理而设计的快速通过的计算引擎，拥有机器学习库Mllib。

3、数据可视化

数据可视化是将数据分析的过程与结果用图表等形式进行展示。

数据可视化工具： 1、Matplotlib(Python)：一个2D绘图库，可以绘制许多高质量的图形 2、Seaborn(Python)：Matplotlib基础上的高级绘图库，运用简单的操作就能够画出较为复杂的图形 3、Tableau：一个强大的数据可视化工具，可实时进行可视化数据分析和数据探索 4、Echarts：由百度前端技术部开发的，基于Javascript的数据可视化图表库，提供直观、生动、可交互、可个性化定制的数据可视化图表

大数据行业的应用比较广泛主要应用到互联网、金融、健康医疗、交通、教育、环境保护等方面。

本文地址：http://yy520w.xhstdz.com/quote/3355.html 物流网资讯 http://yy520w.xhstdz.com/static/ , 查看更多

特别提示：本信息由相关企业自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

点赞 0举报收藏 0评论 0

0 条相关评论

caijiyuan
加关注1
~~没有留下签名~~~~

相关最新动态

大数据应用导论 Chapter1 ｜大数据技术与应用概述

推荐最新动态

点击排行

大数据应用导论 Chapter1 ｜ 大数据技术与应用概述

1、物联网（Internet of things）

2、云计算(Cloud computing)

3、云平台（Cloud Platform）

4、云计算的关键技术

5、大数据、云计算和物联网的关系：

6、大数据发展大事件

1、数据采集

1、普通

2、分布式采集工具

2、数据存储

1、关系型数据库(SQL)

2、非关系型数据库(NOSQL）

1、数据清洗

1、数据清洗的方法

2、数据清洗的工具

2、数据分析

1、数据分析的方法：机器学习

2、数据分析的工具

3、数据可视化

大数据应用导论 Chapter1 ｜大数据技术与应用概述