eda在大数据中的应用

laik7k3q  于 2021-06-03  发布在  Hadoop
关注(0)|答案(3)|浏览(377)

在大数据上所有的数据准备操作都能做些什么?e、 g:合并、上卷、转置、追加—所有这些都可以在hadoop上完成吗?
所有的数据处理都能做些什么?我们能对大数据进行单变量和双变量分析吗?要花多少时间?数据处理,如缺失值处理,异常值处理。在异常值处理中,最重要的方法是什么?iqr、百分位数等。?
我们能在大数据上做方框图,运行序列图等吗?
我们能画一个直方图吗?
我们能在大数据上绘制自相关图、单位根图、白噪声图等吗?

w80xi6nr

w80xi6nr1#

你可以根据你想要使用的平台来做所有这些事情。大数据是一个非常大的术语,有很多框架可以提供大数据的计算和可视化。所以你的问题的答案将取决于你想要使用的平台。

8ljdwjyq

8ljdwjyq2#

大数据平台(hadoop)和传统数据库的根本区别在于,大数据平台在读取时应用模式,而我们在传统数据库中预先定义模式。因此,在传统的数据库中,我们只能插入那些符合已知模式的数据。hadoop的核心是一个名为hdfs的文件系统,它使用map-reduce算法在文件系统上进行分布式计算。通常我们不会问,我们需要什么样的准备才能将文件复制到您的计算机上。你先复制它-按原样-因为我们要复制到一个文件系统,如ntfs、fat、hfsx、zfs等。同样地,hdfs也是一个文件系统。像hive这样的工具为您提供了一个到hadoop的sql接口。但是,在后台,hive获取原始文件并在读取时应用模式。由于处理是快速的和分布式的,所以这不是一个问题。这就是为什么-我们通常不使用hadoop进行实时事务处理系统。
虽然除了delete之外,您可以执行您要求的大多数转换,但是通常您不应该在基于hadoop的系统中执行很多转换。您可以提供原始数据并使用hive之类的工具或编写自己的map reduce代码来访问它。它们在访问时运行。因此,预处理的级别应该相对较小。
你可以在hadoop上使用一些可视化工具来绘制你想要的图。
有关更多分析算法,请参阅apachemahout。http://mahout.apache.org/users/basics/algorithms.html

qq24tv8q

qq24tv8q3#

对于数据准备,您可以使用hive。我建议你用斯巴克。有很多函数和库可以帮助你进行单变量(缺失值和异常值处理)和双变量分析。您可以绘制图表,并执行回归分析。r是为统计计算而构建的,使用spark可以在bigdata上实现同样的功能。关于速度,它很快:)你可以在这里阅读斯巴克https://rpubs.com/wendyu/sparkr

相关问题