eda在大数据中的应用

laik7k3q 于 2021-06-03 发布在 Hadoop

关注(0)|答案(3)|浏览(377)

在大数据上所有的数据准备操作都能做些什么？e、 g:合并、上卷、转置、追加—所有这些都可以在hadoop上完成吗？
所有的数据处理都能做些什么？我们能对大数据进行单变量和双变量分析吗？要花多少时间？数据处理，如缺失值处理，异常值处理。在异常值处理中，最重要的方法是什么？iqr、百分位数等。？
我们能在大数据上做方框图，运行序列图等吗？
我们能画一个直方图吗？
我们能在大数据上绘制自相关图、单位根图、白噪声图等吗？

hadoop Dataset bigdata outliers Histogram

来源：https://stackoverflow.com/questions/24256376/eda-in-big-data

3条答案

按热度按时间

w80xi6nr1#

你可以根据你想要使用的平台来做所有这些事情。大数据是一个非常大的术语，有很多框架可以提供大数据的计算和可视化。所以你的问题的答案将取决于你想要使用的平台。

赞(0）回复(0）举报 2021-06-04

8ljdwjyq2#

大数据平台（hadoop）和传统数据库的根本区别在于，大数据平台在读取时应用模式，而我们在传统数据库中预先定义模式。因此，在传统的数据库中，我们只能插入那些符合已知模式的数据。hadoop的核心是一个名为hdfs的文件系统，它使用map-reduce算法在文件系统上进行分布式计算。通常我们不会问，我们需要什么样的准备才能将文件复制到您的计算机上。你先复制它-按原样-因为我们要复制到一个文件系统，如ntfs、fat、hfsx、zfs等。同样地，hdfs也是一个文件系统。像hive这样的工具为您提供了一个到hadoop的sql接口。但是，在后台，hive获取原始文件并在读取时应用模式。由于处理是快速的和分布式的，所以这不是一个问题。这就是为什么-我们通常不使用hadoop进行实时事务处理系统。
虽然除了delete之外，您可以执行您要求的大多数转换，但是通常您不应该在基于hadoop的系统中执行很多转换。您可以提供原始数据并使用hive之类的工具或编写自己的map reduce代码来访问它。它们在访问时运行。因此，预处理的级别应该相对较小。
你可以在hadoop上使用一些可视化工具来绘制你想要的图。
有关更多分析算法，请参阅apachemahout。http://mahout.apache.org/users/basics/algorithms.html

赞(0）回复(0）举报 2021-06-04

qq24tv8q3#

对于数据准备，您可以使用hive。我建议你用斯巴克。有很多函数和库可以帮助你进行单变量（缺失值和异常值处理）和双变量分析。您可以绘制图表，并执行回归分析。r是为统计计算而构建的，使用spark可以在bigdata上实现同样的功能。关于速度，它很快：）你可以在这里阅读斯巴克https://rpubs.com/wendyu/sparkr

赞(0）回复(0）举报 2021-06-04

我来回答

eda在大数据中的应用

3条答案

相关问题

热门标签

最新问答