hadoop mapreduce输入格式，用于非常长的单行输入文件

2izufjch 于 2021-07-15 发布在 Hadoop

关注(0)|答案(0)|浏览(266)

我有一些非常大的.sql文件。它们的大小约为100gb或更大。我只需要分析它的数据。这些数据是单行的（insert-into），并且有大量的记录。数据示例如下：

-- MySQL dump 10.14  Distrib 5.5.64-MariaDB, for Linux (x86_64)
--
-- ------------------------------------------------------
-- Server version       5.6.10

/*!40101 SET @OLD_CHARACTER_SET_CLIENT=@@CHARACTER_SET_CLIENT */;
CREATE TABLE `users` (
  `id` bigint(20) unsigned NOT NULL,
...
...
INSERT INTO `users` VALUES (23770,'han','rrish','Ean','soup7@lahoo.com','bounced',2,'400f0d811b851298bde4ac33d2f','male','wmen',3,'1990-06-21',1422,39017700,-94310640,'64015','US',1,'48df9339926.51312096',NULL,'2008-02-26 03:56:41','201-11-01 21:29:57','2019-09-24 00:29:07',NULL,'2019-09-24 00:29:07',0,178,7,2,4,14,3,1,0,1,6,NULL,9223036786810880,0,8,5129,1,3,1,NULL,NULL ...

现在我必须使用mapreduce拆分每个数据记录并处理进一步的统计数据。在apachehadoop（3）自定义作业中应该使用哪种输入格式？我有一个小规模的集群，在这里我必须处理这种类型的数据。
有没有更好的解决办法？我愿意使用hadoop流媒体与python或hadoopjava开发。

hadoop mapreduce yarn bigdata hadoop-partitioning

来源：https://stackoverflow.com/questions/66153681/hadoop-mapreduce-input-format-for-very-long-length-single-line-input-file