在未排序列上使用awk(或任何其他unix命令)连接两个以上的文件

x33g5p2x 于 2021-06-24 发布在 Hive

关注(0)|答案(1)|浏览(254)

我有4个文件（比如a，b，c，d）和一列（mac地址）


**file A**

ej  
j8  
00  
5h  
fl  

**file B**

ej  
6o  
00  
jq  
j6  

**file C**

ej  
85  
54  
5e  
f9  

**file D**

ej  
j8  
70  
5e  
70

其中文件a是我的主文件。
来自a的mac地址不应出现在任何其他文件b、c和d中：
如果有，就把它取下来。
或者我们可以创建一个新的列，其中的“y”/“n”标志值表示是否存在。

请注意，此列无法排序。

预期产量：

5h
fl

如果您可以包含一个方法来指定文件的列号（如果存在多个列），那就太好了。

Hive Join unix awk

来源：https://stackoverflow.com/questions/57711459/join-more-than-two-files-with-awk-or-any-other-unix-command-on-unsorted-column

1条答案

按热度按时间

k75qkfdt1#

我的建议是这样的：

awk '(NR==FNR){a[$1]=$0;next}
     ($1 in a){delete a[$1]}
     END{for(i in a) print a[i]}' file_a file_b file_c ...

这里我们假设所有文件中的密钥都是 $1 （即mac地址）。代码的工作方式如下： (NR==FNR){a[$1]=$0;next} ：读取第一个文件（文件a）时，将其记录/行存储在由字段1中的mac地址索引的数组中。使用 next 跳过任何进一步的处理并移到下一个记录/行。 ($1 in a){delete a[$1]} ：对于任何其他文件，请检查密钥（mac地址）是否是数组a的一部分。如果是，这意味着我们可以从数组中删除它，因为我们对它不感兴趣。 END{for(i in a) print a[i]} ：最后，处理完所有文件后，检查阵列中仍有哪些mac地址可用。这意味着这些数组位于文件a中，但不在任何其他文件中。打印出来(请注意，它们不会按文件a的顺序打印）
如果 $1 并不总是关键，但每行的某个地方都有一个mac地址，我们可以使用正则表达式来获取它：

awk 'BEGIN{ere_mac = "[0-9A-Fa-f][0-9A-Fa-f][-:]"
           ere_mac = ere_mac ere_mac ere_mac ere_mac ere_mac;
           ere_mac = ere_mac "[0-9A-Fa-f][0-9A-Fa-f]"}
     { match($0,ere_mac); key=substr($0,RSTART,RLENGTH)}
     (NR==FNR) { a[key]=$0 }
     (key in a) { delete a[key] }
     END { for(i in a) print a[i] }' file_a file_b file_c ...

注意：这是一个非常复杂的构建方法 ere_mac ，但如果您的awk不接受分组和重复，那么它是有效的。否则使用 ere_mac=([0-9A-Fa-f]{2}[:-]){5}([0-9A-Fa-f]{2}) 一个完整的替代和更简单的方法是：

grep -vFf <(awk '{print $1}' file_b file_c ...) file_a

赞(0）回复(0）举报 2021-06-24

我来回答

在未排序列上使用awk(或任何其他unix命令)连接两个以上的文件

1条答案

相关问题

热门标签

最新问答