ApachePig—在regex中获取url的顶级域和二级域

nbewdwxp  于 2021-06-25  发布在  Pig
关注(0)|答案(1)|浏览(246)

我正在尝试使用regex返回url的结尾。例如:google.com应返回com google.co.uk应返回co.uk
我可以使用以下正则表达式提取google.com:[^.]+(?=.$|$)正则表达式是否可以考虑co.uk而不仅仅返回最后一个值?我研究过http://gskinner.com/regexr/ 但似乎没有任何帮助,因此我的问题
我想在Pig身上做这个。
提前谢谢

vsnjm48y

vsnjm48y1#

这里有一个解决方案:

(?:\.)([^\.]{1,3}\.?[^\.]*)$

javascript示例(您没有精确描述语言):

"google.co.uk".match(/(?:\.)([^\.]{1,3}\.?[^\.]*)$/).pop() => "co.uk"
"google.com".match(/(?:\.)([^\.]{1,3}\.?[^\.]*)$/).pop() => "com"
"a.google.com".match(/(?:\.)([^\.]{1,3}\.?[^\.]*)$/).pop() => "com"

相关问题