Map的sql精度

iovurdzv 于 2021-06-24 发布在 Hive

关注(0)|答案(1)|浏览(204)

如果两个表共享一个公共id，我将它们连接起来。

select *
from my_table m
join other_table o
on m.mid = o.oid

这给了我一个新的表，我称之为新表。我选择一个列（新列）来获取有关它的更多信息

select count(new_col)
from new_table

给我312。当我发现不同的值

select count( distinct new_col)
from new_table

我得到284分。如果不同计数和常规计数结果不同，则表示 other_table 它的id有重复的值。在连接过程中，重复的值与 mid 多次。我想知道他们有多少身份证 mid 只Map到中的一个id oid 以及有多少个一对多匹配，然后计算1-1Map和多-1Map的平均值。

sql Hive count Database row

来源：https://stackoverflow.com/questions/63730226/sql-accuracy-for-mappings

1条答案

按热度按时间

kpbpu0081#

我不得不在这里做一些假设，因为您（在标记中）没有提到您正在使用哪个数据库（mysql？postgresql？，？？）并且您没有显式地声明两个表中是否可以有重复的id（我推断只有另一个表有重复的id）。
所以我举了一个这样的例子：

.-----.-----.
| mid | oid |
:-----+-----:
|   1 |   1 |
:-----+-----:
|   2 |   2 |
:-----+-----:
|   3 |   3 |
:-----+-----:
|   3 |   3 |
:-----+-----:
|   4 |   4 |
:-----+-----:
|   4 |   4 |
:-----+-----:
|   4 |   4 |
:-----+-----:
|   5 |   5 |
'-----'-----'

并用下面的sql进行了测试：

WITH stats_base
     AS (SELECT mid, ocount
         FROM   my_table m
                JOIN (SELECT oid, COUNT(*) AS ocount
                      FROM   other_table
                      GROUP  BY oid) o
                  ON m.mid = o.oid)
SELECT SUM(CASE WHEN ocount = 1 THEN 1 ELSE 0 END) AS count_ones,
       SUM(CASE WHEN ocount = 1 THEN 0 ELSE 1 END) AS count_dups,
       SUM(CASE WHEN ocount = 1 THEN 1 ELSE 0 END) * 100.0 / COUNT(*) AS percent_ones
FROM   stats_base

结果是：

.------------.------------.-----------------.
| count_ones | count_dups |  percent_ones   |
:------------+------------+-----------------:
|          3 |          2 | 60.000000000000 |
'------------'------------'-----------------'

我相信这和你想要的很接近？

赞(0）回复(0）举报 2021-06-24

我来回答

Map的sql精度

1条答案

相关问题

热门标签

最新问答