Spark SQL 实现随机抽样和分层随机抽样

缘起:TABLESAMPLE 的非随机性 最近需要实现一段 Spark SQL 逻辑,对数据集进行抽样指定的行数,才发现直接使用 TABLESAMPLE 函数抽样指定行数的方法其实是非随机的。 由于数据集...

消息盒子

# 暂无消息 #

只显示最新 10 条未读和已读信息