hive 实现多行转一行处理方法

代码生活

浏览: 79369 次
性别:
来自: 北京

最近访客更多访客>>

byxsle

xem

sizuifeizui12345

luojianbing

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

hive

最近公司在做客户端阅历数据分析，服务器端同事需要计算每个用户的读书分类，读了多少本书，读过多少本书，总时长，总分，数据量非常大，服务器同事那边单机处理一次需要10个小时，后来我拿来我们这边做，分布式计算总比单机计算快吧，所以分享一下：

1.需要统计每个用户的书籍分类

sql：

select  us.user_name,us.bid,b.classname  from  book_class  
b  join user_all_books_times us on (us.bid=b.bid)

首先统计出来用户读书的分类

2.上面sql查询出来有三个字段需要转化为两个字段

user_name classtypeNum

张三 1000003:56----分类10000003 有56本

sql：

hive -e "create table  user_book_class  as   select  
user_name,concat(classname,':',num) as cl from  (select
 user_name,classname,sum(1) as num from (select  
us.user_name,us.bid,b.classname  from  book_class  b  
join user_all_books_times_sup us on (us.bid=b.bid)) f 
 group by user_name,classname) f1"

3.一个用户对应很多个分类，所以一个用户会有很多行记录，那么最后转化为一行

user_name classtypesum

张三 100004:56,100004:47,,,,,,,,,,

sql:

select user_name, concat_ws(',', collect_set(cl) as 
classtype  from  user_book_class where cl is not null 
and cl !=''  group by  user_name;

最后满足需求，20分钟搞定，也可以自己写一个UTAF来实现。

分享到：

kylin完美支持aws glue data catalog | hadoop导入eclipse并编译打包

2013-11-01 13:35
浏览 3141
评论(1)
分类:开源软件
查看更多

1 楼 di1984HIT 2014-06-13

写的不错啊。

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hive 实现多行转一行处理方法

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hive 实现多行转一行处理方法

评论

发表评论

相关推荐

hive metastore 基础表简绍

hive数据倾斜之multi-distinct性能优化

hive海量数据--统计一年网站各个产品的UV

hive 仓库中已存在分区，导入数据报错

hive 数据倾斜问题

最近访客更多访客>>