可以先从下面几点了解,在搭建出类似的网站。
收集web日志
采用数据挖掘技术,对站点用户访问Web服务器过程中产生的日志数据进行分析处理,从而发现Web用户的访问模式和兴趣爱好等。
整合数据采集、清洗、存储、维度分析、数据可视化这一系列功能的数据存储分析平台。
一般来说海量数据存储为了便于日后使用大数据进行数据处理会采用hbase来存储。
采集数据的存储可以先使用关系数据库如mysql等来做,然后将处理完的数据压入hbase中。
至于打标签和前台可视化查询最好使用nosql数据库进行分布式处理,如mongodb。