序列模式挖掘

简介

序列模式挖掘(Sequential pattern mining)是数据挖掘中的一个重要研究领域,是指从庞大的事务记录中寻找出具有一定发生顺序的频繁事件序列。目前序列模式挖掘已经广泛应用与DNA序列分许、顾客购物行为分析、网站访问规律分析以及网络行为规律分析等领域。

例如大型连锁超市的交易数据有一系列的用户事务数据库,每一条记录包括用户的ID,事务发生的时间和事务涉及的项目,如果能在其中挖掘涉及事务间关联关系的模式,即用户几次购买行为间的联系,可以采取更有征对性的营销措施。

以上资料来自于论文:序列模式挖掘算法综述, http://www.cqvip.com/qk/91665x/201502/665502877.html

发展历史

Agrawal与Srikant于1995年提出序列模式的概念,主要是针对超市购物篮数据的分析。早期序列模式挖掘算法多基于Apriori原理,出现了多种Apriori类算法。之后,针对此类算法存在的各种影响挖掘性能的问题,基于投影数据库、垂直数据库和闭合序列模式以及序列生成器模式的挖掘算法相继涌现出来。Agrawal与Srikant在提出文献的时候给出了AprioriAll、AprioriSome和DynamicSome三种挖掘算法。他们主要的思想基本相同,在每一次扫描数据库的过程中,将利用前一次得到的序列模式增加一项生成候选序列,并计算候选序列的支持度,大于最小支持度阈值的候选序列作为序列模式,成为下一次扫描数据库时用于扩充的序列。

1996年同作者提出GSP算法。GSP算法引入了约束条件来提高算法的执行效率。引入时间约束后,序列中的项需在满足最大或最小间隔的条件下才能构成序列模式,滑动窗口允许挖掘出的序列模式的项来自不同的事务,通过引入这些约束,可以降低候选序列个数,减少无用的候选模式的生成,产生的结果更加贴近用户的需求。

在此之后,陆续有序列模式算法提出,例如SPADE,FreeSpan,SPAM,CloSpan,ClaSP等。

主要事件

年份事件相关论文/Reference
1995Agrawal与Srikant提出序列模式的概念Agrawal, R., & Srikant, R. (1995, March). Mining sequential patterns. In Data Engineering, 1995. Proceedings of the Eleventh International Conference on (pp. 3-14). IEEE.
1996  Agrawal与Srikant提出GSP算法Srikant, R., & Agrawal, R. (1996, March). Mining sequential patterns: Generalizations and performance improvements. In International Conference on Extending Database Technology (pp. 1-17). Springer, Berlin, Heidelberg.

发展分析

瓶颈

在数据挖掘对象方面,更大型的数据可以及更高维数以及属性间更复杂的关系,诸多的因素就会使得搜索知识的代价比较高。大数据挖掘技术的应用下,在多种形式输入数据上就面临着比较大的挑战,在当前的数据挖掘工具处理数据的形式上是比较有限的,能处理数值型的结构化数据,但是对文本以及数学公式等进行挖掘,还有事数据自身的缺损以及噪声,在商业数据库当中的应用也有着很大挑战。

未来发展方向

数据挖掘技术的重要发展方向就是基于结束挖掘的发展方向,增加用户交互同时来改进挖掘处理的总体效率,能够有效提供额外控制方法,能允许用户说明以及使用约束。

大数据挖掘技术的应用发展中,数据挖掘语言标准化的目标将会实现,标准的数据挖掘语言以及其他方面标准化工作对数据挖掘系统化的开发就有着积极作用,能有效优化多数据挖掘系统以及功能间互操作。大数据挖掘技术的应用过程中,可视化数据挖掘的技术将会进一步发展,复杂数据类型挖掘新方法的发展应用目标将会实现。

Contributor: Zhixiang Chi

简介