从社交的角度来看,一种典型的用户关系网络即交往圈。一个用户的交往圈定义为“与用户在一段时间内存在双向联系的所有个体”。根据不同社会群体性质,交往圈又可以分为家庭圈、工作圈、密友圈等。基于运营商数据,可识别的用户之间的关联主要为:通信关联、地域关联及身份关联。通信关联指通信的频繁性,地域关联指地理位置上的相近性,身份关联则指用户号码之间的主副关系。
以通信关联指数定义举例通过分析计费详单通话数据,进行正负样本训练,根据训练结果,总结提取特征。结合通话时长、通话频率、通话次数3个方面的特征,定义通信关联指数。
例如现在需要建立用户交往圈关系模型,根据运营商数据中主要存在的用户关联分别计算各类关联指数,并形成总用户关系视图,如下图:
由于交往圈的定义中包括“双向联系”,故剔除仅有单向联系的噪声数据和无价值的离网用户。
对于交往圈来说,快递、中介等服务人员属于噪声数据,影响用户群体圈定,故需要一并剔除。这类人员通常联系人数较多,且平均通话时长较低,可根据这类人员的通话特征进行剔除。
对于关联指数等于0的用户,也应进行剔除。最终得到用户的交往圈关系模型。
最终交往圈确认为: