大徐

Icon

数据:数学家破解婚恋网配对程序 90天找到灵魂伴侣

有时候,不经意间就会看到一个应用数据分析的精彩案例,能让枯燥变得好玩。
短短的一篇小文,信息量不小,除了结果之外还有操作的过程。
这位数学家所做的其实只是一个小把戏,但就是这个小把戏帮到了他。
这是一个真实的数据分析应用的案例,在很多人眼里也许只是一个过气的头条,但在我眼里着实好玩。

据外媒报道,美国波士顿数学家克里斯•麦金利注册一个婚恋网站后,认为系统配对的对象不适合。他自制计算机程序破解配对系统,最终只花了不到90天时间就在茫茫人海中找到心仪对象。目前,他已经向女友求婚。

据报道,该婚恋网站的运作模式是问卷配对。网站会从数千条问题中,随机选出350条要求用户作答,根据答案配搭最适合对象。不过克里斯认为,这一机制不适合自己,于是想方法找出一个所有问题答案都合乎自己心意的女孩。

他开设12个账户,再利用计算机程序随意作答,从中抽出每个答案相对应的女性用户资料。经过3星期努力,他从2万名用户中收集到600万条问题答案,然后再利用演算程序,筛选出5000名住在洛杉矶或旧金山、1个月内曾登陆网站的女子,再按性格分类,最后选出最符合择偶条件的两组女子。

在经过不少尝试后,克里斯终于约到一名亚裔女孩。他见面时主动披露破解网站的秘诀,对方极为欣赏,二人开始恋爱关系。即使后来这名女孩到卡塔尔留学,两人关系仍然未变。而在两人恋爱满一周年后,克里斯也求婚成功,如愿找到“灵魂伴侣”。

出处:数学家破解婚恋网站配对程序 90天找到灵魂伴侣

先用我的理解,翻译一下原文中的过程,同时也尝试描述一下过程中忽略掉的一些可能的细节:

1,开设12个账户
12个账户不是随意开设的,应该是这位数学家尝试的结果,少了搞不定多了没用。
从后面的过程来看,这家伙至少需要几百万条回答记录,这就需要至少要拿到1万个女人的答案,实际上是2万个女人的答案。
网站对于提交一般都有频率的限制,比如1分钟之内提交3次以上就会认为是机器人。
因此为了避免被网站限制,需要用多个账户轮换不停的去获得人的答案(当然还会用到其他的伪装),这个数学家用了12个账户。

2,再利用计算机程序随意作答
网站的玩法是“从数千条问题中,随机选出350条要求用户作答”,因此不得不用计算机程序随意作答。
对于自己的12个账户来说,不知道每次看到的350条问题都是什么,因此只能随意作答。
对于希望获得的女子的答案来说,也无法确定都需要哪些问题的那些答案,因此也只能随意作答。
而随意作答本身,以及对于大量的操作来说,也只有计算机程序可以搞定。

3,从中抽出每个答案相对应的女性用户资料
这是个体力活,计算机程序模仿某个账户登录后随意作答,系统会推荐给一些女人,计算机程序把这些女人的答案抓取并存储下来。
通过12个账户的大量随机请求,获得网站上所有女人对每个问题的答案,或者也可以表述为一个为每个女人打标签的过程。
这就是所谓的大数据的思路,首先获得尽可能多的数据,这里的数据指的就是每个女人的答案以及每个女人的用户资料。
其实网站的数据库里面都有这些东西,只不过对于一个外人来说,只能用这种比较粗暴但成本很低的方式获得。

4,经过3星期努力
3个星期哦!可以想象,网站一定是限制比较严格!
21天获得了多少次的系统推荐结果我们不得而知,因为报道里面没有提到每次会推荐几个女人,只知道最后的2万人和600万条答案。
这位数学家一定是个有耐心的人哦,21天可不是一个短时间。
他对网站也还是挺人次的哦,或者网站的反作弊还是挺强的哦,居然需要21天。

5,他从2万名用户中收集到600万条问题答案
2万个女人,每人回答350个问题,一定是有700万条问题答案啊,为何最后只收集到了600万条呢?
先假设每个被推荐的女人都是完整回答了350个问题的女人,而不是只回答了一部分问题的女人。
那么一定是有一些女人回答的一些问题,明显是乱答的,这在问卷调查里面很常见,也许是她们觉得应该装一下,也许是不好意思,或者只是烦了。
通过前后矛盾的一些问题可以识别出一些特征来排除那些明显乱答的答案,这是机器学习的一种。

6,然后再利用演算程序,筛选出5000名住在洛杉矶或旧金山、1个月内曾登陆网站的女子
其实算不上什么演算程序,只是一个筛选的过程,简单粗暴的针对地域以及活跃情况对2万个女人做一次筛选。
地域当然是重要的,一个远在天边的女人再合适也很难成为一个结婚的对象。
活跃情况也是重要的,一个多年没登录的死用户再合适也无法勾兑。
当然这这是对得到的数据进行一些简单的粗加工,精彩的在后面。

7,再按性格分类,最后选出最符合择偶条件的两组女子。
按照性格分类,也就是那些问题答案的分类,这在机器来说只要你定好了规则是件很简单的事情。
规则就是,按照数学家自己的择偶条件,去找到那些如此回答了某些问题的女人。
当然不会是一个问题,而应该是一堆问题,多个不同类型的问题才能更体现一个女人的性格。
而且也不会是一票否决制,寻找所有问题的答案都合适的女人是不现实的,只寻找大致是那类的女人即可。

8,两组女子
我猜测350个问题本身太分散了,很可能相互间关联度很低,很难归类为一组,也就是说也许看上去有两类女人这位数学家都比较喜欢。
我猜测350个问题的答案也太分散了,这些问题应该不是是非题,没有唯一的正确答案,因此很难归类。
总体来说一定是这为数学家发现有两类女人自己比较中意,比如一类是时尚自信的职业女性,一类是清纯乖巧的邻家女孩。

到此为止,行动的过程已经简单明确的完成了,这位数学家通过随机作答获得大量的女人资料以及她们的答案,然后通过地域以及活跃度进行粗暴筛选,再通过答案内容的分组筛选自己喜欢性格的女人。再往后应该就是在网站上和她们勾兑,约她们出来见面的常规手法了。这位数学家的牛逼之处只是在于通过上述方法,把中意的女人的范围缩到很小,把约会的成功率提升到很高。这也是后面所说的”在经过不少尝试后,克里斯终于约到一名亚裔女孩。“的原因,所谓尝试,一定就是那些勾兑和约会,只不过这些付出比一般人来的要效率高。

当然,这个案例里面还是有一些疑问的:

1,350个问题能表达自我吗?
答案肯定是不能,350个命题问题怎么能体现一个人的性格呢?这是不可能的。
但看上去这是一个不错的方法,说不错是因为相对来说成本比较低,当然是相对和某人交往很长时间、交谈很多话题来说的。
最重要的是,这在目前,普遍的社交平台上,也许是最好的方法了。
是啊,那几千个问题就一定是能体现性格的刁钻问题,350个的数量也不低了,并且背后还有一套推荐算法。

2,为什么网站提供给的基本版推荐算法不够好?
首先我觉的不是网站提供的推荐算法不够好,而是这位数学家的这套PRO版的推荐算法太好。
从网站使用的方法来说,已经算是不错了,350个问题啊!哪位中国用户可以完成所有350问题的回答?
PRO版的推荐算法基于全站的所有女人的所有答案这个基础,这就是大数据的思维了。
而一般用户只能是得到一次或者几次网站通过基本算法推荐的几个或一些女人,相对来说范围太大,成功率太低。

3,网站为什么不那么干?
不是他们不会那么干,而是他们不愿意那么干,满足用户需求是一种价值,获得商业利润也是一种价值。
获得更精准的推荐,获得更大范围的推荐,获得更有效率的体验,是要花钱的。
对于网站来说,他们更愿意把这些东西开发成付费的功能来收费,而不是提供极致的用户体验。
每一个填写了用户资料回答了问题的用户都是可以卖钱的。

4,还能再进一步吗?
数据量可以扩大,女人的数量、问题答案的数量都可以变大,数据量越大获得结果的可能性也就越大。
筛选条件以及性格分类可以变化,也就是说这些东西除了可以为数学家服务以外,可以为任意男人服务。
性格分类可以持续学习,如果结果越来越不发散,范围也就越小,成功率也就越高。
反馈和学习,可以通过同一人不同批次的推荐反馈学习,也可以通过不同人的推荐反馈学习,甚至通过成功牵手后的结果反馈学习。

分类: 光荣梦想

标签:

评论

个人介绍

大徐 / cnxjj
大徐

微信订阅号:趣味方法学
微信订阅号:趣味方法学
更多

版权

Creative Commons(创作共用)授权
本站版权 创作共用