
1936年,一家研究公司决定在现任民主党候选人富兰克林·罗斯福和共和党候选人阿尔夫·兰登之间决定谁将赢得美国大选,育碧蓝色字节的克里斯托夫·萨弗林在科隆举行的2014年GDC欧洲会议上详细介绍了这一点。
该公司决定尽可能多地收集美国公民的投票意向,利用电话簿和注册卡中的数据向大量人口发送邮件。
令人惊讶的是,你可能会认为,上述调查的结果预测了兰登的胜利,而实际上,罗斯福以压倒性优势赢得了第二个任期——这是当时鲜为人知的盖洛普根据几千人的样本准确预测的结果。
当一个相对较小的样本轻松预测结果时,一个大得多的调查样本怎么会被证明是如此错误呢?
根据萨弗林的说法,两次调查中较大一次调查的幕后人员在选择他们的选择过程时犯了一个严重的错误。
虚假数据
“当时,只有富人拥有手机或驾驶汽车,这意味着结果偏向富人,他们更有可能投票给兰登,”萨弗林指出。
"自我选择实际上无处不在,尤其是在游戏中."克里斯托弗·萨弗林
更大并不总是意味着更好,当涉及到产生站得住脚的统计数据时,这是一个陷阱,开发者越来越多地陷入完全没有意识到。
例如,许多开发人员依赖来自“自我选择”小组的数据——自愿加入该小组的人给出他们的观点。这些可能是早期用户,或者论坛海报,或者仅仅是愿意花30秒回答你问题的游戏玩家。
不管是正面的还是负面的,这些人总是会比大众更极端地看待你的游戏,并且会导致开发者在部署或删除游戏功能时出错。
“自我选择实际上无处不在,尤其是在游戏中,”萨弗林补充道。“不要被高KPI数字所蒙蔽。你几乎需要抓住他们,然后把他们打倒一点。”
苏打流
即使你小心避免自我选择,数据仍然会给出错误的结果。
萨弗林继续指出,统计数据显示,例如,喝可口可乐的人在分娩时问题较少。
“这引起了人们的担忧,他们认为告诉孕妇多喝苏打水是不正确的。但是,当然,谁主要喝可口可乐?年轻人。”
默认情况下,年轻人不太可能在分娩时遇到麻烦。无意中,统计产生的数据实际上与所讨论的群体无关。
那么,要点就是不要让数据主宰你的游戏设计,虽然它是游戏开发的一个重要方面,但如果你不知道它意味着什么或为什么它有任何意义,数据就什么都不是。