从数据中获取答案的路途充满了false starts and dead ends。开始时充满希望的方法可能行不通。最初只是一个预感却可能是最佳解决方案。数据的工作流程通常是一个多阶段的迭代过程。例如,股票价格是在交易所观察到的,由汤普森路透社等中间人汇总,存储在数据库中,由公司购买,在Hadoop集群中转换为Hive商店,通过脚本从商店中抽出,进行二次抽样, 由另一个脚本处理和清理,转储为文件,转换为可以在R,Python或Scala中最喜欢的建模库中尝试的格式,将预测转储回csv文件,由评估程序分析,迭代多次 ,最后由生产团队用C ++或Java重写,运行所有数据,并将最终预测输出到另一个数据库。