# 第三章 数据集 在这本书中,所有的模型和技术都被应用于在线免费提供的真实数据集。我们将为不同的任务使用不同的数据集:分类、回归和文本分类。 3.1 自行车租赁(回归) 此数据集包含华盛顿自行车租赁公司租赁自行车的每日计数,以及天气和季节信息。这些数据是由首都比克夏公开提供的。Fanaee-T 和 Gama(2013)增加了天气数据和季节信息。我们的目标是根据天气和一天的不同来预测租多少辆自行车。数据可以从下载。 新特性被添加到数据集中,并不是所有的原始特性都被用于本书中的示例。以下是使用的功能列表: • 包括临时和注册用户在内的自行车数量。计数用作回归任务的目标。 • 春天、夏天、秋天或冬天。 • 指示当天是否为假日。 • 2011 年或 2012 年。 • 自 2011 年 1 月 1 日(数据集中的第一天)起的天数。引入此功能是为了考虑随时间变化的趋势。 • 指示当天是工作日还是周末。 • 那天的天气情况。什么之中的一个: 晴朗,少云,部分多云,多云 雾+云,雾+碎云,雾+少云,雾 小雪、小雨+雷雨+散云、小雨+散云 大雨+冰盘+雷雨+薄雾、雪+薄雾 • 温度(摄氏度)。 • 相对湿度百分比(0 到 100)。 • 风速,单位:km/h。 对于本书中的例子,数据已经过了一些处理。您可以在本书中找到处理脚本和 ![img](file:///C:/Users/ADMINI~1/AppData/Local/Temp/msohtmlclip1/01/clip_image001.gif) 1。Fanaee-t、Hadi 和 Joao Gama。“集成探测器与背景知识相结合的事件标记”,《人工智能进展》。施普林格柏林海德堡,1-15。(2013 年)。 3.2 YouTube 垃圾邮件评论(文本分类) 作为文本分类的一个例子,我们使用了来自 5 个不同 YouTube 视频的 1956 条评论。值得庆幸的是,在一篇关于垃圾邮件分类的文章中使用此数据集的作者制作了这些数据(Alberto、Lochter 和 Almeida(2015 年)。 这些评论是在 2015 年上半年通过 YouTube API 从 YouTube 上观看最多的十个视频中的五个收集的。所有 5 个都是音乐视频。其中之一是韩国艺术家 psy 的“江南风格”。其他的艺术家是凯蒂·佩里、lmfao、eminem 和夏奇拉。 签出一些评论。这些评论被手动标记为垃圾邮件或合法。垃圾邮件用“1”编码,合法评论用“0”编码。 内容类 嗯,不管怎样,看看这个你[管]频道:Kobyoshi02 1 嘿,伙计们,看看我的新频道,我们的第一个视频,这是我们,猴子!!!!我是 1 只穿白衬衫的猴子,请留言并订阅!!!!! 为了测试,我必须说 murdev.com 1 我在我的频道上摇着我性感的屁股享受^^1 手表?v=vtarggvgtwq 检查。1 嘿,看看我的新网站!!这个网站是关于儿童的。Kidsmediausa。COM 1 订阅我的频道 1 我一打开它就静音。我一打开它就只想查看视图…0 你应该看看我的频道有没有搞笑的视频!!1 和 u 应该检查我的频道,告诉我下一步该怎么做!一 你也可以去 YouTube 看看评论部分。但请不要被 YouTube 地狱抓到,最后看的是猴子从海滩上的游客那里偷喝鸡尾酒的视频。自 2015 年以来,谷歌垃圾邮件探测器也可能发生了很大变化。 . 如果您想玩弄这些数据,可以在书的 Github 存储库中找到随和的一些便利功能。 ![img](file:///C:/Users/ADMINI~1/AppData/Local/Temp/msohtmlclip1/01/clip_image002.gif) 1。阿尔贝托,T_lio C,约翰内斯诉洛克特,蒂亚戈·阿尔梅达。“TubeSpam:评论 YouTube 上的垃圾邮件过滤”,在机器学习和应用(ICMLA)中,IEEE 第 14 届国际会议,138-43。IEEE。(2015 年)。 3.3 宫颈癌危险因素(分类) 宫颈癌数据集包含预测女性是否会患宫颈癌的指标和危险因素。这些特征包括人口统计学数据(如年龄)、生活方式和病史。数据可从下载,并由 Fernandes、Cardoso 和 Fernandes(2017)描述。 本书示例中使用的数据功能子集包括: • 年龄(年) • 性伴侣数量 • 第一次性交(岁) • 怀孕次数 • 吸烟是还是不 • 吸烟(以年计) • 激素避孕药是或否 • 激素避孕药(以年计) • 宫内节育器是或否(宫内节育器) • 使用宫内节育器(IUD)的年数 • 患者是否患有性传播疾病(STD)是或否 • 性病诊断次数 • 第一次性病诊断后的时间 • 上次性病诊断以来的时间 • 活检结果为“健康”或“癌症”。目标结果。 活检是诊断宫颈癌的金标准。对于本书中的例子,活检结果被用作目标。每列的缺失值都是由模式(最频繁的值)输入的,这可能是一个坏的解决方案,因为真正的答案可能与缺失值的概率相关。可能存在偏见,因为这些问题是非常私人的。但这并不是一本关于缺失数据插补的书,因此模式插补必须足以作为例子。 要使用此数据集复制本书的示例,请在本书的 Github 存储库中找到和。 ![img](file:///C:/Users/ADMINI~1/AppData/Local/Temp/msohtmlclip1/01/clip_image003.gif) 1。费尔南德斯、凯尔文、杰米·卡多索和杰西卡·费尔南德斯。“应用于宫颈癌筛查的部分可观察性转移学习”,伊比利亚模式识别和图像分析会议,243-50。斯普林格。(2017 年)。