原创Airbnb房源评论数据集 随着共享经济的快速发展,Airbnb作为全球领先的住宿共享平台,其数据蕴含着丰富的市场洞察和研究价值。本数据集包含了自2008年至2021年间全球主要城市的Airbnb房源信息和用户评论数据,为研究共享住宿市场的发展趋势、价格波动、用户偏好以及监管政策影响提供了宝贵的一手资料。数据集由两个核心文件组成:Listings.csv包含了详细的房源信息,涵盖房东资料、房源特征、价格、评分等多维度数据;R 2026-01-06 典枢(https://dianshudata.com) #典枢-数据集
原创JD商品评论数据集 在当今数字化时代,电商平台的用户评论数据已成为企业决策、产品优化和用户体验改进的重要依据。特别是在笔记本电脑这一高价值消费电子产品领域,用户评论不仅反映了产品的真实使用体验,更蕴含着丰富的情感信息和用户需求洞察。本数据集收集了JD平台上关于笔记本电脑的4000条真实用户评论,为情感分析、文本挖掘、推荐系统等自然语言处理任务提供了宝贵的中文语料资源。 该数据集对于推动中文自然语言处理技术的发展具 2026-01-06 典枢(https://dianshudata.com) #典枢-数据集
原创MIT-BIH心律失常数据集 心电图(ECG)作为记录心脏电活动的重要工具,在心律失常等心血管疾病的诊断和研究中发挥着不可替代的作用。MIT-BIH心律失常数据库作为国际公认的标准ECG数据库,由麻省理工学院(MIT)和贝斯以色列医院(Beth Israel Hospital)联合创建,是心血管研究领域应用最广泛的基准数据集之一。该数据库包含了从长期Holter记录中精心挑选的高质量心电图数据,每条记录均由专业心脏病专家进行详 2026-01-06 典枢(https://dianshudata.com) #典枢-数据集
MP4视频数据集分析报告 在当今数字化时代,视频数据作为一种重要的多媒体信息载体,具有极高的研究价值和应用价值。本数据集包含一个高质量的MP4格式视频文件,可作为视频处理、编码分析、多媒体技术研究以及算法训练的基础数据。虽然数据集规模相对精简,但其完整性和标准格式使其在特定应用场景中具有不可替代的价值。该数据集适用于视频编解码研究、多媒体应用开发、视频质量评估以及相关教学演示等领域。 2026-01-06 典枢(https://dianshudata.com) #典枢-数据集
原创Markdown文本与公式图像配对样本数据集 在学术研究和技术文档编写领域,LaTeX作为专业的排版系统,其数学公式表达能力被广泛认可。然而,将印刷或电子文档中的LaTeX公式图像转换为可编辑的文本格式一直是个技术难题。光学字符识别(OCR)技术在普通文本识别方面已相当成熟,但对于复杂数学公式的识别仍面临巨大挑战,主要原因之一就是缺乏高质量的”公式图像-LaTeX文本”配对训练数据。本数据集正是为解决这一痛点而设计,通过标准化合成流程生成20 2026-01-06 典枢(https://dianshudata.com) #典枢-数据集
音乐ML练习数据集 数据概览与特征说明本 Spotify ML 练习数据集专为机器学习初学者设计,旨在提供端到端的 ML 管道实践资源。原始数据含 24 个特征,经处理后扩展至 158 个工程特征,涵盖 11.4 万 + 首 Spotify 歌曲信息。,涵盖流行度评分、音频特征、流派标签、聚类目标及艺术家统计量。 核心特征分类 基础指标 :popularity(0-100 分)、explicit(布尔值)、音频特征 2026-01-06 典枢(https://dianshudata.com) #典枢-数据集
TMDB-6000部电影数据集分析报告 电影产业作为全球文化娱乐的重要组成部分,其发展趋势、观众偏好及商业表现一直是研究热点。随着数字技术的普及和流媒体平台的兴起,电影数据的价值日益凸显。TMDB(The Movie Database)作为全球最大的电影数据库之一,提供了丰富的电影信息资源。本报告分析的TMDB 6000部电影数据集,包含了电影基本信息、演职人员数据以及用户评分数据三大核心部分,为影视产业分析、推荐系统开发、观众行为研究 2026-01-06 典枢(https://dianshudata.com) #典枢-数据集
上海方言语音数据集 方言语音数据是语言技术研究与文化遗产数字化保护的核心资源。上海方言作为吴语的代表性分支,兼具地域文化独特性和语言复杂性,在语音识别、自然语言处理及人机交互领域具有不可替代的价值。随着长三角地区智能经济快速发展,针对方言的语音技术已成为智慧城市、金融服务、司法政务等场景的刚需。本数据集通过科学采集与多维度设计,覆盖多规模对话组与跨领域话题,不仅为方言语音识别模型提供训练基础,更为语言社会学、声学分析 2026-01-06 典枢(https://dianshudata.com) #典枢-数据集
YouTube摔跤手抗议评论数据集分析报告 社交媒体平台已成为现代社会公众表达意见、参与讨论和传播信息的重要渠道。YouTube作为全球最大的视频分享平台,其评论区蕴含着丰富的用户情感、态度和观点数据。本数据集聚焦于YouTube上关于摔跤手抗议活动的评论内容,为研究公众对社会运动的反应、意见领袖影响力以及信息传播模式提供了宝贵的一手资料。 该数据集包含超过110万条YouTube评论,涵盖188个相关视频,涉及73,951位不同的评论作者 2026-01-06 典枢(https://dianshudata.com) #典枢-数据集
中文粤语语音语料库 随着人工智能技术的快速发展,语音识别和自然语言处理已成为现代智能系统的核心技术。然而,对于粤语这一重要的汉语方言,高质量的语音语料库资源相对稀缺,这严重制约了粤语语音识别技术的发展和应用。粤语作为中国南方地区的主要方言,拥有超过7000万的使用者,在粤港澳大湾区、海外华人社区以及国际贸易中发挥着重要作用。因此,构建高质量的粤语语音语料库对于推动粤语语音技术发展、促进区域经济文化交流、以及保护语言多 2026-01-06 典枢(https://dianshudata.com) #典枢-数据集