孟加拉语视频Clickbait检测数据集
随着数字媒体的快速发展,互联网上的内容呈现爆炸式增长,其中不乏大量为吸引注意力而设计的误导性内容,即Clickbait。Clickbait通常通过夸张、误导性或悬念性的标题吸引用户点击,但实际内容往往与标题不符,这种现象在全球范围内普遍存在,对信息质量和用户体验造成负面影响。
本数据集专注于孟加拉语视频内容的Clickbait检测,是目前规模最大、标注最全面的孟加拉语Clickbait数据集之一。数据集包含253,070条来自54个不同频道的视频记录,涵盖2012年至2023年的时间跨度,为研究孟加拉语环境下的Clickbait现象提供了宝贵资源。
数据集提供了完整的视频元数据、统计信息和三种不同的标注方式(自动标注、人工标注和AI标注),为科研人员、内容平台和政策制定者提供了多维度的分析基础。这些数据对于开发针对低资源语言的内容审核技术、研究跨文化传播规律以及提升在线信息质量具有重要价值。
数据基本信息
字段说明
| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|---|---|---|---|---|
| channel_id | object | 频道唯一标识符 | UC… | 100.0000% |
| channel_name | object | 频道名称 | Jamuna TV | 100.0000% |
| channel_url | object | 频道URL地址 | https://www.youtube.com/channel/… | 100.0000% |
| video_id | object | 视频唯一标识符 | dQw4w9WgXcQ | 100.0000% |
| publishedAt | object | 视频发布时间 | 2021-01-15 14:30:00 | 100.0000% |
| title | object | 视频原始标题 | 惊!这种方法让你的生活彻底改变… | 100.0000% |
| title_debiased | object | 去偏见处理后的标题 | 生活方法介绍 | 100.0000% |
| description | object | 视频原始描述 | 在这个视频中,我们将介绍… | 100.0000% |
| description_debiased | object | 去偏见处理后的描述 | 在这个视频中,我们将介绍… | 100.0000% |
| url | object | 视频播放页面URL | https://www.youtube.com/watch?v=… | 100.0000% |
| viewCount | int64 | 视频观看次数 | 10000 | 100.0000% |
| commentCount | int64 | 视频评论数量 | 120 | 100.0000% |
| likeCount | int64 | 视频点赞数量 | 500 | 100.0000% |
| dislikeCount | int64 | 视频点踩数量 | 20 | 100.0000% |
| thumbnail | object | 视频缩略图URL | https://i.ytimg.com/vi/.../hqdefault.jpg | 100.0000% |
| auto_labeled | object | 自动标注结果 | Clickbait/Not Clickbait | 100.0000% |
| human_labeled | object | 人工标注结果 | Clickbait/Not Clickbait | 3.9515% |
| ai_labeled | object | AI标注结果 | Clickbait/Not Clickbait | 100.0000% |
数据分布情况
标签分布(自动标注)
| 类别 | 记录数量 | 占比 |
|---|---|---|
| Not Clickbait | 223758 | 88.42% |
| Clickbait | 29312 | 11.58% |
标签分布(AI标注)
| 类别 | 记录数量 | 占比 |
|---|---|---|
| Not Clickbait | 208015 | 82.20% |
| Clickbait | 45055 | 17.80% |
发布时间分布
| 年份 | 记录数量 | 占比 | 累计占比 |
|---|---|---|---|
| 2012 | 42 | 0.02% | 0.02% |
| 2013 | 12 | 0.00% | 0.02% |
| 2014 | 64 | 0.03% | 0.05% |
| 2015 | 1163 | 0.46% | 0.51% |
| 2016 | 3543 | 1.40% | 1.91% |
| 2017 | 7469 | 2.95% | 4.86% |
| 2018 | 10810 | 4.27% | 9.13% |
| 2019 | 23046 | 9.11% | 18.24% |
| 2020 | 81393 | 32.16% | 50.40% |
| 2021 | 116489 | 46.03% | 96.43% |
| 2022 | 5630 | 2.22% | 98.65% |
| 2023 | 3409 | 1.35% | 100.00% |
主要频道分布(Top 10)
| 频道名称 | 视频数量 | 占比 |
|---|---|---|
| Jamuna TV | 19990 | 7.90% |
| Independent Television | 19976 | 7.89% |
| NEWS24 | 19891 | 7.86% |
| SOMOY TV | 19884 | 7.86% |
| Ekattor TV | 19617 | 7.75% |
| Channel 24 | 18837 | 7.44% |
| Channel i News | 17971 | 7.10% |
| ATN News | 17507 | 6.92% |
| DBC NEWS | 16111 | 6.37% |
| NTV News | 15004 | 5.93% |
数据规模与类型
- 数据规模: 253,070条视频记录
- 数据类型: 结构化元数据、多源标注数据
- 文件格式: 提供Parquet和Excel两种格式
- 时间跨度: 2012年至2023年,共12年数据
- 覆盖频道: 54个不同的孟加拉语视频频道
- 标注方法: 自动标注、人工标注、AI标注三种方式
- 数据完整性: 主要字段缺失率低于0.01%,数据质量高
数据优势
| 优势特征 | 具体表现 | 应用价值 |
|---|---|---|
| 大规模数据量 | 包含253,070条孟加拉语视频记录,涵盖54个不同频道 | 为机器学习模型提供充足的训练数据,提高模型泛化能力和准确性 |
| 多维度标注体系 | 提供自动标注、人工标注和AI标注三种标注方式,标注一致性达89.56% | 支持多视角分析和模型对比,提高检测准确性和可靠性 |
| 丰富的元数据信息 | 包含完整的视频元数据(频道信息、发布时间、观看数、点赞数等) | 支持多维度分析,可探索Clickbait内容的传播规律和特征 |
| 时间跨度广泛 | 涵盖2012-2023年的视频数据,以2020-2021年内容为主 | 支持趋势分析,了解Clickbait内容随时间的演变规律 |
| 双格式存储 | 同时提供Parquet和Excel两种格式,便于不同场景使用 | 满足不同用户的使用需求,提高数据可用性和兼容性 |
| 孟加拉语专属数据集 | 专注于孟加拉语视频内容,填补低资源语言Clickbait检测研究空白 | 推动孟加拉语内容安全研究,促进多语言信息处理技术发展 |
| 高质量数据完整性 | 主要字段缺失率极低(<0.01%),确保数据质量 | 减少数据清洗工作,提高研究和应用效率 |
数据样例
元数据样例
| 频道名称 | 发布时间 | 视频标题 | 自动标注 | AI标注 | 观看量 | 点赞数 |
|---|---|---|---|---|---|---|
| Jiboner Kotha | 2021-05-31 12:19:47 | হিজবুল্লাহ কারা? কতটা ভয়ঙ্কর হিজবুল্লাহ সংগঠন? যাদ… | Clickbait | Clickbait | 203905 | 7571 |
| Islamic Media TV | 2018-10-28 17:03:34 | মনোমুগ্ধকর কোরআন তিলাওয়াত (কারী আব্দুল কাইয়ুম মি… | Clickbait | Not Clickbait | 8590 | 138 |
| Funny Frog Creatives | 2017-01-04 00:43:52 | বিশ্বের সবচেয়ে দামী ৫টি ফল যা খাওয়ার সৌভাগ্য কম লো… | Clickbait | Clickbait | 405803 | 4365 |
| Star Golpo | 2018-12-29 04:31:42 | ২০১৯ এ কি চমক নিয়ে আসতে যাচ্ছে সিয়াম? Siam Ahmed | … | Clickbait | Not Clickbait | 2881 |
| Star Golpo | 2017-04-19 10:56:31 | ক্যামেরা বন্ধ হলেই যা করা শুরু করে দেন এই টিভি তার… | Clickbait | Clickbait | 1989 | 23 |
| ATN News | 2021-03-27 06:11:22 | স্বাস্থ্যঝুঁকিহীন জৈব আর ব্যাগিং পদ্ধতিতে চাষ হচ্ছ… | Not Clickbait | Not Clickbait | 1081 | 33 |
| mytv Bangladesh | 2019-11-10 12:19:58 | ঘূর্ণিঝড় বুলবুল দুর্বল হয়ে গিয়েছে | Bulbul Cyclon… | Not Clickbait | Not Clickbait | 781 |
| Independent Television | 2021-02-10 13:01:12 | ১৬ বছরের উর্ধ্বে নারী-পুরুষ ম্যারাথনে অংশ নিতে পার… | Not Clickbait | Not Clickbait | 1665 | 25 |
| Ekattor TV | 2021-04-22 06:49:31 | ডিএনসিসির হাসপাতালে বাড়ছে করোনা আক্রান্তদের ভিড় | … | Not Clickbait | Not Clickbait | 5148 |
| DBC NEWS | 2021-05-03 09:06:06 | দেশের বিভিন্ন জায়গায় বৃষ্টি হওয়াতে কমেছে তাপমাত্রা | Not Clickbait | Not Clickbait | 1153 | 19 |
| Jamuna TV | 2021-07-03 05:09:13 | মুশফিককে কী টোটকা দিলেন হেরাথ? সাকিবও পেলেন বিশেষ … | Not Clickbait | Clickbait | 326803 | 8907 |
| ATN News | 2021-07-08 11:44:08 | লকডাউন না মেনেই ঢাকা ছাড়ছেন মানুষ | Not Clickbait | Not Clickbait | 69229 | 1045 |
| Jamuna TV | 2020-12-17 11:10:16 | ভুয়া কলসেন্টার খুলে বিদেশিদের কোটি কোটি টাকার প্রত… | Not Clickbait | Not Clickbait | 10082 | 201 |
| Channel 24 | 2020-01-15 11:06:58 | জনগণ স্বতঃস্ফূর্তভাবে নেমে পড়ায় আচরণবিধি লঙ্ঘন হচ্… | Not Clickbait | Not Clickbait | 378 | 12 |
| Dr Jahangir Kabir | 2020-04-04 07:24:24 | বর্তমান পরিস্হিতিতে ঘরে বসে ইয়োগা এবং ফ্রী হ্যান্ড… | Not Clickbait | Not Clickbait | 311019 | 7184 |
注:样例涵盖不同标签类型、发布年份和频道来源,展示了数据集的多样性特征。完整数据集中包含所有视频的详细信息。
应用场景
多语言Clickbait检测模型训练
该数据集为训练孟加拉语Clickbait检测模型提供了大规模标注数据。通过利用25万多条标注样本,研究人员可以开发专门针对孟加拉语语言特点的检测算法。与英语等资源丰富语言相比,孟加拉语NLP研究相对滞后,此数据集填补了这一空白,使研究人员能够训练出更准确的特定语言模型。这些模型可以识别孟加拉语特有的Clickbait模式、表达方式和文化语境相关的误导性内容,为孟加拉语互联网用户提供更可靠的信息筛选工具。
跨标注方法模型评估与对比
数据集包含自动标注、人工标注和AI标注三种不同的标注方式,为模型评估提供了独特视角。研究人员可以比较不同标注方法的一致性(目前自动标注与AI标注一致性达89.56%),分析人工标注与自动标注的差异,从而改进标注算法。此外,这一多标注体系也支持开发更鲁棒的集成模型,结合多种标注结果提高检测准确性。通过这种方式,研究人员可以探索半监督学习和主动学习方法,减少对大量人工标注的依赖,降低模型训练成本。
社交媒体内容安全监测系统开发
基于该数据集开发的Clickbait检测系统可以集成到社交媒体平台和新闻聚合服务中,实时监测和筛选误导性内容。孟加拉语作为世界主要语言之一,拥有庞大的在线用户群体,开发专门的内容过滤系统对于维护网络信息环境至关重要。系统可以根据视频标题、描述等元数据快速识别潜在的Clickbait内容,为用户提供预警或降级展示,减少误导性信息的传播。同时,系统还可以分析Clickbait内容的传播模式,为平台制定更有效的内容管理策略提供数据支持。
跨文化传播与虚假信息研究
该数据集为研究跨文化背景下Clickbait内容的特点和传播规律提供了宝贵资源。通过分析孟加拉语Clickbait内容与其他语言(如英语、印地语等)的异同,研究人员可以深入了解文化因素如何影响误导性内容的产生和传播。此外,数据集包含2012-2023年的时间跨度,可以用于研究Clickbait内容随时间的演变趋势,特别是在重大社会事件或疫情期间的变化。这些研究对于理解全球信息生态系统、制定跨文化传播策略和应对虚假信息挑战具有重要意义。
媒体影响力与内容策略分析
数据集包含54个不同频道的视频信息和详细的统计数据(观看量、点赞数、评论数等),为分析媒体影响力和内容策略提供了丰富素材。研究人员可以比较不同类型频道的Clickbait使用频率,分析Clickbait策略与内容传播效果的关系。例如,可以研究Clickbait标题是否真的能带来更高的观看量和互动率,以及这种影响在不同类型的内容和不同受众群体中的差异。这些分析结果可以帮助媒体机构制定更负责任和有效的内容策略,平衡吸引注意力和提供高质量信息的需求。
低资源语言NLP技术发展
作为一个大规模的孟加拉语标注数据集,它可以推动低资源语言NLP技术的整体发展。研究人员可以利用这些数据预训练或微调语言模型,提高模型对孟加拉语的理解能力。这些技术进步不仅限于Clickbait检测,还可以应用于情感分析、主题建模、文本分类等多种NLP任务。通过共享和利用此类数据集,可以加速孟加拉语等低资源语言的AI技术发展,缩小与英语等资源丰富语言的技术差距,促进全球AI技术的包容性发展。
教育与公众意识提升
基于数据集的分析结果可以用于开发教育材料,提高公众对Clickbait内容的识别能力。通过展示典型的孟加拉语Clickbait模式和案例,教育工作者可以帮助用户理解如何批判性地评估在线内容。此外,数据集还可以用于开发互动式学习工具,让用户在实践中提高识别能力。这种教育努力对于培养信息素养、减少虚假信息的负面影响具有长期价值,特别是在数字媒体日益普及的孟加拉语社区。
总结
本数据集作为大规模、多维度的孟加拉语Clickbait检测资源,具有重要的研究和应用价值。通过提供253,070条高质量标注记录,涵盖54个不同频道和12年时间跨度,数据集为多语言内容安全研究、低资源语言NLP技术发展和跨文化传播分析提供了坚实基础。
数据集的核心优势在于其多源标注体系(自动标注、人工标注和AI标注)、丰富的元数据信息以及对孟加拉语这一重要但资源相对匮乏的语言的专注。这些特点使其成为开发Clickbait检测模型、分析媒体影响力和提升在线信息质量的理想选择。
随着数字内容的持续增长,对高质量内容过滤技术的需求将不断增加。本数据集的开放和共享将有助于推动相关研究和技术的发展,为创建更健康、更可靠的在线信息环境贡献力量。有需要了解更多详情或获取完整数据集的研究人员和机构可通过适当渠道联系获取。