袋鼠汇·房地产企业数据服务-Ycc365下载-365体育论坛网址-365bet365备用网站-Ycc365下载

AIS数据集

该研究使用了多个公开的AIS数据集，这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶，并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息，总计约6.4亿条记录。

github 收录

MultiTalk

MultiTalk数据集是由韩国科学技术院创建，包含超过420小时的2D视频，涵盖20种不同语言，旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集，每段视频都配有语言标签和伪转录，部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证，确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力，通过引入语言特定风格嵌入，使模型能够捕捉每种语言独特的嘴部运动。

arXiv 收录

MNLI

MNLI（Multi-Genre Natural Language Inference）是一个大规模的自然语言推理数据集，包含433,000多对句子对。该数据集用于评估模型在不同文本类型中的推理能力，包括新闻文章、小说、论坛帖子等。每个句子对都标注了三种可能的关系：蕴含（entailment）、矛盾（contradiction）和中性（neutral）。

cims.nyu.edu 收录

LibriSpeech

LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库，由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物，并经过仔细分割和对齐。

OpenDataLab 收录

THCHS-30

“THCHS30是由清华大学语音与语言技术中心（CSLT）发布的开放式汉语语音数据库。原始录音是2002年在清华大学国家重点实验室的朱晓燕教授的指导下，由王东完成的。清华大学计算机科学系智能与系统，原名“TCMSD”，意思是“清华连续普通话语音数据库”，时隔13年出版，由王东博士发起，并得到了教授的支持。朱小燕。我们希望为语音识别领域的新研究人员提供一个玩具数据库。因此，该数据库对学术用户完全免费。整个软件包包含建立中文语音识别所需的全套语音和语言资源系统。”

OpenDataLab 收录

袋鼠汇·房地产企业数据服务

相关推荐

lol泳池派对宝典到几号结束泳池派对宝典活动结束时间

微信建立不卡群的方法

虎牙直播签约工会认证在哪,如何加入并认证虎牙直播工会

合作伙伴