近日,南方科技大学生物医学工程系2021级本科生牟新语,以第一作者身份在国际著名SCI期刊Nature Scientific Data(影响因子9.8)发表了数据集论文“ChineseEEG: A Chinese Linguistic Corpora EEG Dataset for Semantic Alignment and Neural Decoding”(用于语义对齐和神经解码的中文语料库脑电数据集)。该研究为中文AI模型与脑电对齐提供了开放的数据集,引起国内外神经科学、自然语言处理、语言学领域的重点关注。 在当今社会,随着脑科学和自然语言处理等技术的不断进步,我们对于大脑与语言之间关系的探索也日益深入。通过分析丰富文本刺激所引发的神经信号,我们能更深入地了解大脑是如何处理语义信息的,这不仅能够提高我们对大脑编码机制的认识,还能为脑机接口中语义解码等一系列任务的设计和性能提升带来帮助。 在众多脑影像技术中,脑电图(Electroencephalogram,简称EEG)因其无创性、非侵入性、高时间分辨率以及低成本等优势,已成为脑机接口、语义解码等任务的热门技术,展现出广泛的应用潜力。目前,以外文自然语言为刺激的EEG数据集已相对完善。然而,面向大规模中文语料的脑电数据集构建仍然是一个空白领域,这一状况严重制约了中文语境下大脑语言表征机制的研究,同时也限制了基于中文语境的BCI技术的准确性。 因此,我们设计了一套针对中文阅读任务的实验方案,并基于这一方案构建了一个基于中文语料刺激的高通道EEG数据集ChineseEEG。图1展示了该数据集的实验范式和所收集的数据模态。在数据采集过程中,被试在静默状态下跟随屏幕上的高亮指示阅读中文读物《小王子》和《狼王梦》。该数据集收集了10名被试在中文阅读任务刺激下产生的高通道EEG数据和同步眼动数据,其中每位被试的数据记录时间长达12小时。除了长时间的EEG记录和眼动数据,我们还为该数据集提供了详细的EEG预处理方案(如图2所示),并提供了多个版本的预处理数据以供研究者使用。此外,该数据集还提供了使用预训练语言大模型提取的阅读刺激材料的语义嵌入,极大地便利了神经科学和自然语言处理领域的学者。该数据集已严格遵循脑影像数据存储规范BIDS格式进行了整合。其详细的结构如图3所示。 图1 实验设备,实验范式和相关数据模态 图2 数据预处理流程 ChineseEEG数据集为神经科学、自然语言处理和语言学领域的研究提供了重要支持。这一数据集不仅可作为中文语义解码等技术任务的基准,推动脑机接口技术的发展,还可促进科学问题的讨论,帮助研究者深入了解大脑在中文语境下如何处理和编码语义信息。此外,ChineseEEG数据集中提供的多模态和多版本预处理数据及衍生数据,将推动神经科学、自然语言处理与语言学等相关领域研究方法的融合,为跨学科研究提供宝贵的资源。例如,研究者可以利用这些数据探索如何有效地对齐大型语言模型与人类认知过程。最后,该项目所提供的任务范式、相关材料和开源代码,也为同行研究者进一步探索这一领域提供了参考。 图3 数据集结构 本研究获得天桥脑科学研究院(TCCI)MindD计划,澳门科学技术发展基金(FDCT),广东省自然科学基金,深港澳科技计划项目,澳门大学SRG资助的支持。 本研究通讯作者为南方科技大学生物医学工程系刘泉影助理教授和澳门大学认知与脑科学中心伍海燕助理教授。共同第一作者为南方科技大学生物医学工程系2021级本科生牟新语,澳门大学硕士生何翠琳和谭力维。牟新语同学目前在刘泉影教授领导的NCC Lab参与基于脑电信号的预训练大模型构建和语义解码数据集构建等科研项目,未来将在脑科学与人工智能的交叉领域继续深入研究! 此外,刘泉影老师指导的神经计算与控制实验室(NCC lab)本科生积极参与科研,研究成果丰富。其课题组本科生以第一作者身份在CCIE会议(夏中烨,22级本科生)、NeurIPS会议(黄日涵,20级本科生)、IEEE Transactions on Cognitive and Developmental Systems(尹沫文,19级本科生)等会议和杂志发表成果。欢迎本科生们加入生物医学工程系刘泉影课题组NCC lab。 引用: Mou. X.#, He. C. #, Tan. L. #, Yu. J., Liang. H., Zhang. J., Tian. Y., Yang. Y., Xu. T., Wang. Q., Cao. M., Chen Z., Hu C., Wang. X., Liu. Q. *, & Wu. H. * (2024). ChineseEEG: A Chinese Linguistic Corpora EEG Dataset for Semantic Alignment and Neural Decoding. Biorxiv. https://doi.org/10.1101/2024.02.08.579481 #:共同第一作者 *:共同通讯作者