
近日,由清华大学数字东谈主文团队历经数年研发的“典津:环球汉籍影像绽放集成系统”安靖上线发布。该公益性平台团员了环球数百个数据库逾70万条汉文古籍数字资源元数据,为学界提供次序融合、绽放赢得的古籍数字影像资源“一站式”集成奇迹。

“典津”系统界面
{jz:field.toptypename/}频年来,跟着数字化时候的升迁,环球宽敞藏书楼、博物馆及学术机构干预巨鼎力量,将馆藏稀有古籍进行数字化扫描,酿成了海量的古籍影像资源。有关词,这些资源漫衍在数百个不同的数据库平台,著录次序霄壤之别,检索接口分手,拜谒政策不一。一位究诘者若念念穷尽赢得某一文籍的数字化版块,频频需要曲折多个网站之间,反复检索、比对、纪录,不仅耗时坚苦,且容易产生遗漏。“‘典津’不仅破解了始终困扰中国东谈主文体界的‘资源孤岛’艰巨,更构建起一座贯串传统文件学与前沿数字智能时候的桥梁,为学界进一步活化旁边中华优秀传统文化遗产提供了坚实而方便的基础设施。”表情负责东谈主、清华大学东谈主文体院教训李飞跃如是说。
2023年10月,典津系统发布初代版块,月拜谒量逾70万东谈主次,访客普遍环球150多个国度和地区。这次“典津”系统升级,最中枢的冲破在于将东谈主工智能深度融入数据处理的每一个设施,构建了一个全过程AI大模子脱手的智能团员框架。濒临开头交集、阵势不一、质地散乱的海量原始元数据,团队改造性地遐想了由“原始数据层、次序数据层、干总共据层、应用数据层”构成的四层架构,每一层王人由特定的AI智能体集群负责,酿成了一条团员中国古典常识的“智能活水线”。往时需要数月手工窥伺才能拼凑摸清的资源漫衍情况,刻下几分钟内即可一望无际。学者不错嘱托比对褪色文籍在环球储藏的不同版块影像,从纸张、墨色、钤记、批校等细节进行云尔“目验”,为版块松弛、文本校勘提供前所未有的便利,弥补了无法亲原谅书的缺憾。由于提供了绽放、生动的API接口和子集建库功能,该系统扫尾了从“数据践诺平台”向“常识出产平台”的进化,成为一个漏洞的上游“数据口岸”。
清华大学数字东谈主文团队负责东谈主、东谈主文体院院长刘石曾建议构建“中国古典常识库”的倡议,旨在以存世古籍文件为基础,冲破其原有物理和文本结构,构建富含实体、属性与干系的庞杂常识收罗,扫尾古典常识的深度组织与智能照顾。“本次典津系统的升级发布,恰是迈向这一宏伟料到打算的关节一步。它处置了海量底层数字资源的智能团员、次序化与有关化问题,为表层常识抽取、语义有关奠定了坚实的数据基础。”刘石说。
(光明日报全媒体记者杜羽 通信员曲一迪、韩玉凤)