从资源创新转化走向数智出版未来:出版语料库价值与构建路径
[摘 要] 在人工智能高速发展的当下,为出版业谋求一条可行的数智化发展道路是业界和学界共同关注的焦点议题之一。基于出版业的功能定位和在信息结构化时代下的技术与实践积累,建设出版语料库是一条既能为人工智能发展助力,又能促使新时代出版业加速融入数智未来的可行路径。以出版语料库建设为抓手,须深化现有资源的结构化整合、建立广泛的产教联盟、加快推进出版业的知识生产与传播模式优化,以推动并确保出版业面向数智未来的转型升级与长远发展。
[关键词] 出版业高质量发展 语料库建设 大模型 数智出版
自大语言模型(Large Language Models, LLMs)问世以来,其超乎预期的智能性和广泛的应用前景引发各行各业翘首关注,国产大模型DeepSeek更以其推理创作的高性能、训练使用的低成本和场景应用强大的灵活性等优势引发新一轮大模型应用热潮。在新的人工智能范式下,大模型在冲击出版业传统生态链的同时也大大提升了文本作为一种资源的战略价值,为出版业的未来发展铺设出一条机遇与挑战并存的数智未来之路,而建设高质量的特色语料库则是通往这条道路的举足轻重的敲门砖。
本文从出版业与人类信息史的特殊关系切入,提出出版业依托核心内容资源建设高质量语料库的必要性和必然性。在此基础上,梳理出版业面对数智化转型这一历史性转折点作出的实践探索,阐明出版业长期积累的核心竞争力及其存在的问题,并尝试提出解决方案和发展构想。
一、出版语料库的指向:人工智能时代的文本与出版业
出版业如何加速迈入人工智能时代、融入数智未来是现阶段各方关注的焦点。同时也要清醒地认识到,这必须是基于出版业自身的功能定位甚至是每个出版企业的特色内容资源,而非一哄而上的盲目跟风。基于此,首先有必要厘清出版业在人工智能时代应当扮演什么样的角色,正是出版业在人类知识信息传播史中的基础性地位和关键角色决定了人工智能时代出版企业积极参与语料库建设的必要性和必然性。
1.出版语料库建设的必要性:出版业在人类知识信息传播史中的功能定位
大语言模型是具有数十亿到数万亿个参数的深度神经网络,经过语料库预训练,具有超强的语言处理和信息整合功能。不仅如此,除了自带的强大功能外,它还可以通过微调(fine-turning)的方式适应不同任务需求,即在微调语料库训练后可以辅助不同特定任务进行信息的处理、整合和输出。[1]这为人类在信息整合与解放注意力上的恒久努力带来了新的可能。
互联网时代并不是人类经历的第一次信息过载。早在16世纪,印刷术带来书籍源源不断的出版也曾令一些学者感到震惊,夸美纽斯用“数量庞大的书籍”(granditas librorum)来形容,当时甚至有人认为大规模出版不是书籍的整理,而是“书籍的混乱”[2]。这源于对信息爆炸和知识过剩的恐慌。学者们于是着手对信息知识进行分类和整理,这直接促成了编目乃至图书分类法的诞生。管理过剩知识、促进注意力和记忆力的解放与有效利用是人类知识生产与传播史上的不朽命题。安·布莱尔在《工具书的诞生》中详细描绘了这一点,同时提出了编录和“记忆”的重要性。[3]在一次又一次对信息和知识的整合传播中,出版业逐渐拥有了作为“把关人”和大量信息与知识资源所有者的特定身份与角色。
那么出版业为什么能和这样的历史性角色互相捆绑呢?为了解释这个问题,必须重新审视出版的客体——文本。在一众文本研究学者中,麦肯锡提出了革命性的文本社会学理论,旨在关注文本形成的整个过程。“他说的文本,是指所有形态的文本,耳朵听到的、眼睛看到的、嘴里说的,甚至数数本身,都是文本……至于他强调社会学,则意在提醒学者关注社会现实、制度、人的动机以及人际互动在文本生产、传播和使用中扮演的角色。”[4]自麦氏以降的文本理论发展中,可以看出出版史学和阅读史学的学者们愈发认同文本作为一个动态系统的观点。正如亚德里安·范德·威尔所言:“从更长远的角度来看,文本交流的历史可以用一种相对直接的方式分为两个方面。首先,这是一部技术史……其次,技术革新不仅带来了新的书写和复制方式,而且带来了分享人类智力成果的新可能性。”[5]
由此可见,文本是一条纽带。从文本社会学的视角来看,出版业拥有以文本为中心的大量社会资源——不仅包括版权内容本身,还包括与之相关的社会精神文化活动、读者群体以及这些资源背后的社会关系和知识生产体系。正是基于这一整套体系,出版业得以对知识信息生产和传播乃至人类社会的发展与进步产生广泛而深远的影响。这种以文本为核心参与信息技术革新和社会发展进步的道路奠定了出版业的专业性和历史地位:并非是拥有“把关人”的身份和对应的资源就能天然地主导知识信息的发展与演变趋势,而是出版业在纷繁复杂的人类社会变迁中顺势而为,并抓住了因应技术革新与历史发展不断重构文本生态这一宝贵的机会才取得了如今的成就。这种动态关系在当下的人工智能时代又在重新上演,只不过知识从以文献文本为代表的形式进入了新的数智化发展阶段。
或可言,大语言模型和下一阶段的通用人工智能(Artificial General Intelligence,AGI)是一种面向愈发精细化、专业化的知识信息分类和深度交织碰撞的信息流的解决策略,目的是更好地支持用户调取并整合现有的人类文明成果,在各种场景下实现问题导向的智能化自主学习,提高个体学习效率和信息资源利用率,降低各领域工作任务的完成门槛,进一步解放人类的注意力和记忆力。而促使大语言模型达到这种功能的底层逻辑就是对于文本的转化与利用,它的媒介就是高质量的语料库。
受到以人工智能为代表的新技术持续迭代演进的影响,文本形式与功能的嬗变将推动人类知识生产和传播体系的重构,知识的组织和管理方式经由大模型赋能将向着更加精细、精准、高效和自动化的方向发展。因此,以文本生产和传播为核心的出版业必须投身其中,并探索出一条具有行业特色的数智化之路。
2.出版语料库建设的必然性:数智时代的知识体系变迁
由文本转化而成的语料是大模型训练的“原料”。语料库(corpus)最初是一个语言学概念,是用以整合自然语言以反映语言学变化的集合。[6]在计算机科学与语言学交叉融合之下,计算机化的语料库可以为自然语言处理(Natural Language Processing)、语言模型构建等广泛研究领域提供支撑。[7]以表格、数据库或其他类似的形式存在的结构化数据具有高度可读性,是最早受到关注的语料库对象,也由此产生了在医疗、物流、金融等领域的一系列应用。
相较于大语言模型训练的语料需求而言,当前结构化数据的来源和用途终究是有限的。与结构化数据相比,非结构化数据涉及的知识更加生动广泛,能够支撑完成更加复杂的工作任务。因此如何开发利用海量的非结构化数据变得越来越重要,这也是建设高质量语料库的紧迫性所在。
开发利用非结构化数据首先要对其进行清洗、标注和存储,将其转化为结构化数据。这一过程不仅要重构文本形式,还要重塑内容的过滤与筛选机制,小到如何分词、大到如何组织知识图谱都是以一种新的方式对文本进行编校和过滤的过程。经过这一处理后,结构化文本不仅可以服务于人类用户的阅读与使用,还有利于机器学习,将原本的“内容—人”的知识流向转变成了“内容—语料库—人”的新流向。可以说,语料库代表了一种适应数智时代的知识新形态,既能服务于人类用户的知识获取,又能服务于数智应用的优化与提升。
当然,转化和利用海量非结构化数据不可能一蹴而就。伴随着越来越多用户在互联网上的深度参与,收集和使用非结构化数据通常既存在技术难度又涉及伦理安全问题。除PGC内容之外,发布于各网络平台的文本大多为UGC内容,或往往未经专业编校,可能存在版权归属不清、含有偏见、泄露个人隐私和传播虚假信息等问题。根据麻省理工学院发布的一项研究,现有数据集当中存在大量标注噪声,即许多现有训练数据被错误标注了。[8]这些存在噪声或者不安全的数据被机器深度学习,就会导致模型幻觉和其他使用问题。学者安德鲁·阿伯特指出:“计算机并不擅长于想象,它们的力量在眼前,甚至也可以说在行动力,它主要依靠蛮力技术,而不是想象力。计算机也不善于具有人类思维特征的联想式知识,它们没有在思维中运用情感。”[9]这意味着如果用于大模型训练的语料库的安全性得不到基本保证,就无法建立良好的“人—机”信任关系。
出版业拥有大量优质的内容资源。语料库建设不仅是人工智能时代出版业应对知识体系变革应该抓住的一个重大发展机遇,更重要的是,在模型幻觉以及其他技术问题引发乱象、造成技术焦虑和信任危机的当下,出版业长期以来积累的版权运作、文本审校、内容资源开发等方面的相关经验可以为未来的人工智能发展提供准绳,更好地促进大众用户和技术的互信。因此,出版企业依托特色内容资源积极入局语料库建设这一数智基础工程,既能为大模型训练提供优质、安全、版权归属明确的高质量语料,又能探索出版业特色数据资源的商业化路径,还能更好地承担起新技术条件下的出版使命与责任,在更开阔的视野下探索社会效益与经济效益的更多可能,推动数智时代的个人成长和社会进步。
二、出版业的转向:信息结构化语境下的数智出版
一直以来,出版业尤其是领先企业对知识组织范式和知识形态革新的变化比较敏感,因为这直接关涉到出版业的生存根基,其数字化到数智化的战略布局实际上更早于大语言模型的诞生。大体来看,目前出版业的数智化布局可以划分为建设重点实验室和优质数据库,践行并积极推广新型融合出版模式以及规模性跨界合作三类。这三类数智化布局的共性是着眼于出版业的行业特点和内生问题,在处理行业与技术的关系时具有参照意义,并呈现出规模化、标准化、智能化的发展趋势,因此在一定程度上可以作为未来出版企业数智化转型发展的风向标。
1.数智应用探索:重点实验室和集成数据库
为促进行业跟踪应用关键技术,应对愈发复杂的技术变局,我国较早成立了一批出版类科技与标准重点实验室,并且已经产出了一批高质量的成果。例如,高等教育出版社组建的“智能+教育融合出版创新与应用实验室”聚焦智能教育出版,研发虚拟仿真教学平台并推进大模型应用;北京大学新闻出版智能媒体技术重点实验室攻关媒体技术,在版面理解与文本生成领域取得突破;华东师范大学出版社实验室构建智慧教育云平台,获评出版融合示范单位;古联公司深耕古籍数字化,建成11亿字资源库并优化OCR技术;等等。目前已有多个项目入选出版业科技与标准创新示范项目。
以上成果一部分已经在出版行业充分落地,一部分仍有待深耕。总体来看,这些重点实验室的产出成果融合多种先进技术,现阶段以服务出版业的B端需求为主,辅助行业进行版权开发、版权保护和数字作品流通。一方面,这些成果覆盖了教育、学术、古籍等多个以非结构化文本资源为主体的细分领域,使这些优质内容资源能够被充分转化为在新技术条件下可以充分流通的数智资源;另一方面,实验室重点建设的平台能够有效降低出版企业的转型门槛,也为业内资源交换、达成合作提供了更多可能。
除了实验室产出以外,近年来出版业尤其是头部企业高度关注数据要素的流通和商业化发展。随着数字化转型的持续深化,数据资产的存有比例持续增加,数据的资产化已成为数字经济时代不可逆转的趋势。[10]要活化现有资源,数据要素的有序流通是基础要件,因此充分认识到文本数据作为资产的重要性和开发潜力对出版企业尤为重要。
在资源转化和利用方面,尤为值得关注的就是雨后春笋般涌现的数据库产品。相较于分类粗放、检索不便、后台维护不稳定的传统数据库,近年来出版业充分兼顾To B、To C的差异化需求,推出的数据库产品更加专业化,相关标准愈加完善,也提高了门户网站的使用便捷度,对用户更加友好。
目前,国内已经有多家出版机构依托专业领域优势开发了特色数据库产品,如人民出版社推出的“中国共产党思想理论资源数据库”,中华书局建设的古籍类数据库集群,中国人民大学出版社打造的中国问题研究文献、思想文化名家等学术资源库,中国大百科全书出版社聚焦工具书数字化建成的百科全书系列数据库,社会科学文献出版社开发皮书、国别研究及“一带一路”专题数据库,科学出版社构建科学智库、生物志库等科技知识平台,等等。这些创新实践覆盖党政读物、古籍、学术出版、工具书等领域,展现了出版业数字化转型的多元化探索。[11]
从数据库实践案例可以看出,一批传统出版企业正在积极推进现有优质纸质内容资源向着可以商业化利用的数据资源转化。现阶段的数据库产品已经覆盖到主题出版、教育出版、学术出版、大众出版等多个领域,在历史、法律、医学等学科中均有建树。最重要的是,这些优质数据资源既经过专业编辑的校对和审核,有权威性、准确性和专业性保障,同时分类清晰明确且不涉及版权纠纷,能很好地适应人工智能时代的文本语料需求。
2.学术出版前沿:信息结构化语境下的开放获取与语义出版
虽然传统的内容输出模式依然发挥基础性作用,但是出版业早已开始探索更加适应新技术条件的出版模式。这些新型出版模式大多应用于国际前沿的学术出版领域,在其他细分市场仍然是萌芽状态。但我们不能忽略这些前沿实践探索的价值,因为新型出版模式显示出的优势和问题与出版业的未来发展密切相关。
在学术出版领域,开放获取(Open Access,OA)值得更多关注。随着21世纪初开放科学(Open Science)运动的兴起,以“奉献、互济、自由、分享”为理念的开放获取成为一种主流趋势,OA出版模式克服了传统出版机制中存在的授权壁垒与价格阻滞,[12]依托网络平台形成了一套半开放式的知识生产与传播机制,使得学术成果能够快速积累和流通,提升了科学研究的公共利用程度。但也有学者指出OA模式滋生了以牺牲学术为代价优先考虑自身利益的“掠夺性期刊”,有待就其标准和甄别方法达成共识。[13]随着OA出版的规模化,一批信息开放存取仓库(Open Access Repository)也随之建立,各领域的前沿信息在网络平台上得以形成结构化的知识集群,为用户提供更加便捷和全面的知识服务,科学信息的交流和传播更加高效。OA模式一方面促进了知识在网络上的自由流通,增强了内容资源的可获取和可操作性;另一方面也为新技术条件下科研成果的精细化开发打下了坚实的基础。
语义出版是对现有科研资源精细化开发的代表性趋势。它能够顺利运行的前提是通过Web语言XML(Extensible Markup Language,可扩展标识语言)做好现有成果的“前结构化”转化以及进行以学科为核心的刊群分类与维护。以爱思唯尔的语义出版实践为例,该公司推出的全医学平台“临床精钥”(Clinical Key)依托EMMeT对现有资源进行标引和细分,EMMeT使得“临床精钥” 能够理解庞大的医学概念之间的逻辑关系并找到最相关的内容,通过把这些关系按照等级进行整理,确保平台能够为用户的检索请求提供具体且有针对性的答案,并且还可以发现其他传统搜索引擎可能忽略的内容。[14]从本质上来说,语义出版建立在开放获取的基础上,将大量资源整理输出为可以被高效利用的内容产品。它将本体论(Ontology)的概念与传统出版业的知识生产范式融合起来,先对内容进行语义化处理,即将文本内容转换为机器可读的语义数据,包括数据标注、实体识别和关系提取;然后应用本体论实现对数据的复杂查询和分析,以促进知识发现和利用,乃至达到构建知识图谱和知识库的目的,[15]在知识生产和传播的基础流程上增加了对知识的处理和细分。语义出版与大语言模型具有相似性,其智能性是传统出版模式所不能比拟的,这来自于对语义技术和NLP技术有规划地使用,它不仅能够基于对现有资源的重新分类和组合为用户提供优质内容,还能支撑复杂分析并提供决策参考,真正打破出版方与读者之间的壁垒,形成知识全流程的融会贯通。
当然,基于技术转化的难度和对学科知识重新整合分类的复杂程度,目前仅有少数国际学术出版商推行相关模式的落实应用。但是仍然可以看出,新的出版模式不论是从理念上还是从实践操作上都非常符合数智时代的发展趋势,其底层逻辑和大语言模型异曲同工。不过,这些新模式同时也暴露出对作者权益保障不足、编审流程混乱以及标准体系不统一等问题,这些问题仍然有待未来解决。
3.数智出版新动向:规模性授权合作
出版业应对人工智能时代冲击的另外一个重要策略就是与科技公司达成规模性的授权合作,为科技公司提供API(Application Programming Interface,应用程序编程接口),将版权内容提供给AI科技公司进行模型训练。从国际上来看,首先是Open AI与美联社等美国新闻机构达成合作,获得其新闻存档的授权,随后,知名学术出版商斯普林格也与其达成了相关合作。[16]就国内来看,人民交通出版社、上海辞书出版社、四川人民出版社、国家图书馆等出版、文化机构先后接入百度文心一言,深圳出版集团、江苏凤凰出版传媒集团、中信出版集团等出版单位也逐步接入DeepSeek系统,以加快企业智能化转型进程。
这种规模性授权合作大大缓解了出版企业因为技术冲击所带来的产业转型压力,并且将在短期可见的未来为企业带来不错的商业收益。同时,这些规模性授权合作也为技术公司提供了急需的优质资源库,并且规避了潜在的诉讼风险。这种规模性授权合作在短期内将形成一个双赢局面,为双方赢得进行下一步规划和布局的时间与空间,将社会普遍关注的版权纠纷和安全风险等问题维持在可控范围内。
但是就长期而言,规模性授权合作目前仍需面对大模型训练所带来的一系列不可控风险:一方面,深度学习模型的内部工作机制复杂,涉及大量的参数和层级结构,目前仍处于可解释度较低的状态,难以追踪每一个数据片段在其中发挥的作用,也就无法与作者达成协商。另一方面,出版企业将内容直接授权给科技公司的同时也让渡了一部分对内容的处理和精细化加工的权利。一般来说科技公司会使用自动化的标注系统对内容进行标注,或者将这一部分工作外包给第三方公司完成;但无论是哪种形式,出版业长期以来对内容专业化的分类和筛选机制都无法继续发挥作用。因此就长期发展来看,这种合作方式有其不足之处,有待各方继续探索并进一步达成共识。
三、走向数智出版未来:出版语料库建设的问题挑战与路径构想
目前来看,出版业应对数智时代的种种实践探索虽然尚未形成成形的高质量语料库,但这些动向都指向培育建设高质量语料库并为大模型创新发展提供优质训练资源、融入未来人类知识生产和传播新范式的发展道路。其困境在于现阶段这些实践探索尚处初级阶段、松散状态,难以汇集成阶段性发展成果。这就需要深入剖析当前出版语料库建设面临的问题挑战,并结合行业实际情况探讨路径策略,为出版业在数智时代的高质量发展提供参考。
1.出版语料库建设面临的挑战
从出版业应对技术革新的种种实践动向中可以总结出三个事实:一是出版业在面对新技术冲击时早已有所准备,无论是在加速优质内容数字化转化、变革现有出版流程和组织构架,还是在积极与技术方达成合作等方面,国内外出版业都有所布局,并且在过去一段时间内已经取得了一定成就。就产业实践而言,出版业总体的技术和资源积累并没有落后于技术发展。二是为应对知识和信息结构化发展的时代转型趋势,出版业已经积极引入了语义技术与NLP技术,这些技术的应用促进了原有内容资源的创新性转化,并且已经呈现出语料库的发展雏形。三是这些技术融合实践和出版组织构架改革大多集中在科技成果出版、知识服务和其他专业出版领域,现阶段主要由欧美顶尖国际学术出版商、国内领先教育出版企业和专业出版企业把握,大众出版以及其他出版领域相对滞后。
由此可见,无论是出版业自数字化转型以来的资源积累还是与前沿技术融合的开创性尝试,都指向了建设语料库、集成知识群从而影响未来知识生产与传播机制的发展道路。毋庸置疑,出版业有能力提供高质量的内容,但这并不等同于高质量的数据,更不一定是能保障行业未来发展话语权的语料库,因为数据质量高低不仅取决于内容本身,更重要的是与数据相匹配的系列标准。建设高质量语料库所面临的困境很大程度上来自于现存标准繁杂且不公开透明导致的语料库数据质量良莠不齐、评估系统落后于技术需求以及相关研究的匮乏等。[17]语料库是数据、标准、技术和商业模式融为一体、缺一不可的复合体,任何一个环节的缺漏都会影响最终成果的质量和效果,而出版业现阶段的技术实践虽然各方面都有所涉猎,但在促进语料库培育建设方面尚没有形成一套完整的机制和体系。
因此,当前出版语料库建设所面临的最大挑战并非技术难题,也并非资源难题,而是行业共识与语料库建设标准的问题。一方面,整个出版行业还没有就如何面对并进一步融入数智新技术时代达成一个较为统一的共识,尚没有形成一股行业合力,这导致前沿成果未能得到很好的普及和转化,相关标准也自然无法统一和公开。现阶段,除了一些具有前瞻性的出版文化机构外,大部分出版企业依然在探索与技术的相处方式,一些出版企业在生成式人工智能高产能带来的压力下强行将人工智能技术引入原本的出版流程,用以加速原本的内容生产过程,这种方式虽然能够提高产能,但却不能优化内容生产流程,反而忽略了版权风险和生成内容的质量问题,加大了员工压力,甚至可能导致人才流失和企业信誉危机。而重点实验室所推出的优质成果往往是以牵头单位为核心进行推广,除了小部分平台以外,大多普及程度不高,各牵头单位产出的成果之间有时甚至存在重复建设的情况,导致资源浪费。在前沿成果无法落地企业,行业内部没有达成充分共识并形成必要合作机制的情况下,即使出版业有良好的内容资源和技术基础积累,短时间内也难以形成合力,实现更高效率的可持续发展。
另一方面,目前大部分出版企业并没有积极主动地参与到更宏观意义上的技术变革实践进程当中,尤其是在促进人工智能技术本土化和专业化发展方面。语料库在世界范围内的发展极度不均,英语语料库的质量和完成度远高于其他语言,这也直接导致了基于人工智能技术应用的大语言模型的发展不平衡问题。高质量中文语料库的建设意义重大且影响深远,是利国利民的基础性工程,但还有很长的路要走。当前,中文语料库存在先天不足:一方面,在上世纪末的数字化浪潮中,中文领域对数字化的重视和投入不足,初期的数字化信息质量也参差不齐,欠缺再利用的价值;另一方面,网络信息存储和数据化建设尚难与技术发展相同步、相匹配。此外,迄今引进的部分数据库,带着固有的价值观烙印。[18]因此,建设高质量的中文语料库与促进先进技术本土化息息相关。目前中文大语言模型用以训练的通用语料库主要有北京智源人工智能研究院构建的“悟道”项目开放数据集(WuDaoCorpora)、大规模中文自然语言处理语料(NLPChineseCorpus)、清华大学提供的清华大学NLP实验室开放数据集、书生·万卷多模态语料库等,这些语料库的数据来源以百度百科、维基百科、可获取的新闻、法律判决书和公开的教育资源为主,现阶段各专业语料库也大多是科研人员通过相关资料网站整理而成。虽然出版业凭借长期以来积累的优质内容资源在语料库建设上大有可为,但因为目前行业的前沿实践大多普及度不高、太过零散、标准不统一等问题,还远远没有发挥应有的作用;出版业也还未能以更积极主动的姿态参与到当下的语料库标准制定当中。
因此,要推进出版行业现有的数智化实践和成果向着形成规模化效益、集成高质量语料库、促进先进技术本土化和专业化发展的方向进行转化,就必须要找到应对这些挑战和困境的方法,寻找到出版业融入数智新技术时代的路径策略。
2.出版语料库建设的路径构想
在应对新技术的变革浪潮时,出版业能发挥的作用远比想象中要更重要。[19]在明确出版语料库建设现状和问题之后,本文认为,包括出版业在内的多方力量应协同推进高质量语料库建设,推动出版业以更积极主动的姿态投入到高质量语料库建设中去,促进出版业现有成果加速落地转化,并承担起前沿技术在出版行业落地发展的历史性重任。
首先,加强顶层设计,建立广泛的政产学研用联盟,充分整合、梳理、集成现有资源。基于人工智能时代的复杂背景,建立广泛的全新的行业联盟、形成资源共享的行业共识,是建立健全相关标准、促进行业内的数据要素有序流通、打通从文本内容到数据深度标注的全流程的基础条件。大语言模型训练所需要的数据量是巨大的,并且相关标准和体系都非常复杂,这就意味着某一个或某一领域内的出版企业无法凭借自身资源和能力影响通用大语言模型语料库的未来发展方向,只有集整个出版业之合力才能达成这一目标。除此之外,高质量出版语料库不仅要确保收集的数据质量高,还要确保格式统一、分词和标注标准一致,这对于后续的处理和分析至关重要。现存的《CY/T 90—2013 出版元数据》《GB/T 42813-2023 数据论文出版元数据》等相关标准为出版业提供了数字合作的基础标准,但元数据管理标准尚没有覆盖到出版数智化转型的所有需求。工欲善其事,必先利其器。建立广泛的行业联盟并在这些既有标准的基础上进一步细化和跨领域整合形成出版语料库建设的一系列标准,是目前推进出版业数智化转型亟须落实的基础性工程。
其次,出版业应当持续推动出版内容资源继续向着高度结构化的语料库方向发展,以适配更广阔的应用前景。结构化是数智时代数据广泛适用的基础,而基于高度结构化数据资源的各项出版实践也应该被推广和传播。除了鼓励更多出版企业积极投入到基于新技术逻辑的出版实践以外,也应当继续推进既有的优质内容资源朝着高度结构化数据的语料库方向发展,以数据资产的形式在更大的范围内发挥影响,产生更大的社会效益和商用价值。在高质量出版语料库建设的过程中,我们需要学习国际先进经验,做好本土化设计,扩展现有本体库,集成更多领域的专业知识,加强不同语料库之间的链接和互操作性。
再次,出版业还应当积极参与到通用或专业语料库标注、分词的标准优化和伦理审核中去。出版业在长期发展中所积累的关于内容生产与审核的经验是其他内容产业尤其是互联网时代的新兴内容产业所不具备的,出版业现有的文本审核能力和规范标准能够很好地处理隐私问题、版权追溯、道德伦理等一系列文本中潜在的风险,并且出版业的元数据管理较为便捷,也能很好地满足语料的溯源和查询需求。目前最重要的问题是这些行之有效的行业标准没有转化为可以被数智技术利用的标准和参照。一旦出版业能够将这些标准转化迁移进人工智能发展之路,将极大地推动技术与社会之间建立起一种互信、融合的良好关系。出版业在探索与技术方的合作关系时,应当更加注重在这方面的参与,进而充分发挥自身优势,促进安全、可靠、高质量语料库的培育与形成。
最后,出版业还应在保障产业生态链正常运行的基础上优化跨界合作策略。规模性授权合作的本质就是将现有内容资源转化为可供大语言模型训练和用户直接使用的智能数据资源,不过目前这还只是一种由技术方主动推进,而出版业被动参与的欠平等的合作方式,这也是引发业内普遍担忧的根本原因。与技术方合作是必然的,但是如何在确保自身权益的基础上进行合作却是出版业必须考量的议题。在未来的跨界合作中,出版业应当优先考虑业内生态链的正常运行,在保障主动权的基础上展开深度合作,对内容流向和数据处理方式密切关注,提高数智内容建设研发的参与度和主动性。
四、结语
建设高质量语料库是出版业走向人工智能时代的必由之路,也是将现有优质资源与前沿技术整合的一条有效路径。出版业需要谨慎规划,使其既能内化于出版业自身的数智化转型布局,又能在社会文化体系中产生广泛且深远的影响。当然,融入人工智能时代是一项大工程,构建语料库也非易事,种种现实问题如前期投资问题和商业模式开发问题等仍需要后续研究和实践来逐一落实解决。
面对人工智能时代的技术浪潮,出版业乃至整个以内容资源为核心的文化产业立身之本和社会价值在何处,出版业又应当如何在新技术赋能下作出行业选择,都需要从实践中找到答案。本文提出的种种设想仍然未臻成熟,但上述讨论旨在提供一种技术融合而非技术颠覆的内容产业发展思路,借此剖析新技术浪潮下行业选择在行业发展中的重要意义,以期为产业实践和学术探讨提供一种新的思路。
[作者单位:华东师范大学上海出版研究院、传播学院(出版学院)]
*本文系国家社科基金重大项目“全媒体传播体系下出版深度融合发展研究”(23&ZD219)的阶段性成果
参考文献:略
来源:《中国出版》
编辑:谭诗蕊
审核:刘泽林