查看原文
其他

好文荐读|李宇明、梁京涛:语言数据的生产要素功能与产权制度构建

李宇明、梁京涛 语言学心得
2024-09-03

好文荐读(第100期)语言数据的生产要素功能与产权制度构建

好文荐读不定期更新,为大家带来最新的核心期刊亮眼论文,希望大家多多支持,也欢迎给我们留言推荐更多值得一荐的好文哦~




语言数据的生产要素功能与产权制度构建
李宇明1 ,梁京涛2

1. 北京语言大学语言科学院

2. 河北中医药大学人文管理系

   

文章简介

文章来源:李宇明,梁京涛.语言数据的生产要素功能与产权制度构建[J].语言教学与研究,2024(02):1-11.


摘要:数字经济时代,数据已成为国民经济的重要生产要素之一。作为数据重要组成部分的语言数据,它的生产要素功能需要重视,需要认识。语言数据的生产要素功能在于参与经济活动。生产环节是经济活动的基础。语言数据参与生产的形式主要有四:生成性参与;加工性参与;测试性参与;应用性参与。在具体经济实践中,为满足不同场景化需求,各种参与生产形式以不同方式进行链条式组合,形成简单、复杂和循环三种参与链。生产要素要充分发挥作用,需要进入市场流通,而明晰的产权是生产要素有序流通、发挥作用的制度保障。可以从分配机制统一、产品性质和权责统一的角度,聚焦产权制度,探索语言数据的治理路径。 

关键词:语言数据;生产要素;产权制度;治理路径基金项目: 本研究得到国家社会科学基金“中国学前儿童语料库建设及运作研究” (19AYY010) 、国家社会科学基金“新时代中国特色语言学基本理论问题研究” (19VXK06)、国家社会科学基金“‘两个一百年’背景下的语言国情调查与语言规划研究” (21&ZD289) 和全国科技名词委科研项目“术语数据生产要素功能研究”(YB202016)的支持。

感谢《语言教学与研究》授权推广,全文下载请点击文末“阅读原文”。


一.引言

2016年,二十国集团杭州峰会将数字经济定义为“以使用数字化的知识和信息作为关键生产要素、以现代信息网络为重要载体、以信息通信技术的有效使用作为效率提升和经济结构优化的重要推动力的一系列经济活动” (孙毅2021:6)。数据是数字化知识和信息挖掘的原料。2017年,习近平总书记在中共中央政治局就实施国家大数据战略进行第二次集体学习时提出“要构建以数据为关键要素的数字经济”,首次提出将数据看作生产要素。数据成为生产要素是数字经济业态的产物。只有以数据作为基础性资源的数字经济,才能将数据的生产要素价值突显出来。 随着数字技术的革新,逐渐形成了全新的数字经济开发模式:基于数据挖掘数字化信息、知识,能够有效提升经济效率、优化产业结构。该模式能够普遍适用于三大产业(第一产业、第二产业和第三产业),因此数据作为基础性、战略性资源的地位日益突出,成为推动三大产业发展的重要生产要素之一。

生产要素需要流通,才能更好地实现其功能,而明晰的产权是生产要素流通的基础性、制度性保障。近几年,地方政府建立大数据中心、数据交易所,促进数据要素流通。 2023年,组建国家数据局,负责协调推进数据基础制度建设。“语言数据是最为重要的数据,也应当属于生产要素范畴。”(李宇明2020a,2020b)“语言数据是以语言符号体系为基础构成的各种数据”,具体包括五类:1.语言学科数据,指语言符号系统本身的数据,如语音、文字等;2.话语数据,是语言交际产生的言语数据;3.语言衍生数据,涉及语言社会属性、生存状态等数据,如语言的地域分布数据;4.人工语言数据,指利用语言文字设计的特殊符号系统及运用它们产生的数据,如手语等;5.语言代码数据,指生活、科技活动使用的代码等数据,如公式、编程语言、表情包等(李宇明、王春辉2022)。作为生产要素的语言数据是政治经济学概念,是近几年中国学者的理论创新,是中国社会科学研究的重要成果之一。

整体来看,语言数据与语言资源两个概念大体相当(李宇明、王春辉2022)。因此,要了解语言数据研究情况就需要提及语言资源。“语言资源概念的提出有40多年的时间。”(李宇明2019b)资源学建立之后,资源的外延由自然资源扩展到社会资源,语言学界也逐渐认识到语言具备资源的性质。在我国,随着语言资源保护工程的开展和相关政策的制定、实施,语言资源开始成为研究热点。学界围绕语言的资源属性、语言资源的外延、语言资源的功能和语言资源的管理等主题逐步展开探索,特别是认识到语言资源的功能主要集中在语言教学、语言保护、语言信息处理等领域。在语言信息化实践中,利用语言资源发展起了汉字输入、语音识别、语音合成、计算机辅助翻译等语言信息处理技术。它们开始以商品的形式投入市场,创造经济价值(李宇明2022)。李宇明(2008,2011,2012)基于语言职业、语言产业的发展,提出了语言资源的经济功能。

语言数据的概念早期主要用在自然语言处理领域。2003年,谷歌工程师奥赫(Franz HosefOch)在展望机器翻译前景时,认为“只要给我足够的语言数据,我就能在几小时内还你一个机器翻译系统”(参见冯志伟2013:798-799)。从知网收录的语言数据相关文献看,截至2022年共使用语言数据48次,集中在自然语言处理、语言教学等领域,涉及语言数据的定义、分类、功能域等话题。李宇明(2020a)提出语言数据是信息时代的生产要素,后论述了语言数据与其他生产要素的关系(李宇明2020b)。《语言战略研究》于2022年第4期设置“语言数据与数字经济”专题,关注语言数据的生产要素问题。作为生产要素的语言数据已经突破自然语言处理、语言科学等领域,进入政治经济学领域。

数字经济要求以语言数据为基础挖掘知识、训练模型,提升经济效率、优化产业结构。由之带来三大问题:1.语言数据的生产要素功能如何认识;2.语言数据作为生产要素如何参与生产环节;3.语言数据的产权如何明晰,以促进其有序流通。本文尝试回答上述三大问题,以求教于方家。



二.语言数据生产要素功能的性质


语言数据是社会生产的基础原料,是生产要素的重要组成部分。经济学理论认为,生产要素是“社会国民经济大生产各种层次范围的生产实体(生产系统)的组成要素”,根据其作用范围、作用层次,生产要素从低到高可分为基本生产要素(“构不成生产行为” “没有生产的产出和产品”)、单元生产要素(“用于企业、公司等最基本的生产实体”)、行业生产要素(“作用于三大产业的子行业”)和部门生产要素(“作用于三大产业”) (参见徐斌、徐寿波 2006)。由于基本生产要素不产出产品,与本研究的关联不大,故本文主要从其他三个层次观察语言数据。语言数据成为生产要素,不仅是单元生产要素、行业生产要素,还是部门生产要素。语言数据参与经济活动的模式,不仅作用于企业、公司和行业,也可作用于三大产业。

数字经济时代,语言数据参与经济活动主要有两大特点:作用域的提升,媒介物的拓展。

2.1 作用域的提升

语言数据作用域从单元生产要素、行业生产要素提升到部门生产要素。 在翻译、语言培训、词典编纂、语言出版、语言艺术、语言创意等领域,语言数据已经作为单元生产要素或行业生产要素发挥作用。例如:出版行业对书稿进行编审、校对,再印刷、发行。语言数据是该行业的劳动对象,是创造经济红利的基础资源,语言数据的角色是行业生产要素。近些年,人们利用语言数据开发的语言模型(如ChatGPT)(饶高琦、胡星雨、易子琳2023),将“发展成为人类的助手”(李宇明2023a)。语言数据在其中的作用就提升为部门生产要素。

语言数据作用域的提升,既有语言数据作用力的客观发展,也有社会认识的发展。过去人们关注语言数据在词典编纂、语言教学、翻译等领域的基础素材作用,语言数据的角色是单元生产要素、行业生产要素。经济学界一直有“劳动是最重要的生产要素”的论述(于刃刚、戴宏伟1999:19),加之语言数据早期参与经济活动时与语言人才不可分离,因而学界不怎么重视语言数据在经济活动中的作用。后来,语言数据在自然语言处理中的作用凸显,但人们主要还是把它当作技术研发的要素。数字经济的出现和发展,数据在经济效率提升、经济结构优化中的作用开始受到关注,语言数据作为部门生产要素的作用也逐渐得到认识。历时来看,人类对语言数据的认识,经历了从研究素材到科技要素再到生产要素的过程;对语言数据的生产要素性质的认识,从单元生产要素、行业生产要素逐渐提升到部门生产要素。

2.2 媒介物的拓展

语言数据媒介物的拓展体现在从口语、书面语拓展到“机用语言”。 传统上,在词典编纂、语言出版、语言创意等领域,语言数据以书面语形式发挥生产要素功能;在翻译、语言培训、语言艺术等领域,语言数据则以口语、书面语两种形式发挥生产要素功能。计算机出现之后,语言信息处理催生了“机用语言”,包括机读语言、机器输出语言等。在语言信息处理产业链中,口语、书面语、机用语言等语言数据都参与经济活动。例如:译员可以借助翻译软件来完成笔译,译文通过机器输出来呈现,计算机辅助翻译过程综合使用了书面语、机用语言等语言数据。

此外,语言数据的生成者与语言数据的加工者会进一步分离,语言数据加工者的分工更细,新的语言职业不断涌现。 例如:在翻译领域,语言数据在发挥生产要素功能时,不能脱离生成者(译员)而独立发挥作用。但在出版领域,编辑、校对以他人的话语数据为劳动对象,语言数据与其生成者分离。编辑、校对这些语言数据的加工者是与译员不同的语言加工人才,形成特定的语言职业。在语言信息处理领域,对语言数据进行采集、清洗、标注、管理、交易全环节处理时,语言数据与其生成者分离,但又与新的语言加工人才结合,产生新的语言职业。不过,随着机器学习、自动处理数据技术的发展,随着各种数字人的出现,语言数据在经济活动中不仅与其生成者分离,也可能与语言加工人才相对脱离,语言数据的加工方式发生重大变化,语言职业也将发生重大变革。

需要注意的是,作为生产要素,语言数据与其他数据有联系也有不同。 语言数据是数据的有机组成部分。自然语言处理让语言数据地位凸显,它因此成为最重要的数据(吴军2016:3)。语言数据和其他数据的作用域,提升为部门生产要素。它们的媒介物从非机用拓展到机用。区别在于:“语言智能是人工智能的核心。在语言智能发展中,汉语言文字的信息化是走在前列的”(李宇明2023b:330、376 )。语言数据是语言智能开发的基石,是人工智能开发的核心科技要素。其他数据发挥生产要素功能时,为了提升计算效率,其媒介物基本是机用数据。例如:百度智能云高频采集、分析机用能源数据、过程数据,为浙江美欣达纺织印染科技有限公司量身定做了智能算法,实现了产业智慧化升级改造,降低能耗逾 10%,年节能额度约百万。语言数据则不同,例如:在语言模型训练和陪同口译领域发挥作用时,语言数据的媒介物分别为机用语言、口语。而且语言数据在陪同口译中不经过计算,就可以实现信息交流。



三. 语言数据生产要素功能的实现路径


立足数据成为生产要素的政策背景,回应数字经济和语言智能的发展需求,应积极探索语言数据生产要素功能的实现路径。 经济学理论认为生产要素的作用在于参与经济活动。经济活动分为生产、流通、消费、分配环节。生产环节是经济活动的基础。王海兰(2022)从数字技术、决策信息与知识、语言职业与语言产业的角度,分析了语言数据参与生产的形式。梁京涛(2022)从参与形式和地位的角度,探索了语言数据参与生产环节的方式。基于上述研究和现实案例,鉴于生产环节的地位,本节将首先探索语言数据参与生产环节的方式,再探索参与方式在经济活动中的组合模式。

3.1 语言数据参与生产环节的方式

语言数据参与生产的形式至少有四种:生成性参与、加工性参与、测试性参与和应用性参与。 四种参与方式体现的是语言数据从生成到加工再到测试、应用的流程环节。生成性参与产出语言数据。加工性参与处理语言数据。测试性参与运用语言数据,对语言人才、语言模型进行评估。应用性参与运用语言数据衍生品。

3.1.1 生成性参与

生成性参与以一定的语言数据为原料,经过人类的研究、创作,生成新的话语数据、语言学科数据。 类似的业态有社会人文科学研究,咨询与调查,现代新闻传媒业,广播、电视、电影和录音制作业,文化艺术服务,旅行社及相关服务等。生成性参与包括:

(1)研究性参与。 对应的职业有社会人文科学研究人员。一般而言,研究人员以问题为切入点,基于前人研究,遵循学术规范,撰写研究报告、论文、专著等话语数据。语言学工作者在研究性参与中,主要包括三种情况:

第一,以语言符号系统为研究对象,生成的语言学论文、词典、语法书、教材等语言数据产品,属于语言学科数据。

第二,以语言生活事实为研究对象,得出描述语言工具功能、文化功能(李宇明、王春辉2019)的语言数据产品,则为语言衍生数据。

第三,以特殊群体、特殊场景使用的符号为研究对象,生成的则是人工语言数据和语言代码数据。

(2)创作性参与。 对应的职业有咨询师、记者、播音员、主播、解说、主持、作家、导游。作家以一定的素材为基础,根据对生活的观察、感悟,筛选组合词汇数据、语法数据等语言学科数据,生成小说作品。该类数据属于话语数据。即兴主持人、解说,基于主题,结合活动场景,使用语言学科数据,完成特定任务。无底稿的播音员、主播也属于该类情况,期间生成的语言数据也是话语数据。

3.1.2 加工性参与

加工性参与以生成性参与产出的语言数据为原料,加工成数据产品、知识产品和技术专利等语言数据衍生品。类似的业态有编辑,翻译,现代新闻传媒,广播、电视、电影和录音制作业,文化娱乐活动,语言培训,IT,数字内容服务,互联网数据服务,信息处理和存储支持服务等。加工性参与包括:

(1)编辑性参与。 将生成性参与产出的语言数据产品进行审读、编辑和校样等。具体操作中,对语言数据产品进行稿件内容质量的审读,消除内容差错、逻辑差错、语言差错和排版格式错误(陆琢行2014)。译后编辑(post-editing)对机器翻译软件输出的译文,进行检查和修正(崔启亮2014)。二者本质相同。

(2)转换性参与。 将语言数据产品进行语言、媒介物、呈现方式、要素类型的转换。语言转换是将语言数据从A语言翻译成B语言。对应的职业有译员、程序员。译员运用语言学科数据,将语言数据从一种自然语言翻译成另一种自然语言。例如:将法语语言数据翻译为中文语言数据。程序员运用语言代码数据,将语言数据从自然语言翻译成机读语言。

媒介物转换是将话语数据从A媒介物转换成B媒介物。对应的职业有播音员、主持、演员。有底稿、文案的主持人、播音员、主播,演员,均将话语数据从书面语转换成口语。

呈现方式转换是将文字数据、词汇数据、话语数据的呈现方式,从标准化转换成去标准化。对应的职业有书法家、字体设计师等。字体是文字的呈现方式。一般而言,宋体、楷体、仿宋等字体,都是文字的标准化呈现方式。书法家在临摹的基础上,添加个人元素加以创新;或以个人书体,对语言数据进行书法呈现。该种去标准化的呈现方式,赋予语言数据一定的艺术价值。字体设计师通过调整文字部件的呈现方式,让文字数据、词汇数据以去标准化形式呈现,从而将含义与“图像”结合起来,提升其审美价值(具体见图 1)。字体设计行业追求字体的实用性,以文字的识读为边界。整体而言,设计的字体属于语言学科数据,但却有了超语、语言代码数据的性质。

图1 晚安的字体设计


要素类型转换是将话语数据转换成劳动性要素、知识性要素、技术性要素。对应的职业有语言教师、语言信息处理工作者。第一,语言培训行业基于语言学科数据、话语数据等,对受训者进行教学、训练,使其获得语言能力(王巍、李艳2012)。例如:语言教师利用教材、语法书,选取合适的语言材料,教授语言知识,引导学生具身实践,掌握语言知识,提高语言能力。具备一定语言能力的受训者,可以承担跨文化交际任务,成为语言人才。第二,基于话语数据,进行知识挖掘,形成分析报告。例如:京东零售云基于某类商品的文字评价数据,挖掘形成分析报告,供店家选购。第三,基于话语数据,研发、训练语言模型。例如:美国OpenAI公司运用微软云服务算力,以网络问答式文本数据为基础原料,开发、训练了生成式预训练语言模型Chat-GPT。3.1.3 测试性参与测试性参与运用语言数据对语言人才、语言模型进行评估。经过处理,语言数据转换为劳动性、知识性、技术性要素。分析报告、咨询报告的作用多为辅助决策。立足当下,很难对指向未来的事物进行测试。而语言人才与语言模型当下的表现,则可以进行测试。语言测试行业以“听说读写译”为切入点,立足职业,筛选、组织合适的语言数据,对语言人才的一般语言能力、职业语言能力(profession-related language competence)进行评测(李宇明2019a)。同时,语言测试行业选择评测数据,对语言模型的言语表现、知识系统进行测评。有时候也基于模型输出的语言数据,对它进行测评(李宇明、朱海平2020)。测评合格的语言人才、语言模型就可以获得进入市场的通行证。3.1.4 应用性参与应用性参与指的是将语言数据衍生品应用到生产环节的方式。具体包括:知识性要素的应用和技术性要素的应用。前者的应用可以辅助决策。例如:电商平台购买京东零售云开发的分析报告,根据客户偏好,选择上架商品。后者的应用可以提升效率。CharGPT可以完成自动翻译、自动信息检索、自动摘要和信息抽取、智能写作、人机交互等任务,成为人类重要的AI助手(李宇明2023a)。再如,美国黑石发现公司(Blackstone Discovery)开发的法律文本处理软件,可以帮助律师分析历史上类似的案件,极大地提高了效率(吴军2016:310-313)。综合来看,生成性参与以旧有语言数据为素材,生成新的语言数据。它解决的是语言数据从无到有、从有到新的问题,是“无中生有”“推陈出新”。加工性参与以语言数据为底料,进行不同种类的加工。它解决的是语言数据结构化、商品化的问题,是“切磋琢磨” “点石成金”。测试性参与利用语言数据,测试语言人才、语言模型。它解决的是劳动、技术合格与否的问题,是“以辙合车”。应用性参与运用语言数据衍生品。它解决的是该类衍生品落地的问题,是“他山之石,可以攻玉”。3.2 参与方式的组合模式在经济活动中,四种参与方式,往往以“上下游”链状形式,满足场景化需求。因此,根据实际调用参与形式的数量,可以分为简单参与链、复杂参与链和循环参与链。(1)简单参与链。一般调用一种或两种参与方式。例如:翻译行业一般只调用加工性参与。再如,程序员对口语数据进行全环节处理,训练语言识别技术,再将其嵌入录音笔,投放市场。该过程则调用了加工性参与和应用性参与。(2)复杂参与链。一般调用三种及以上参与方式。例如:新闻传媒行业将语言模型应用至新闻写作领域。该模型基于主题、场景等,输出新闻。该类机器生成的语言数据,可用于测试该模型的“职业语言能力”。该种模式调用了应用性参与、生成性参与、测试性参与。(3)循环参与链。例如:记者撰写新闻,生成话语数据。程序员将其加工成机读语言,训练智能写作模型。经过专门的测评,将模型用于新闻写作。模型根据指令生成新闻数据。该类数据经过加工,用于训练、测试模型。迭代升级后,再将模型用于新闻写作。该种模式调用了生成性参与、加工性参与、测试性参与、应用性参与后,又循环至生成性参与。总之,参与链开始和结束的参与方式一般不固定。参与链本质上是运用加工处理手段,拓展延伸语言数据功能,满足场景化需求。至于链条内部需要哪些参与方式,是否需要循环,则由场景化需求决定。当语言数据的功能与场景化需求供需平衡时,参与链就会结束。

四.语言数据生产要素功能的产权保障

明晰的权属和有序的流通,是生产要素发挥作用的重要条件。流通问题是语言数据治理最为重要的问题(张莉2019:1-37)。“数据壁垒”、“数据孤岛”、产权制度的缺乏(李宇明2020b;王春辉2022)等阻碍着语言数据的流通,而语言数据产权制度的构建是破解的关键(黄少安2022)。学界认为应逐步建立语言数据的产权(李宇明、王春辉2022;王海兰2022),让语言数据有序流通,充分发挥生产要素作用。李宇明(2023c)认为应积极探索建立相关的法律法规。梁京涛、张振达(2023)以知识产权为切入点,探索了语言数据的产权界定问题。黄少安(2022)提出了语言数据产权界定的总原则和基本原则。 其中总原则为“遵循效率与公平统一、以效率为主”。基本原则为区分语言数据的产品性质,区分语言数据与语言数据产品,追求产权保护与高效利用的平衡。从社会现实来看,因产权不明晰引发的语言数据争议屡见不鲜。黄少安的论述为本研究提供了很好的切入点:与总原则相对,可从分配机制角度探索语言数据产权界定问题。与区分产品性质一脉相承,可从产品性质角度探索语言数据的产权问题。而“追求产权保护与高效利用的平衡”与现实的案例则启发,从权利与责任的角度关注语言数据产权问题。基于前人研究,以语言数据产权纠纷为切入点,本部分将从分配机制、产品性质、权责统一的角度,探索语言数据的产权治理问题,为语言数据的有序流通奠定制度基础,促进语言数据生产要素功能的充分发挥。

4.1 基于分配机制统一的产权制度

陈永伟(2018)主张从效率出发,将数据产权界定给实际掌握数据的平台企业。根据按劳分配原则,平台企业对数据进行了收集、加工,是数据的收集者、建设者,将产权界定给平台有着合理性。平台收集、处理的数据是用户在使用平台服务时产生的。用户在生成数据中也付出了劳动。 如遵照上述原则,将产权界定给用户也合情合理。 二者之间的矛盾如何协调值得思考。本研究认为可以尝试在按照要素分配和按照劳动分配的统一中,构建语言数据产权制度,从而实现效率优先、促进公平与语言数据产权保护的有机统一。

在效率优先的前提下,制定政策,鼓励生成主体通过简易交付(中国法制出版社2020:180),流转其语言数据;设立按照要素贡献分配制度,提高语言数据利用效率和数字经济发展效率。鼓励要素流转、按照要素分配有助于语言数据的流通、汇聚,构建更为完善的语言数据系统,更好地发挥生产要素作用。 语言数据贡献的测算可以用“加法”,把语言数据衍生品投入当作“增加成本”来计算收益,以之为基础进行分配。

在促进公平的前提下,鼓励建设主体对语言数据进行加工。根据按劳分配原则,优先考虑将加工后的语言数据产权界定给建设主体,套用知识产权保护原则对形成的技术专利、知识产品进行保护。同时根据实际贡献进行分配,设置奖励、激励机制,促进数字经济发展。

4.2 基于产品性质统一的产权制度

黄少安(2023)在探索记录超越领土主权的自然界的数据产权时,引入了公共产品概念。产品包括公共产品、混合产品和私人产品。“如果一种产品在消费中不会因为一人的消费而减少,那么它就是公共产品(public goods),反之就是私人产品(private goods)。”(刘惠林2018:2)二者之间的过渡状态的产品为混合产品。产品性质的视角对于语言数据产权界定,有着丰富的借鉴意义。语言数据产品性质的厘定是产权界定的前提。公共产品不具备产权界定的必要,界定混合产品、私人产品产权的必要性则相对充分。以公共产品性质的语言数据为原料,加工所得产品的产权属于加工主体。以其他性质的语言数据为原料,加工所得产品的产权界定则相对复杂,不能简单地界定给加工主体。

语言数据包括语言学科数据、话语数据等。有些语言学科数据是世界范围内的公共产品,一个人的使用不影响其他人的使用,一个民族的使用不影响其他民族的使用。话语数据产生于语言学科数据的使用,语音数据、词汇数据、语法规则数据的选择、组合凝结着劳动。话语数据属于《中华人民共和国著作权法》保护范围的,可以套用相关条款来界定。该法规定:有独创性,以文字作品、口述作品形式体现的智力成果,无论发表与否均受保护;保护期限为最后作者死亡后第五十年的 12月31 日。 参照该法,在上述保护期限内的话语数据的产权,可界定给组织或个人;而超出上述保护期限的语言数据,则属于公共产品。 不具备独创性的话语数据,不在该法保护范围内,但仍具有经济学意义上的使用价值,产权可界定给生成主体。 社群经济关注群体需求,是主要的经济形态。 在分析群体需求的语言数据系统中,个人语言数据可替代性很强,因而在生产环节的作用微乎其微,暂不具备建立产权制度的必要性。 如有实际需求,可按照财产原则,通过议价来实现(薛兆丰2018:211-231)。此外,对于上述语言数据加工而成的语言数据产品,就需要建立兼顾语言数据生成主体和加工主体利益的产权制度。

4.3 基于权责统一的产权制度

由于缺乏语言意识,学界很少把语言数据放到政治经济学领域去观察,其产权问题也鲜有关注。因产权不明晰导致的语言数据纠纷屡见不鲜,应当引起关注。本文仅以 2017 年今日头条诉凤凰新闻侵犯名誉权案和 2023 年美国畅销书作家诉OpenAI侵犯知识产权案为切入点,从权利与责任的角度研究语言数据的产权问题。今日头条认为凤凰新闻客户端发表的微博内容存在恶意抹黑行为,而提起诉讼;经过审理,法院裁定侵权事实成立,被告赔偿原告经济损失,并公开赔礼道歉ᙜI0。美国畅销书作家莫娜·阿瓦德(Mona Awad)和保罗·特伦布雷(Paul Tremblay)起诉OpenAI公司,未经授权使用他们的图书作品,来训练ChatGPT。诉讼称:图书为该模型训练提供了高质量长篇写作范例,但该公司事先未获得作者授权,事后也未采取相应补偿措施。

凤凰网客户端因其生成的语言数据侵权而承担相应责任,内在逻辑为:认定生成主体享有产权。莫娜等畅销书作家的作品未经授权,便被用于训练语言模型,忽略了生成主体对于语言数据享有的产权。未来ChatGPT搭载其他产品,可以创造经济红利。届时上述作家如提出分红,该主张能否获得支持有待商榷。尽管它们都涉及语言数据的产权问题,纠纷背后的底层逻辑截然不同。当语言数据用于开发模型时,产权不归生成主体;当语言数据侵权需要承担责任时,产权又归生成主体。权利和责任不对等,甚至对立。如何协调权利与责任之间的矛盾,同样值得思考。本研究认为可以尝试在坚持权利与责任的统一中,建立语言数据产权制度,实现“追求产权保护与高效利用的平衡”和“遵循效率与公平统一”。

网络平台语言数据由网民生成、平台发布,离开网民和平台就不存在。二者均对这些数据肩负责任,网民文责自负,平台引导监管。根据某网络平台发布的个人信息保护政策,其采集的语言数据大致有用户发表的评论、私信和文章以及用户检索记录、关键字等。平台收集和使用上述语言数据,用于个性化推送、提升用户体验。同时在必要情况下、范围内,向第三方共享。注册该平台以同意上述政策为前提,第三方使用上述数据以用户和平台的同意为前提。平台收集的语言数据产生的责任,应由用户和平台共同担负。因而可以考虑建立共有产权制度,具体比例可以参考相关主体愿意履行责任的比例,例如:平台与用户7:3,但应有明确的边界,不能为10:0。因为任何一方在语言数据生成、发布后,都不能以放弃权利的形式来豁免责任。

此外,鉴于平台是实际的数据控制方,如将产权界定给平台,也应以适当的形式补偿用户,不能简单地默认以提供免费服务的形式,“换取”用户在平台产生的语言数据的财产权。此外,在语言数据产权制度正式建立之前,应重视采集阶段的授权协议和转让合同。具体来说,应在采集时签署授权协议,明确采集内容、采集用途(公共服务、研究等非商业用途或商业用途)、使用方式、保存期限,约定语言数据转让、用途变更、违约规则,确保在“尊重劳动、以人为本(保护个人隐私、尊重遗忘权利)、互惠互利”的原则下实现语言数据的流通。采集主体要充分发挥聪明才智,秉承“以生成主体为中心”的原则,善于发掘生成主体需求,遵从生成主体意愿,从其愿意授权的部分开始。注重按照要素分配,适时将开发成果反馈给生成主体,让生成主体及时享受自己语言数据开发带来的便利、福利,在互动中促进语言数据更大程度的流通(车品觉2017:1-42)。总之,终极目的就是让语言数据在善治中流通、汇聚,充分发挥其生产要素功能。



五. 结语


本文以数据成为生产要素为逻辑起点,探索了语言数据作为生产要素的认识、语言数据参与生产环节的方式和语言数据产权制度问题。

数字经济业态中,语言数据作为生产要素经历了如下变化:(1)作用域从单元生产要素、行业生产要素提升到部门生产要素;(2)媒介物从口语、书面语拓展到机用语言。语言数据发挥生产要素功能可以通过参与生产环节来实现。根据流程环节,参与形式至少包括生成性参与、加工性参与、测试性参与和应用性参与。在经济活动中,围绕场景化需求,它们以不同的模式进行组合。

语言数据生产要素的发挥依赖于有序流通,本研究从三个角度探索了语言数据产权制度的构建:(1)按劳分配和按要素分配的统一;(2)基于不同产品性质;(3)权利与责任的统一,以期为语言数据的有序流通提供制度保障。

但仍有一些问题需要关注,例如:语言数据价值的测度与定价问题,语言数据的管理问题等。语言数据定价可以考虑劳动和信息两大维度。语言数据生成所需的平均社会必要劳动时间可以计算。但消耗同等社会必要劳动时间生成的语言数据的信息熵不一定相同,也无法统一定价。如何统筹协调,制定科学的语言数据定价方案对于语言数据的流通同等重要


作者简介







李宇明

    个人简介:李宇明,男,汉族,1955年生于河南省泌阳县,主要研究领域为语法学、儿童语言发展和语言规划。出版著作10余部,发表论文380余篇。研究领域:主要学术研究领域为语言学理论、现代汉语、心理语言学,特别是在语法、儿童语言学、聋童语言康复等方面的研究深得好评。现已出版《儿童语言的发展》《理论语言学教程》(主编)、《汉族儿童问句系统习得探微》《语言的理解与发生》《语言学概论》(主编)、《汉语量范畴研究》等著作10余部,在多种刊物上发表论文200余篇。先后主持了国家中华社科基金、国家教委社科基金项目4项。项目成果之一的《汉族儿童问句系统习得探微》,获"全国高等学校首届人文社会科学研究优秀成果奖"二等奖。主编的《聋儿语言康复教程》获中国残疾人联合会、中宣部、出版局等五家单位联合举办的全国首届"奋发文明进步图书奖"二等奖。 

    梁京涛,男,河北中医药大学人文管理系,汉语国际教育教研室博士。

本文来源:《语言教学与研究》

点击文末“阅读原文”可跳转下载




推  荐




好文荐读|罗琼鹏:名词融合与复杂谓词的形成

2024-05-12

好文荐读|马瑞祾、徐娟:国际中文写作智慧教学模式构建与应用探索

2024-05-10

好文荐读|熊仲儒、郭霞:“把”字句中功能范畴的句法语义作用

2024-04-30

好文荐读|马秋武、翟海莹:动态语音教学:国际汉语语音教学的有效手段

2024-04-26

好文荐读|李先银等:汉语互动语言学研究的新进展

2024-04-22

好文荐读|陆俭明:人工智能语言模型ChatGPT不会影响人类的修辞知识生产范式

2024-04-20

好文荐读|曹友谊、张洁:国际组织语言政策研究综述

2024-04-14

好文荐读|江新等:词间空格对汉语母语者和二语者拼音文本阅读的影响

2024-04-10

好文荐读|尉薇:基于多维聚类的语体研究热点与发展趋势探赜

2024-04-06

好文荐读丨尹常乐、袁毓林:动词能否做定语

2024-04-03


欢迎加入
“语言学心得交流分享群”“语言学考博/考研/保研交流群”


请添加“心得君”入群务必备注“学校/单位+研究方向/专业”

今日小编:墨色深

审  核:心得君

转载&合作请联系

"心得君"

微信:xindejun_yyxxd

点击“阅读原文”可跳转下载

继续滑动看下一个
语言学心得
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存