域外法律方法论
大数据驱动的原旨主义研究[1]
[美]托马斯·李 詹姆斯·菲利普斯[2]著
宋丽珏[3]译
摘要 挖掘美国《宪法》中词汇的原初含义是原旨主义研究者长久以来面临的难题。词典仅可释义单词,无法定义短语或更大的语言单位。本文总结了建国时期美国英语语料库的建设现状,运用语料库语言学研究方法,包括考察索引行、搭配、词簇,以及频率统计来辅助原义研究。针对如何利用语料库数据确定词汇或短语的语义进行说明。并量化分析了《宪法》中商业、公共使用、自然出生公民等几项长期以来充满争议的词汇,以及其他仍需进一步明确的概念如内部暴力,并兼谈语料库语言学方法应用于原旨主义研究的局限性。
关键词 大数据 原旨主义 法律解释 语料库 宪法 语义
引言
对于任何法律解释问题的探索均与文本的“交际内容”有关。对词汇内含法律意义的探究均始于“语言意义”[4],但我们有时便止步于此。若法律的交际内容清晰,我们理所当然认为该内容具有法律意义[5]。
这便是法律解释的“标准图景(standard picture)”[6],在大部分案例中存在的问题恰是标准图景不清晰造成的。文本主义者和目的论主义者关于法律解释的分歧在于,比如:探寻可能在交际内容中存在的歧义和寻找恰当工具解决这些问题。但出发点均立足于交际内容,却止步于当标准图景足够清晰时。
《宪法》解释也非例外,对它的探究亦从操作文本(operative text)开始,当《宪法》交际内容清晰时便停止了。可我们不应到此为止。因为很难能得出“《宪法》的标准图景是清晰的”类似结论,特别是在法院提起诉讼时。无论如何,语言仍是起点,标准图景无疑有时会非常清晰。《宪法》第2条第1款规定,“未满三十五岁的人”没有资格“担任”美国总统[7]。没有人去试图解释,一个三十岁的人有资格当总统。[8]因为我们对“年满三十五岁”达成共识,这便是交际内容清晰。
合宪性解释的最复杂之处在于时间维度。[9]有关合宪性解释的诉讼均与此有关,即在当今如何准确理解数世纪前设立《宪法》时的词语原义,至少在某些专业表达上它们迥异于21世纪的形式。语言使用和意义的历时演进恰是语言学领域考虑的问题。关于何种标准图景值得被信赖,或今日的法律工作者如何在回到美国《宪法》创立时期去理解文本类似的问题。
但对于某些合宪性问题,时间差异并不紧要。我们可以假定(下文详述),如在美国《宪法》创立时期对自然人年龄的计算方式至今未变。那么根据法律的交际内容,30岁的候选人便不符合法律规定。[10]
不过,某些美国《宪法》中其他条款表达并非如此清晰。内部暴力条款(Domestic Violence Clause)的第四条第4款提到,“合众国保证联邦中的每一州……不受外来的侵略:并且根据各州州议会或行政部门(当州议会不能召集时)的请求,平定其内部的暴乱。”[11]这一条款中的表达随时间演进,发展发生了语言学转义。显然在18世纪该条款暴力是指暴动(intersection)或起义(uprising),但今日的“domestic violence”是指对家庭成员实施暴力,下文详述。
这便构成了合宪性解释问题。当今对美国《宪法》的某种理解,却在最初创立法律时存在另一种理解,哪种才是标准图景?倘若联邦立法机构声明“domestic violence”在当今的意义是联邦政府有义务应州的保护要求而调动国民警卫队,会怎样?
此处,我们又一次发现共性大于差异。如果十八世纪对“domestic violence(内部暴力)”中关于暴动(insurrection)的描写是清晰的,那么所有有关原义的争论都会消失。大部分诉讼中面临的问题是如何解决现代意义与法律原义的不一致。当原义表达清晰时,几乎所有人都会达成一致意见。假定现在调动联邦军队准备解决“domestic violence(家庭暴力)”,定会贻笑大方。恰因为几乎每个人都认同拉里·索伦姆教授(Larry Solum)所提出的“固定论点”(即历史法律文件在通过时就已经确定了其交际内容),至少是在原始(罕见)交际内容清晰的情况下。[12]
甚至谨慎的“活的(living)”原旨主义者亦会认同这样的假设。他们只是对《宪法》诸多原则的原义持怀疑态度。比如杰克·巴克林对《宪法》的基础“框架”(被认为是清晰的、固定的、有边界的)和框架之上的“构建”(并非是固定的原义,而是在构建过程中不局限于原义的可添加部分)。[13]即使是杰克·巴克林,也无法确定《宪法》中的交际内容。多数人都同意某些规定是明确的。关键问题在于(1)如何确定语义是否清晰;(2)在我们认定文件的法定约束力之前,对文本清晰度的要求有多高;(3)当文本不明确时,如何处理?因此,在解释原始交际内容之后,《宪法》解释理论就开始发挥作用。[14]在原旨主义理论体系中,我们可能在解决歧义的适当方法上存在意见分歧,是采用评估公众语言使用情况的工具,或是参考制宪者们或批准者的著作,还是参考《宪法》制定时律师和法学家采用的解释方式?如果我们不能最终使用这些工具解决歧义问题,该怎么办?我们是否同意以举证责任为前提推翻合宪性推定,或者是否承认存在某种“工具”可以“创建”一个与交际内容全然无关的法律内容。但当标准图景清晰明确时,上诉问题便无需考虑。
尽管达成共识,我们却尚未建立评估《宪法》原义的既定方法。[15]迄今为止,我们很少关注确定文义方法的可靠性。目前采用的研究方法均存在缺陷。本文重点介绍了研究方法普遍存在的一些问题,并提出建议使用的工具。
第一部分为研究概述。第二部分回顾了既往研究工具的缺陷。第三部分介绍了评估原始交际内容的工具,即在语料库语言学研究使用的工具。语料库语言学是利用大数据分析语义和真实语言使用的学科。第四部分介绍研究路径,如何利用语料库工具研究《宪法》的原始交际内容。我们考察了“家庭暴力”(domestic violence)以及其他三个词汇在《宪法》中的原义:《宪法》第一条第8款“商业”的语义范围;“公共使用”在《征用条款》(Takings Clause)中的本义;美国《宪法》修正案第二条第5款“自然出生公民(natural born citizen)”。第五部分总结了语料库工具的适用性和局限性。同时,本文总结了语料库语言学为法官提供内部和外部判定标准的路径。
第一部分 原始交际内容探寻的中心性
近期的研究说明“原旨主义”研究者们“认为《宪法》文本交际内容是在每条款项设立、批准之初便确定下来的”。[16]分歧在于探寻原义的本质,以及采用何种研究方法。但所有原旨主义研究者的起始点均是研究《宪法》文本的原始交际内容。下文重点探讨了探寻原旨理论的三个普遍理论(公共意义、原初意图和研究方法)。
一、公共意义原旨主义
在公共意义原旨主义下,原始交际内容至上的理由很简单。这种“新原旨主义”理论的是将重点从制宪者们的单纯意图上转移到探究《宪法》文本的公共意义上。这是针对以下批评的回应,“很难确定由多位制宪会议成员起草的文件的初衷,更难确定由参与各州会议中更多与会者们批准该文件的本意。”[17]为此,原初公共含义原旨主义者将研究焦点从探寻制宪者们的原旨转向了分析公众对文本的理解。对于他们而言,考察1787年提出《宪法》的原初含义“很大程度上,必须从词汇、短语的传统语义开始,后遂总结为语法和句法规则”。[18]
这是一个原旨主义者的“标准图景”。是一个从十八世纪末期考察《宪法》交际内容的方式,去探寻当时语言使用规则下的“传统语义”。
二、原初意图原旨主义
一个主张“原初意图”的原旨主义研究者探寻的文本意义“是制宪者们固定在文本中意思”。[19]这类研究更看重制宪者们的文字和主张,以《联邦党人文集》(Federalist Papers)或制宪会议记录为例,而非《宪法》本身。如是,原初意图原旨主义者被认为是规避《宪法》文本交际内容的研究者。
但细究发现,研究者们仍保持了原旨主义研究的共性。对于思虑周全的原初意图原旨主义者而言,相关的“原初意图”并非“应用式”而是“交际式”:“因此,《宪法》条款的制定意图是一种心理状态,并在制定条款过程中说明交际内容。”[20]我们可将“意图”视为“心理状态”。但类似的心理状态不是制宪者们秘密的个人理想,而是“在语言里展现出来的”制宪意图。[21]这说明,制宪者们的文字或主张不是原始交际内容的直接证据,却是可以帮助我们去除歧义的间接证据,[22]使我们可以回到历史场景去探寻《宪法》文本的原始交际内容。[23]
对于制定法解释的当代研究,这里有个比较[24],甚至对于目的论者而言,“我们都是文本主义者”[25]。当文本语义明确时,就认为自己被明确的目的约束着。[26]同样的,可以说我们都是“原初公共意义”的原旨主义者。[27]这在一定程度上是成立的,即《宪法》中文字的原始交际内容是明确确立的。在这种情况下,没有一个“原初意图”研究者会试图用制宪者的自我意图来论证推翻原初公共意义。
前例在《家庭暴力条款》(Domestic Violence Clauses)得到了印证。若“家庭暴力”这个表达被广义的定义为内部暴动或起义,从未指涉及家庭的暴力攻击,那么即便是“原初意图”原旨主义者也会不再追究所谓的原义。《家庭暴力条款》的原始交际内容毕竟是体现制宪者们意图的最佳证据。至少,当文本表达足够清晰时,即便是一个坚定的原初意图主义者也不会推翻制宪者,哪怕是怪异的观点。这意味着,原初意图主义者都是相同的,首先着眼于《宪法》的原始交际内容。
三、方法原旨主义
也应称其为“原初方法”原旨主义者。这个理论的主要贡献是由于《宪法》具有特殊的“行话”,18世纪的法律行话,只有浸润其中才能解其含义。一部分原因是为了质疑《宪法》“构建”的基础,以便将其术语扩展到其交际内容的“解释”之外。[28]约翰·麦金尼斯和麦克·拉帕波特是这种方法论的提出者。他们主张可以通过学习《宪法》的法律行话,并使用十八世纪律师和法官会使用的规范和解释方法来确定文字的交际内容。
但这个方法完全没有规避《宪法》文本中的交际内容,《宪法》条款甚至是由日常语言制定的,没有使用法律语言。因此,在原初公共意义原旨主义者与原初方法原旨主义间的一个主要差异取决于《宪法》表达是交际语言还是法律语言。具言之,原初方法原旨主义者同样需要确定《宪法》中的交际内容(至少是那些表达日常语义的术语,这经常困扰着理论研究者,我们可以通过下文介绍的工具来测量)。[29]
麦金尼斯和拉帕波特理论的立足点是《宪法》用法律语言覆盖(overlays)日常语言所制定。[30]但虽然他们认为《宪法》是用法律语言制定的,仍然认同其中包含日常语言。[31]意味着法院应用法律意义来解释法律术语,同时,正如麦金尼斯和拉帕波特提到的,“那些包含日常语义的语言也应被正确理解”。[32]
两位学者将《宪法》中的法律术语聚类。首先确定的是,第一类包括13个毫无歧义的法律术语,比如人身保护令(habeas corpus),原始管辖权(original jurisdiction)和叛国罪(attainder of treason)。[33]第二类,他们指出了44个存在歧义的术语,认为这些术语既有法律意义也有日常语义。[34]第三类,是“可能”有“日常语义之外法律意义”的术语。[35]其中包括自然出生公民。可能也包括“商业”和“公共使用”。
基于前文,我们推定这些理论者会将“家庭暴力”视为日常术语,不具法律意义(这是本文的研究假设,下文第四部分会继续论述)。综上,原初方法原旨主义者们(同公共意义和原初意图原旨主义者们一样)会找到大众对“家庭暴力”的理解为“内部起义或暴动”,而非“在家庭内部发生暴力”的关键因素。
第二部分 原始交际内容的定义和测量的工具
前文着重介绍了原旨主义者(甚至是认为语义固定的非原旨主义者)对《宪法》原始交际内容解释的中心性。现在的问题在于如何定义并测量这些内容。这里我们介绍一些普遍方法的优势及不足。
一、意义的意义:研究交际内容的普遍方法
原旨主义研究者们在谈到《宪法》的原始交际内容时,首先考虑的是“词汇和短语的传统语义”,“通过句法组成了更大的语义单位”。[36]但他们同样会考虑语言学家们提到的“语用”层面,即《宪法》条款中不表意、不影响理解内容的“语境”。
研究者们确定了几种“语境”形式,(1)暗示,尤其是省略形式。如第一条第九款中的“不得通过任何剥夺公民权的法案或者追溯既往的法律”包括“[国会]默示的法案或法律”。[37](2)预设,或言外之意“预设基于所在语境”。如在第九修正案中,《宪法》罗列权利“不得被解释为否定或轻视由人民保留的其他权利”,因此预设为“人民保有权利”。[38](3)调节,在特定语境中,如古旧词的新用法。“休会(recess)”在《休会期间的任命条款》中的含义。[39]
谨慎的理论家们,将《宪法》中原始交际内容部分与“原初意图适用(original expected applications)”做了区分。[40]一位学者对第二修正案做了分析,他提到“持枪权利(right to bear arms)”的原始交际内容旨在分辨这一短语所在的语义和语用的上下文。他同时分析了意图适用场景,如相信“第二修案中火枪和火燧枪均为武器”,或依《宪法》第二条第1款,某个人的年龄足以使其担任美国总统。[41]
“原始意图适用”与此类观点相关,但仅具有证据的意义。“因此,如果制宪者坚信火枪和火遂枪在第二修正案中属于‘武器’,那么这个事实便是证明一切理论中的武器包括火枪和火遂枪,并排除其他解释。”[42]但也有“意图适用错误的情况”。[43]我们回到关于年龄要求的《宪法》第二条,“如果《费城公约》(Philadelphia Convention)成员对于具有总统选举资格的年龄有错误的理解,在1782年便不具备竞选总统的资格(因为是32岁而非36岁),第二条中关于年龄要求35岁才具竞选资格的内容不会成为具有‘35岁’特殊内涵的证据。”[44]当条款交际内容清晰的时候,我们很容易推测出“实际错误”的意图适用。意图适用的证据就不会推翻我们对于文本的清晰认识。
当然,原始交际内容不会总是清晰的。原旨主义理论发现本意(bare content)“疏散(sparse)”在《宪法》的某些条款里,在另外一些条款里却很“丰富(rich)”。[45]长久以来的争论均围绕着“疏散”的交际内容,其“构建”的意义和方法并非为了分辨交际内容,“原初方法”去解决歧义是遵从政府部门,或是对合宪性的推定和相应举证责任的适用。[46]
对于《宪法》中术语原始交际内容的挖掘有一些标准,而原旨主义的实践并非总是与理论相一致。我们将在下文中考察三个内容:
(1)依《宪法》第一条第八款,国会规范“商业”权利的原始交际内容;
(2)《征收条款》中“公用”的本质;
(3)第二条中,总统必须为“自然出生公民”的具体条件。
我们先来检视一下托马斯大法官对于前两个术语原初意义的看法。这部分的研究旨在指出目前原旨主义实践的一些缺点,且很多改进的研究方法均出现在最新的研究中。因此,很难期望对于最新研究不熟悉(更勿论本文倡导的工具)的法官掌握这些新方法。[47]
1.商业
我们对于《商业条款》交际意义的分析主要基于托马斯大法官在United States v.Lopez案中的判决意见。托马斯法官同意法院在Lopez案中作出的废除《1990年无枪学校区法》(Gun-Free School Zones Act of 1990)的裁决,但认为该裁决超出了国会根据《宪法》第一条第8款所享有的权利。他做出分析的依据,旨在“表明”法院的判决“偏离这一条款的最初理解”。[48]
这种表述似乎暗示着对《商业条款》交际内容的探讨。托马斯大法官的分析似乎也证实了这一点:他援引了建国时期词典佐证,用以说明“商业”活动包括销售,购买和交换,以及出于这些目的的运输。[49]
托马斯大法官似乎也意识到语义环境的重要性。在他的判决意见注解2中将条款语境化,通过强调全文并未给予国会“权力去规范所有商业活动”。[50]他强调“甚至可以说‘《商业条款》’也许影响了条款的实际范围”,鉴于全文授权,国会只能“对与外国,在几个州之间以及对印第安部落的贸易进行规范。[51]
托马斯大法官通过援引历史文献来佐证观点,如“批准《宪法》运动期间的交易”表明“商业条款和联邦权力的范围相对有限”[52]。他同时引用汉密尔顿作品中关于国会对“私密的家庭生活”以及“个人的私人行为”的控制,可能会是“否定《宪法》的原因”。[53]但托马斯大法官的引论似乎更多是基于意图适用(expected applications)而非对原始交际内容的分析。
判决意见笃定地将原始意图对农业的认定,诉诸于建国者的看法,“不在联邦政府监督所辖”却“实际影响”商业。[54]托马斯大法官引用汉密尔顿所言,“对农业或其他相似性质行业的监管”“会是麻烦中的麻烦”。[55]这样的转向并没有考虑区分原始交际内容与原始意图适用。[56]如果他在最初就将原始交际内容考虑进来,意图适用就仅仅是证据,而非暗示最初制宪者们意图。
2.公共使用
托马斯大法官在Kelo v.Town of New London案判决中提出的反对意见同样很重要。他分析了《征用条款》中“公共使用”所表达的原始交际内容,并单独撰文去批评多数派的做法,这种做法只需要一个“公共目的(public purpose)”,不“使用(use)”任何财产,在某种意义上是政府以某种方式积极使用财产。
托马斯大法官提到《征用条款》中“公共使用”“本质上说,是国家征用权的限制”。[57]他首先聚焦在《公共使用条款》中术语的原始语义去揭示其原始交际内容。他通过参考建国初期词典搜索其中有法律效力词汇的原初意义,并查询这些词汇的词源。[58]
托马斯的意见同时援引了条款的上下文语义,注意到“使用”的原初意义是其狭义概念,恰因《宪法》在其他语境中使用了这个词汇的字面意思。他证明“《宪法》中在除此条款外,两次使用‘使用’一词,均为狭义。”[59]基于此,托马斯大法官并未使用其他当代词典中的定义。[60]
同时,他试图在语境中通过对比“公共使用”与其他《宪法》术语,如公共福利(general welfare)和必要性与适当性(necessary and proper),去说明它的原初意义。托马斯写道“如果制宪者们旨在表达广义的公共使用,完全可以用含义更泛的术语[公共福利(general welfare)]去表达”。[61]他提到多数意见对“公共使用的解释同样是不必要的模仿了必要与合适条款的分析模式”。[62]
最后,托马斯大法官选用了建国时期的司法实践为例去说明原始交际内容。他引用了布莱斯通的论述,私人财产被高度重视,“不准受到的毫厘侵犯;甚至不会因为社区的整体利益受损”,[63]他还指出早期实践“阐明了在公共使用条款中相同词汇的原意”。建国初期,国家使用了有限征用权仅为提供“典型的公共产品,例如公共道路,收费公路,渡轮,运河,铁路和公园”。[64]
通过引用建国时期的文献并参考司法实践,托马斯大法官并未分辨出原初公共含义(original public meaning)和制宪者原义(original intent)。在应用建国者们关于私人财产的观点中,他似乎承袭了制宪者原义的理论:虽然他是简单的运用了这些资源作为证据,去说明公众如何理解该条款。但他似乎在引用早期司法实践时转向了原初公共含义的探讨,却不自知。
二、意义的测量:评价交际内容的良器
这一领域的学术研究,经常涉及如何测量原始交际内容的方法论问题。但鲜少有学者问津。
兰迪·巴奈特关于《商业条款》原义的研究可算是一个方法论上的突破,通过查找从1728年至1800年《宾州公报》(Pennsylvania Gazette)上每个词的意义评估《商业条款》的交际内容。[65]巴奈特这样做的原因是他意识到传统原旨主义方法的局限性,注意到他们“很难知道某个特定的[学者]提供的使用证据是典型的(typical)还是精心挑选的”。[66]他知道“[商业]的原初公共含义是广义上的商业,参与者如何在起草或批准过程中[可能]用到这个词”,于是去寻找建国初期的资料“进行全面的实证调查”。[67]我们视其为重要的学术发展,是为下文探讨研究方法(对原初公共含义的挖掘,是一种需要代表性实验数据的研究)的雏形。[68]
巴奈特在《阿肯色法律评论》发表的文章,便是基于他早期关于“商业”原义的研究。他在发表于2001年《芝加哥大学法律评论》上的文章中,探讨了托马斯大法官在Lopez案中对商业是“限于买卖货物”或“指获利的活动”之论述正确与否的问题。[69]他认识到研究需要超越字面意义,亟待通过系统语言学对《宪法》制定的相关记录进行全面调查分析。他收集了在《宪法》、当代词典、制宪会议、《联邦党人文集》、批准立宪会议和司法意见中商业一词的全部用法,发现在制宪会议、批准程序的辩论(ratification debates),和《联邦党人文集》中“商业一词仅用作狭义解释,调查表明其中没有任何一例广义解释。”[70]
拉瑞·索伦在近期指出,发掘文本原始交流意义常基于以下两个要素,(1)当代读者关于“词和短语构成语篇”的“前反思认识”,(2)“在《宪法》不同条款撰写的不同历史时期的词典”[71]。在此列表中,我们将添加(3)在相关时间段内文本英语使用的例子,这些文本可能是或不是有关批准立宪的相关法律“记录”,这些例子被应用来说明具体词汇或短语在语言学语境下的意义和使用,并且依据(4)《宪法》中词汇的词源考察。
索伦确定了关于“基于直觉和词典的方法论,用以发现《宪法》类文本意义”的一些问题。[72]他同时提出一个更有三个要素构成的系统分析方法:(1)语料库语言学分析(本文主题);(2)“沉浸”在“相关时期的文本”去“训练”判断原义研究者们的语言学直觉。(3)学习“制宪记录”,包括“前期条款和提案”,起草历史,批准程序的辩论,早期历史实践和早期司法判决。[73]我们在第五部分详细讨论这些要素,此不赘述。
索伦关注的一个重要问题是语言学对原始交际内容的直接挖掘,以及更多关于《宪法》记录的传统研究。我们常常陷入一个对“原义”的整体挖掘中去。但当我们试图区分交际内容与法律内容区或是解释内容区的时候,我们应认识到对于制宪记录的研究是次要(间接)意义的。我们可以将起草《宪法》的历史或批准程序的辩论作为分析《宪法》文本交际内容的佐证。[74]但仅仅是证据而已。假设我们相信大众对《宪法》使用词语的理解(如果标准途径清晰)无误,就会发现次要证据在《宪法》起草历史上远不及交际内容的直接证据重要。
考虑到这些问题的法院根本不注重这些细节。是的,这并不稀奇。但此处关注“商业”和“公共使用”的语义挖掘,是提出另一种不同的研究方法。
1.商业
托马斯大法官在Lopez案判决意见引用建国初期的词典去证明“商业”一词包括“销售,购买和交换,以及出于这些目的的运输活动”。[75]他同时引用了该词的词源学解释,即“字面意思是‘与商品有关’”,去论证“商业”一词所辖的有限语义范围。[76]
但他很快转向从建国先驱者们比如亚历山大·汉密尔顿的作品中寻找该词的例释,发现“商业”一词经常用作“与生产活动如制造业、农业相对的意义”[77]。如汉密尔顿写道“农业监督……永远不会是一般管辖权的关注重点”。[78]托马斯大法官使用了这样的例证去说明一词的原始交际内容并非获利活动,否则汉密尔顿和其他建国先驱们不会对上述概念做出区分。
托马斯的意见同时引用了建国者们对政府的一般观点,提到“汉密尔顿和其他人对联邦权力的评论反映了众所周知的事实,新政府仅拥有《宪法》中规定的有限和列举的权力。”[79]如果联邦政府是仅具有限权力的机构之一,那么商务条款的原始交际内容绝非是赋予国会无限权力。
2.公共使用
托马斯大法官在Kelo案的判决意见中,同样以诉诸建国时期词典释义作为考察原始交际内容的依据。他引用了塞缪尔·约翰逊1773年编撰词典中对“使用”的解释,是“基于任何目的,使用任何东西的行为”。[80]他强调当财产为私人所用时,“语言上很难讲是公众在‘使用’该财产”[81]。在Lopez案中,托马斯大法官再一次转向了词源学论证。他追溯英语“use”源自拉丁语中的“utor”一词,是指“去使用(to employ),利用(make use of),利用(avail oneself of),使用(employ),应用(apply),享用(享用),等等”。[82]
托马斯的意见也试图推定公共使用一词的原始交际内容在建国时期是指一般财产。他引用布莱斯通所言,法律如此重视私有财产权利,“不会允许任何对它的侵犯”。[83]托马斯从早期文本来源推定公共使用条款“包含建国者们对于拥有财产的理解,是一种自然的、基础的权利。”[84]
他同时采用对早期语言实践活动的调查,去确定条款的原始交际内容,验证了早期国家“征用权的局限”[85]。但他指出,大部分州限制征用权,仅在“典型的公共产品”中,如道路,渡轮,运河和公园中使用。[86]所有其他征用权的范围均“竞争激烈”。[87]托马斯认为这些早期语言实践有力证明了条款的原初公共意义。
三、现有方法论的不足之处
上文所述是为探讨现存研究方法的不足做了铺陈。[88]近年来的研究,对原旨主义研究方法进行了诸多改进,批评那些法官没有借助新方法处理问题有失公允。在Lope案和Kelo案中法官的处理,不仅是由于不熟悉本文提出的语言学研究方法,亦是由于文中使用的数据库实属近期新建。正因如此,本文并非抨击上述两个案件中的原旨主义分析。我们认为使用任何原旨主义方法,都好过没有原旨主义分析。我们称赞这些法官们所做的工作,[89]即便是指出他们使用方法的一些不足(希望我们的批评分析,会被视作是他们所期的建设性建议)。
有了这些注意事项,我们在此确定了一系列关注内容,关于原旨主义对交际内容的探索,重点是在上文讨论的Lopez和Kelo案中(视为下面第四部分对商业和公共使用问题分析的回顾)。[90]
1.建国时期辞书的缺陷
我们(也包括其他研究者)已经撰文分析了利用辞书查询获得文字交际内容方法的缺陷[91],下文详述。
(1)语义环境缺失。词典提供的常常是缺乏语义环境的词汇释义,很难找到《宪法》类短语的交际内容。词典定义的典型单位是词汇而非短语。[92]由于人类大脑理解词汇并非是在孤立条件下,而是在更广的语义(和语用)上下文中,如果仅仅查询词典以确定《宪法》类术语的组成,往往会遗漏意义。[93]
“公共使用”的解释问题恰可证明这个观点。如托马斯大法官在Kelo案中一样,我们可以查找“使用”一词在建国时期词典中的释义。但是公共使用的交际内容可能并非取决于“公共”和“使用”意义之和,这时候词典便有了误导作用。短语内涵的交际内容并不总是等于组成它的各词语表意之和。[94]这便是语言学上的“词语组合性”:“复杂表达的意义”是指“它的语义组成部分意义的组合功能”。[95]有时候并非是词汇合并产生的意义,而具有单独意义,如“no fear”“at all”“for good”。[96]相关的问题是“习语原则”,或是“半预置短语”构成固定的交流选择,尽管这些短语的形式是可拆分的[97],如当然(of course)或事实上(in fact)。我们可以在词典里分别查找“of”和“course”的含义,但这样做永远找不到“of course”这个短语的准确含义。
“公共使用”可能是同样的短语类型。也可能是在法律语言(legalese)中具有特殊语义的短语。[98]倘若这样的话,我们无法通过查找词典发现这个短语的准确交际内容。[99]“家庭暴力”(domestic violence)同样如此,我们可以在建国时期词典中找到对于“domestic”和“violence”的释义,并得到一个非常具有当代意义的交际内容:是指一种造成家庭成员人身伤害的暴力行为(第四部分第一节已论述)。
(2)多义词。第二个问题在语言学上称之为多义词,是指一个术语内涵多种意义。这是无法确定交际内容的普遍原因。当某一词汇具有多义性,我们无法通过词典确定其交际内容,原因如下。
首先是由历史上词典的本质决定的。[100]最多被引用的词典是塞缪尔·约翰逊1773年编著的《英语词典》(Dictionary of English Language),以及诺亚·韦伯斯特(Noah Webster)1828年出版的《美国英语词典》。这两部词典,同历史中其他词典一样,均是“剽窃”的产品。[101]韦伯斯特抄袭约翰逊,而约翰逊恰恰借鉴了他的前辈们。[102]表明这个时代的词典有可能创造出(共识)性错误。如果我们参考了诸多建国时期词典,找到了一个对于“商业”的统一解释,很可能便会接受这个意义,却可能是错的。共性可能只是剽窃的结果,如果约翰逊遗漏了商业的其他意义,那么韦伯斯特很可能会延续这个疏忽。
其次,另一个问题是建国时期的词典可能仅由两三个人编撰而成,以彼时最有影响力的两部词典(约翰逊和韦伯斯特)为缩影,便可窥一斑。[103]因此,与《宪法》同时代存在的词典特质,仅是反应这些词典编撰者对词语的理解,而非出自大众的认识。但所有词典均非“出自词典学上的西奈山”却是“人类的产品”,一部由一两个人编撰的词典,易受影响的事实是“人类,尽最大的可能,把他们的偏见带进了其编撰的词典中”。[104]那么,约翰逊的词典反映的究竟是彼时真实的语言使用,或仅是个人的观点便无从考证。
再次,建国时期词典的释义更多的是规范性(perspective)的,而非描述性(descriptive)的(直到至少20世纪后半期)。[105]标准的(或规定的)词典“确立了正确的意义和发音”,提供给读者的是词典学者认定为“合适的”单词释义。[106]基于此,“规范性学派很依赖词典编撰者们定义和发布的术语意义和使用。”[107]
另一方面,“一部规范性词典的编撰者如何描述一个单词的用法,即便与其他规范性描写不同,也不能决定一个单词的实际用法”。[108]“正是因为我们看到词典在一个以语言不确定为特征的社会中所起的作用,所以可知,规范性词典学在美国与词典编撰一样古老”。[109]因此,建国时期词典的规范属性,使得它们于确定实际语言使用而言毫无裨益,就像斯特朗克和怀特在《风格的要素》中提到20世纪人们使用语言更多的是被规范如何使用,而不是语言的实际使用。[110]
词典学家要么是融合派(结合意义),要么是分裂派(区分意义)。[111]即便抛开建国时期词典编撰人员少的问题,单就当时所能查询的有限参考资源来看。编撰者均倾向于融合派,对词汇的采用宏观语义描写而忽略细微语义差异。
即使我们信任词典所列意项,我们仍难仅凭此寻到一个可信的交际内容。而描写型词典却是词汇意义的“博物馆”,[112]是指词典所列义项涵盖完整,不做删减,也不会规定具体语境下倾向使用哪个义项。
谈及挖掘法律词语的交际内容时,是在谈词语的“一般”意义。它更像是一个经验问题,词汇的常用意义。[113]但词典未能解决这个难题,“尤其被法院引用的专门词典……未能列出所查词汇的相对使用频率”[114]基于此,很难通过查询词典来确定“商业”一词的一般用法。查询其所有义项,更让人感到困惑,无法抉择。
(3)错误的时间框架。依赖词典的第三个问题是时间框架,上文提到的韦氏词典《美国英语词典》在某种程度上不够“古老”。1828年词典编撰时是在批准《宪法》后40年,这样看来,词典中的英语并不是《宪法》创立时期的语言记录,而且40年间的语言变迁足以影响词典中收录词汇的语言使用。
从相对角度来看,1828年的这部词典又十分“古老”。与同时期的其他词典一样,其中的语言例释来自更早时期,莎士比亚和圣经时期。某种程度上,韦伯斯特也许忽视了直至《宪法》创建时期,此百年间的大规模语言变迁。
对于约翰逊词典来说,这问题更加敏感。“约翰逊词典使用的英文句例来自《宪法》起草时间的32年之前。”[115](某种程度上,约翰逊盗用了早期词典或其他来源。)对于怀疑之前32年或之后40年时间是否足够发生语言变迁,我们下面来论述一下10到20年间“家庭暴力”一词的已发生的意义变化。[116]
2.词源学的缺陷
词汇或短语在词源学上产生的问题更早。如果一个词汇的用法和理解随着时间演化,词汇的历史族谱会引导我们找到一个过时的或绝对的定义。[117]因此,如果我们试图重塑特定时期、特定语言中一个词汇或短语的普通意义,我们不能通过进入另一种语言中追溯词汇的原型来实现。词源学方法会误导我们将12月(December)理解为一年中的第十个月,又或文选(anthology)是一种手捧花。[118]
我们没有理由去相信在十八世纪晚期的普通美语中,“商业”或“公共使用”的词义与它们的词源相同。基于此,没有必要诉诸于词源学上其他语言去寻求词语的交际内容。
3.建国时期文学作品中的语言直觉和例句
可以认为,词典的不足之处来自于法官的语言直觉,多数以建国时期文学作品中语言使用为参照。如果想挖掘“家庭暴力”和“公共使用”在短语中的意义,我们可以回到建国时期文学作品中寻找。如果能够找到相关短语的诸多例释,也许可以克服上文提及词典的种种不足。通过收集足够多的例子去证实短语的意义和一般用法。
21世纪,法官的语言直觉并不足以确认250年前语言的交际内容及用法。我们这个时代的法官更易受词语的当代用法所左右,忽视语言变迁的影响。[119]因此,直觉让我们执着于自己的偏见,“关于《宪法》语言‘应具有什么意义’”。[120]“这些笃信(司法)直觉的信念可能不是透明的”。换句话说,(法官们)可能有着对于《宪法》语言强烈的直觉,以致于“无法认识到他们自己的偏见和预设”。[121]
在制宪者甚至是大众作品中,寻找或倾听实际发生的语言使用。需要我们确定适当的时间框架,参考整个短语(即更大的语境中)的表达。如果需要找到关于某个词汇或短语的普遍用法或意义,却又希望避免数据库小、个人的直觉偏见或推理动机的风险,我们的数据库应是更大且更具代表性的。
第三部分 语料库语言学分析:判断原始交际内容的更优方法
基于以上原因,我们建议使用一种更好的工具来判断《宪法》的原始交际内容,从语料库语言学领域入手。首先描述语料库语言分析的性质,并确定语料库(数据库)和所使用的工具。继而强调本文使用语料库的特点,并分析第四部分中的解释性问题。
一、语料库语言学的目的
语料库语言学是系统分析真实语言数据的学科,认为“了解语言如何工作的最好方法是分析语言的实际使用。”[122]为了弄清楚一个短语的常用含义,语料库语言学家会研究该短语在数据库或语料库中自然使用的大量实际例子,并结合“定量和定性分析”。[123]“语料库语言学的主要目标是研究结果的可复制性。”[124]重点是保留“比其他方法更具普遍性和有效性的研究结果”。[125]语料库语言学通过考察预置的、自然发生的语言分析,也避免了霍桑效应(Hawthorne Effect),即当人们知道自己被观察时,他们会改变自己的行为。[126]
二、语料库
语料库语言学家所研究的自然语言所存储在的数据库被称之为语料库(corpora)。常见的语言学语料库包括报纸文章、书籍或法律文本的数据库。
语料库语言学家致力于开发合适的语料库。库容的大小和是否具有代表性尤为重要。一个通用语料库旨在代表一个广泛的语言社区,比如整个国家。而一个特殊目的语料库则是收集一种更为有限的语言群体的语言,例如在一个地区或说同一语言的人之间所说的话语。
语料库可以是静态的,也可以是动态的。历史语料库(historical corpus)是静态的,它收集特定时期的语言使用示例。相比之下,监控语料库(monitor corpus)是一个动态的语料库,它不断地更新,以反映语言使用的不断发展。
语料库可以包含嵌入的语言元数据。例如,一个句法分析(parsed)语料库,包含单词的句法属性元数据。标注(tagged)语料库包含了语料库中每个切分单位所承载的词类元数据,而生(raw)语料库则不包含任何语言元数据,只包含单词。
三、工具
语言学家通过对这些数据库的系统检索,开发了分析语言用法和意义的工具和方法。这些工具可以分析出“仅凭人类语言直觉”通常是不可能产生的认识。[127]
语料库语言学家分析频率数据。他们可以评估一个词在一定时段、不同体裁或语域中的使用频率。[128]也可以分析给定单词或短语的不同意义。通过将语料库中一个词或短语不同意义的相对频率制表,语言学家可以完成词典所不能做到的事情:在给定的语言环境中辨别出某个术语的更多常用含义。
频率数据的列表需要“标注”,或对检索结果进行分类。在语料库语言学中,标注越来越多地借鉴调查和内容分析方法中的原则和实践。[129]第一步是在语料库中进行检索,来核查目标单词或短语的每个例证。在例证相对较少(大约100个)的情况下,标注人员可以分析每个索引行;在示例较多的情况下,分析查看其中的随机样本。[130]
通过观察语料库中文本的“索引行”,语言学家可以研究自然语言中给定术语或短语的大量例子。这使得语言学家收集的信息比仅从字典中获得的信息多得多。这样可以产生一个广泛的、有代表性的样本,而不是一组孤立的,择优挑拣的句子。意义分布标注(来自索引行分析)可以说是语料库最重要的用途;其他工具在本质上是探索性大过证实性(或者最多只能提供无力的意义证据)。这种标注在本质上也是最定性的,因此需要做的工作最多。为了对本文中所分析的词语和词义进行标注,我们的阅读量大约相当于《哈利·波特》小说的内容[131],至少要阅读每个单词前后的段落。[132]
语料库语言学家还通过分析词的搭配(collocation)来分析词义或用法。搭配是指中心词的邻词,常出现在一起的词语。一个词或短语与另一个词或短语的搭配可以告诉我们一些关于意义或交际内容的有效信息。这是一种法律早已所接受的语言现象。我们法律解释长期以来一直信奉“文字上的推理”(noscitur a socialis canon of construction),“从上下文而断其意”[133]这反映在语言分析中,通过搭配,“应该通过搭配,去了解一个词”。[134]
语料库语言学分析也“观察一些固定词组的变化,通常被称为词块(lexical bundles)”。[135]词块通常被定义为三个或更多个词的重复序列或分组。[136]在其他语言学界中,这些词块被称为N元模式或词丛。本文依语料库软件中的指称,称其为词丛。(“Do you want me to”和“I don't know what”是英语会话中最常见的两个词丛。[137])词丛是“不完整的短语”,并且“具有统计学意义(通过大量的共现来确定)。”[138]
语料库检索不仅可以在词的层次上进行分析,还可以对多词短语进行分析。它还允许通过检查特定句法结构中的术语或短语来考虑上下文,如由特定形容词修饰的名词。我们不必求助于字典来查找“public”和“use”,而是可以查找“public”实例,因为一个短语的含义可能超过其各组成部分的总和。此外,语料库检索可以生成与实证问题相关的数据,即一个给定术语在两个(或多个)不同意义中使用的频率:可以计算出给定术语在竞争语义中的使用频率。这有力地证明了,该意义是这个术语或短语在创造时最常被理解的方式。
语料库分析也带来了信息透明(transparency)。大多数人没有机会接触建国之初的词典(尽管更多的词典已被上传至谷歌图书上),也没有机会触及在原旨主义者们的学术研究和司法意见书中晦涩的历史资料。但只要能够上网的人均可查询这样的在线语料库,运行相同的检索,分析文章、摘要或观点中所依赖的相同数据。使用传统的原旨主义研究者工具,有一个要素是“我说的都是真的”。但语料库分析使调查民主化,向所有人开放数据并从中得出结论。没人会相信原旨主义研究者的话。任何人都可以看到相同的数据,并试图复制或伪造结论,这本身就是进步。
四、建国时期美国英语语料库(CIFEA)
如果我们想评估一个特定术语在十八世纪末的一般用法,需要一个数据库,能够广泛代表了这个时代的语言社区中各种流派或语域的用法。同时需要一个足够大的数据库,以便检索出足量的“示例”,从而产生用于频率、搭配和索引分析的代表性样本。
直到最近,还没有这样的语料库存在。美国历史英语语料库(COHA)基本建成。但这个语料库只追溯到1810年,对于建国之初的分析来说,已经晚了几十年。COHA也不包含法律材料。
这个缺点很快就会得到弥补。建国时期美国英语语料库目前由杨百翰大学法学院开发。COFEA将涵盖1760—1799年,即从乔治三世统治初期,直到乔治华·盛顿去世。[139]我们在进行分析时,COFEA正在构建中,所以尚未公开。[140]但我们已经参与了它的开发,并可以挖掘核心组成部分去进行本文分析。这些部分包括埃文斯美国早期图书系列(the Evans Early Imprint Series),国家档案馆建国者历史文献在线(the National Archives Founders Papers Online,以下简称:Founders Online),以及来自Hein Online的材料。这些语料库一起构成了一个生历史语料库。单独来看,其中一个是通用语料库,另一个是特殊语料库(旨在评估特定社区或法律中的语言使用情况),另外一个两者皆有。
埃文斯美国早期图书系列包括“1640年至1821年间占美国出版近三分之二的书籍、小册子和印刷品”。[141]这是一个通用的历史语料库。在埃文斯集团提供的近4万种图书中,密歇根大学的在线文本创建合作伙伴关系(the University of Michigan' s Text Creation Part-nership)与埃文斯系列的所有者合作,“创建6000种精确键入和完全可检索的……文本版本……这些文本完全对公众开放。[142]我们在本文中使用的COFEA数据库包括1760—1799年间所有可检索的埃文斯系列文本。
国家档案馆的建国者历史文献数据库包含“美国六位建国者的通信和其他著作:乔治·华盛顿,本杰明·富兰克林,约翰·亚当斯(和家庭),托马斯·杰斐逊,亚历山大·汉密尔顿”,[143]数据库收藏还包括各行各业的美国人写给他们的信,包括普通公民。我们再次将日期范围限定在1760—1799之间。我们使用的COFEA数据库包括2015年秋季之前下载的所有的建国者数据库里的文档。
COFEA数据库的另一个子库由Hein Online提供的材料组成。Hein与比亚迪合作,提供创建COFEA的材料。我们的Hein语料库包括1760—1799年的法律资料、判例法、法律文件、立法辩论和资料等。
目的是建成一个库容大又有代表性的语料库。COFEA语料库现已建成,包括超过100,000篇文本和超过1.5亿个单词。数据库里的样本平衡,具有代表性。它不仅包括法律资料,还包括普通美国人的著作。埃文斯是公众使用的象征。另一方面,Hein为我们提供了一个使用法律的窗口。而建国者在线提供了其他两个数据库中无法提供的资料——建国者和其他人的通信。这些子数据库为我们提供了美国建国时期语言使用的全貌。
由于COFEA语料库的子数据库不同,它们提供了一个可以进行比较的窗口,以确定给定的术语在法律材料中是以某种方式(或多或少地)使用的,还是在普通题材中使用的。这反应在原旨主义研究者可能去做的各种研究中。埃文斯的资料最能让我们了解普通大众的使用情况,对原初意图的探寻可能更依赖建国者在线资料。对于那些对建国之初的美国律师如何理解《宪法》语言感兴趣的人来说,Hein数据库可能是最有用的。换句话说,COFEA将成为所有原旨主义研究者的工具。它可以提供与原初公共意义、原初意图或法律原初意义[144]相关的例句和数据。
但我们承认,COFEA至少在三个方面不能完全代表我们研究的目标群体:建国之初的美国公众。首先,COFEA中的演讲绝大多数来自白人男性。这意味着妇女和非白人(主要是黑人和美洲印第安人)的代表性不足。如果建国之初的女性和非白人的语言用法与白人男性的不同,这点就显得尤为重要。COFEA对此无法解决。
其次,COFEA中的文本是大多数精英发声的代表。甚至埃文斯材料中的文本和建国者在线的材料,即便普通人写的信也是出自受过教育的人笔下,这些人至少有一定社会地位,足以出版一本书或有一份不错工作。不是每个人都能在《宪法》批准时阅读,[145]甚至那些不可能一直保存他们的著作的人。与那些社会地位较低的人相比,社会精英更有可能保存和数字化他们的作品。这也是COFEA不完全具有代表性的一点(我们需要补充,这并不是COFEA独有的缺陷,但凡处理历史文献时,这始终是一个问题)。
第三,COFEA在建成之初并没有包含足够多的英语文献类型样本。目前COFEA数据库中明显缺乏报纸这种文本类型。创始报纸是文章、信件、随笔等的集合,而不是以独特风格撰写的新闻文章。虽然与比现代文库相比,缺失情况并不严重。但这仍然是一种遗漏。COFEA目前没有《宪法》批准辩论的材料,从分析批准者们对《宪法》意义的理解上说,这是一个非常重要的材料。
COFEA的代表性因此并不完美。但亦是对现有资料的巨大改进,是目前最好的研究工具。[146]还有个优点值得一提:COFEA中绝大多数的文件收集并不是为了理解《宪法》的含义,这些选入COFEA的文件并没有针对合宪性问题的考虑,而是由国家档案馆项目的编辑,埃文斯系列的编辑和Hein Online的编辑们挑选出来的。这些均为重要的特性(不是漏洞)。COFEA中的材料为语言意义的研究提供了真实窗口。《宪法》论辩所涉材料也许有助于对原初意义的分析。但对于《宪法》语言的交际内容,COFEA或具误导性。参与论辩者并非旨在传递法律文件的语词意义;他们的目标更具政治性。[147]基于此,COFEA本质上是“双盲(double-blind)”:文件的创建者和编撰者都不知道这些文件会被用来挖掘具体的《宪法》问题。这便减少了原旨主义研究中的偏见。
第四部分 数据驱动分析
我们在这个部分提供了可复制、可证伪的数据,这些数据与十八世纪末《宪法》的条款可能均与其交际内容有关,运用数据的目的是弥补现有研究方法的局限性。我们说明了语料库分析如何根据更广泛的语义环境来评估交际内容、进行多义消歧,以及聚焦时间框架。
我们利用COFEA语料库中的数据库,对上文所提《宪法》中四个条款进行语料库语言学分析,包括《家庭暴力条款》(Domestic Violence Clause)、《商业条款》(Commerce Clause)、《征用条款》(Takings Clause)中的公共使用限制条款和《自然出生公民条款》(Natural Born Citizen Clause)。
一、内部暴力
我们从一个相对清晰的例子谈起。历史上从未产生过关于内部暴力交际内容的诉讼。但学者们已经确认这一术语出现过语义变化。这个词的当代意义总是指向“家庭内的暴力或侵略行为,特别是对伴侣的暴力虐待”。[148]在造词之初,它却具有不同的含义,被理解为暴动、叛乱,或在一个国家内部发生的暴乱(与引言中内部安宁“domestic tranquility”形成对比)。
这似乎没有争议,与我们的语言直觉是一致的(并得到《家庭暴力条款》语义环境的支持,该条款出现在第四条的一项规定中,不仅规定保护一国不受“内部暴动”之害,且“不受侵犯”[149])。如何证明呢?我们可以在建国初期的词典中查找“domestic”和“violence”,并得出一个与我们对“内部暴力”一词的现代结构相一致的理解。[150]我们如何才能确保“防止内部暴力”的联邦保护,不会被误解为:防止来自家庭成员的攻击?
也许我们的直觉使然。我们可以找到“domestic violence”作为词块出现的例子,这比词典中分别查到单词的意思更准确。但怎么能确信自己对一种与现今语言相去甚远的语言的直觉呢?怎样才能确保我们找到的例句是有代表性的,而不是精心挑选的(以及动机推理的产物)?
答案是,我们可以收集一组18世纪使用“domestic violence”的数据,这些数据既透明又可证,可以为我们的直觉提供实证支持。
我们进行了相关分析,确认了上述直觉。数据显示,今天用来表示对某一家庭成员攻击的词组“domestic violence”,却是指在18世纪末发生的暴动或叛乱。
为了证明这一点,我们同时使用了COFEA(测试版)和COHA。首先,收集频率数据,这些数据表明,“domestic violence”在建国之初和1980年代之后的几十年中很少被使用:
图1 “domestic violence”一词在CIHA和CIFEA中出现的频率
频率数据并未说明任何关于“domestic violence”的含义。这可能只意味着,由于社会的变化,一个以前使用不频繁的术语变得与社会发展细细相关。但为我们指明了需要进一步研究的问题。为了探究该词使用频率会出现如此大增幅的原因,需要进一步考察它的搭配情况。我们将上述分析化为两个时间区间,即一直被使用但数量有限的区间(1760-1979年)和近期使用频繁的区间(1980-2009年)。搭配分析如下:
表1 “domestic violence”的搭配
续表
*=动词的所有时态;最低搭配频数为4次
同一术语在两个不同时期的搭配差异,与两个不同时期的频率用法一样显著。从历史发展来看,“domestic violence”与国家、入侵、各种形式的动词压制、暴动和其他政治行为体或术语相关。但在后期,“domestic violence”与早期的社会关系再无关联,转而与妇女、虐待、受害者、性行为和强奸有关。这一点通过比较每个时期最常见的名词(state〈s〉vs.women)、动词(protect vs.usage)和形容词搭配(foreign vs.national)得到了证实。显然,这个词的搭配方式,以及它的语义环境,已经发生了巨大的变化。这意味着“domestic violence”的含义同时发生了变化,但为了确认这一假设需要对文本进行标注。
记录语言变迁最可靠的方法是对意义进行标注,并通过索引行来观察随着时间推移出现的形式变化。与搭配词一样,我们在两个时间段内比较了两种含义所占百分比(以及是否存在第三种含义或者模糊含义)。得到了使用频率的巨大差异:
图2 “domestic violence”一词在CIHA和CIFEA中出现的频率
难以想象会有如此鲜明的对比。直到20世纪80年代,我们才发现这一术语明确含有“家暴”之意,而自1980年以来,作为两个多世纪普遍意义的“暴动”一词几乎完全消失,仅在20世纪80年代初被使用过一次,之后再也没有出现在COHA中。这不是语言变迁,而是语言离异(linguistic divorce)。语料库数据支持了这样的直觉,《宪法》在使用“domestic violence”时并不含“家暴”之意。
二、商业
《宪法》授权国会“管理……几个州之间的商业”。[151]“商业”一词涉及的问题与上述问题不同。我们可以查阅建国初期的辞书,当然其中包含第二部分第2节第1条中所列的所有缺陷。但我们面临的是一词多义的问题,没有迹象表明哪一个词义可以归属于《宪法》语境。如果没有语料库数据,很难消除歧义。
在探索数据之前,我们描述了文献中讨论的各种含义,并对其进行标注:
(1)意义1:货物的交易、易货、买卖(以及在定义范围内运输这些货物的事件)
(2)意义2:贸易商品的生产;制造
(3)意义3:任何具有经济要素的市场活动(包括贸易、制造业、农业、劳工和服务业)
(4)意义4:人与人之间一切形式的社会和经济交往,包括但不限于交通(即贸易)
(5)意义5:不确定
我们还标注了是否存在法律学界探讨之外的,其他类型的“商业”,但并未找到他意。难题是这些意义并不相互排斥。虽然贸易和生产的意义可能不同,但它们都符合广义的市场经济活动。而贸易也符合更广义的交往。文氏图有助于说明此类意义重复现象。[152]
图3 一词多义文氏图
1.频率
谈到数据,我们首先在COFEA三个子库:埃文斯、建国者和法律语料库中检索“商业”的用法。为了进行标准化比较,我们采用每百万词频为单位。
图4 语料库中“商业”一词的频率
虽普遍认为“商业”并非一个法律术语,但它在法律语境中出现的频率是普通语境中的两倍。一个词可以具有日常语义,但更常见于法律上。“警察(police)”可能就是一个例子。为了更准确地判断一个词是否是法律术语,我们需要比较其在不同类型文本中的意义分布。例如,如果我们看到一个词的意思95%出现在法律文本中,在普通文本中几乎从未出现过,便可得出结论:此乃法律术语。
同样值得注意的是,“商业”最常出现在建国者的通信中,考虑到他们的信件内容集中在管理军队和政府上,这并不令人惊讶。但两个含义并行不悖,一个是法律上的,一个是日常用语,这种频率分布并不能说明哪种“商业”的含义是最常见的。
2.搭配
接下来,我们使用COFEA分析了前30个“商业”一词的搭配。[153]此番做法并非由于搭配分析是确定词义的最佳方法,而是它可以为进一步研究做铺垫。我们在使用确认性(confirmatory)工具之前,转向探索性(exploratory)工具,运用探索性工具的发现会为确定含义带来帮助。
表2 “商业”一词搭配
②互信息值,参见Kenneth Ward Church &Patrick Hanks,《词汇关联标准,互信息值和词汇学》Word Association Norms, Mutual Information, and Lexicography, 16 COMPUTATIONAL LINGUISTICS 22, 23(1990)(互信息值“比较观察[词]x和[词]y的概率(联合概率)与单独观察[词]x和[词] y的概率〈几率〉”)。
③出现在COFEA中的特定搭配的,与“商业”意思接近的所有示例所占百分比。
④一个特定的搭配出现在COFEA中的总次数。
续表
其中一些搭配形式为讨论解释性问题提供了一定的(但不是很多的)信息。首先,排名最高的搭配词(经常与“商业”一词搭配的)是“友好”(amity)一词。(这个词本身出现频率也很高)。恰是由于美国与不同国家缔结了友好贸易条约,这些条约不是为了增加国家间的社会交往,也不是为了增加国家间制造业或农业合作企业的数量。它们仅仅是贸易条约。
其他一些搭配似乎均与贸易意义有关。例如,航海(navigation)及各类变体出现了四次,虽然航海意义繁多,但它与运输货物有关,因此与贸易相关。与贸易关系更为密切的其他搭配包括:弗朗哥—美洲(Franco-American)(可能与贸易协定或联盟的背景有关)、夺回(recaptures)、束缚(shackle〈d〉)、联络(liaisons)、非法(illicit)、掠夺(depredations)[154]、和掠夺(spoliation)。[155]这些证据可以模糊的发现“商业”一词的交易意义可能是建国以来最常见的语义。但是仅从搭配来谈,不足以回答上述有关交际内容问题。[156]
3.词丛(或N元结构)
研究数据的另一种方法是探索词丛。下面是十个最常见的3、4和5词单位的词丛,其中“商业”一词位于最左边或最右边。[157]
表3 商业(commerce)的N元结构
续表
这里出现了一些有趣的型式。首先,在这些词丛中,一些最常见的搭配词,“with”和“between”位于“商业”的右边,它们常常连接一些政治性的专有名词。这两个词与“商业”或“交往”的意义相关,但不符合制造业或所有包括农业或劳动力在内的经济活动。
第二,一些词丛指向其他研究领域:贸易条约、贸易委员会和商业保护。这些条约包括什么?在“商业”方面,这些委员会会做什么?如何保护贸易?这些问题的答案将进一步阐明这一时期“商业”的含义。如上所述,与另一个国家就农业、国内劳动力或制造业签订条约似乎很奇怪。但贸易条约却很自然。
第三,某些三词型式出现了,如“贸易和导航(commerce and navigation)”,或“友好和贸易(amity and commerce)”。有时这些型式表意特殊,词序不可互换。在语言学中,这类短语或词组通常被称为二项式(binomials)或多项式(multinomials)并列词组。二项式是“一对显示出某种语义关系的语言坐标单位”,通常但不限于名词对。[158]法律语言中的一个例子是“停止和终止(cease and desist)”或“帮助和教唆(aid and abet)”,有时称为法律中的两个同义词连用(legal doublets)。[159]“多项式与词汇具有相似的语义和句法特征,但由较长的相关单词序列组成。”[160]例子包括拥护、支持、赞成(hold, defend, and favor)或全部(lock, stock, and barrel)。[161]二项式被认为是法律语言的特征,在现代法律写作中出现的频率是非法律写作的五倍,使二项式用法成为“在法律语言中的一种风格标记”。[162]法律语言中的多项用法包括“给予、遗赠(give, devise and bequeath)”或“权利、所有权和权益(right, title, and interest)”。在法律写作中,二项式和多项式经常出现是因为它们能够“提高文档的准确性和全面性(虽然也出于文体原因,使用二项式和多项式是这一体裁的主要特征)。”[163]如果本文发现的词丛是二项式和多项式,那么很可能在使用时已经成为或正在成为[164]技术性或法律术语。
表4 词丛
最后一点,我们注意到更多的多项式单位。例如,在条约里,多项式“友好、商业和航海(amity, commerce, and navigation)”出现了153次。在这个多项式中用“贸易”替代“商业”是有意义的,但用同义词代替其他意义就不具它意,尤其在条约里:
(1)“友好、制造业和航海”(似乎不合常理,但友好和航海似乎与贸易的关系比制造业更紧密);
(2)“友好、农业/制造业/国内劳动力和航海(amity, agriculture/manufacturing/domestic labor, and navigation)”(这里同样有可能,但替换为commerce则与其他两项表义不甚相关);
(3)“友好,一切社会经济交往,航海(amity, all social and economic intercourse, and navigation)”(社会交往方面似乎与航海格格不入)。
多项式“农业、商业和XX(agriculture, commerce, and XX)”在COFEA出现49次,最后一个词是:
表5 多项式
约三分之二的情况下,“农业、商业和制造业”这一多项式都指向“商业”的“贸易”意义。“制造业”意义是冗余的;一个完全市场化(market-based)的经济活动也是如此,因为它已经包括农业和制造业;所有社会和经济交往(social and economic intercourse)似乎都太宽泛了,社会交往与农业和制造业并不相称。在最后一个检索行中并未找到“贸易”的同义词,去支持“commerce”所在多项式中包含贸易之意。
(4)意义分布。最后,分析“商业”要进行样本索引行标注。这是从语料库分析中确定意义的关键所在。相比较而言,前文所述的研究方法(纯频率数据、搭配和词丛)在研究交际内容上意义不大。换言之,本部分是最关键的研究步骤。下面是分析结果。[165]如图5:“商业”一词的意义分布所示。
图5 商业的意义分布
商业一词在埃文斯(Evans),建国者(Founders)和法律语料库(Hein)语料库中语义分布,从左到右的意义分别是:贸易(Trade -sense),生产(Production-sense),所有经济活动(All Economic Activity-sense),所有交往(All Intercourse-sense),不确定(Indeterminate)。
这里的结果与我们从搭配和词丛中看到的分析一致:“商业”一词的“贸易”意义占主导地位。这在法律(Hein)和建国者语料库中尤甚,随机样本中几乎不存在其他意义。正如所料,在更普通的语境中(Evans语料库),贸易意义出现的频率略低于不确定语义,[166]并且其他意义出现的频率最高,尽管仍然远低于“贸易”意义。
我们还将不确定但倾向于某种意义的结果与标注为特定意义的结果结合起来,看看如何改变意义分布。
图6 “商业”一词在语料库中的意义分布
将我们并不确定的句子添加到已确定的实例中,更加有力地证明了“贸易”是“commerce”在所有语类中最常见的意义。埃文斯的结果和另外两个语料库并不一致,虽然建国者语料库中的材料文本在本质上并不非是法律文本(大多是信件),但它们所涉及的主题与法律语料库的重叠程度远高于埃文斯语料库。亦说明单凭文本类型不说明问题,内容本身同样重要。
因此“商业”所含的“贸易”意义可以从搭配、词丛模式和意义分布得以确认。利用语料库的三方面分析,明显优于其他方法,可以增加我们对分析结果的信心。当然可做进一步研究,如分析狭义的“规范商业(regulate commerce)”的意义分布。语料库的价值在于能够对上下文进行切分,以获得与研究最相关的语义单位。
三、公共使用
下一步我们将讨论《宪法》征用条款中的“公共使用”一词。《宪法》规定:“私人财产在没有得到公正的补偿时,也不得用于公共使用。”[167]如在上述Kelo判决中,我们可以使用几种传统方法来辨别这一术语的含义。语言直觉可能暗示我们,公共使用意味着公众实际上可以使用的东西。但个人直觉是建立在我们头脑中“英语语料库”之上的,具有极独特性和现代性。我们还可以查找建国初期的词典,但我们仍需解决上文提到的难题,包括:这个词没有出现在语境中,必须从它的词语组成“公共(public)”和“使用(use)”来研究。最后,我们可以从建国之初的资料中,比如《联邦党人文集》中,找到一些例子。但这极可能是不具代表性的样本,数量太小,无法概括当时的美国英语用法。可以从中得出答案,但却不一定可信。
1.频率
以更严谨的方式研究“公共使用”的交际内容,是比较这一术语在三个小型子库(构成COFEA的语料库)中的出现频率。[168]与法律语料库(Hein)相比,这个术语在埃文斯语料库中出现的频率要高得多。它更多的出现在大众的语言中,也许说明该词更具普通表意。与之相反,则表示它是更具法律意义的术语,至少在法律语境下更为常见(意义分布能够有力的证实这点)。由于三个语料库的大小不同,为确保标准化比较,我们以百万词为单位:
图7 “公共使用”一词在语料库中的频率
在法律语言中“公共使用”的使用频率是通用语的6倍,在建国者信件中,“公共使用”的频率是通用语的3.5倍。这就表明这个词要么具有法律意义,要么与之相关,但却无法确认这样的推测。只有广泛地分析不同材料(普通文本与法律文本)的意义分布,才能确定其法律术语的性质。
2.意义分布
虽然我们对“公共使用”进行了搭配和词丛分析,但研究结果并没有说明哪种意义在建国初期最为普遍。这恰恰源于两种方法在本质上都是探索性的,而不是证实性的。下面我们讨论最重要的语料库分析类型:索引行定性分析。对于法律问题,这种分析最为相关,也最有可能提供数据佐证。
基于托马斯大法官在Kelo案的论述,“公共使用”在建国时有以下几种语义:
(1)意义1:政府、军事或公共所有或为某一目的雇用(狭义)。
(2)意义2:增加政府或公众的便利或以某种方式提供帮助,包括间接利益;即广泛的公共目的(广义)。
(3)意义3:其他意义。
(4)意义4:不确定。
我们不只标注上述这些意义,也许它们仍不能完整、准确地表达建国初期的语义;相反,我们在探寻其他尚未讨论过的语义。我们发现了一种新含义:一种恰似“公诸于世”或“获得某种公共利益”的意义,并被用于某种信息文本中。[169]这是一种尚未收录词典,也未经讨论的语义。我们不仅利用语料库数据证伪,亦是寻找新意义。
下面是取样材料中发现的意义分布。材料既是以语料库检索结果为重点,也重点考虑其意义。[170]
图8 “公共使用”一词的意义分布(以意义为分类标准)
托马斯法官据理力争的狭义理解要比Kelo案中多数判决意见所采用广义、广义理解的用法普遍。根据不同语料库检索,狭义理解的使用频率是广义理解的5.3倍(Evans)、53倍(Founders)或无穷倍(Legal)。事实上,第三种意义,“公开信息;通过披露某些信息获得公共利益”比广义理解更为常见。
同时发现不确定含义与狭义出现的次数相同。因此,我们在对“公共使用”的交际内容进行挖掘时,需要处理大量歧义问题。理论上,“公共使用”的“不确定”意义可能成为广义的一个例子,使两个意义的分布大致相等。我们便在不确定其用法时,也对倾向意义做了标注。
图9 “公共使用”一词的意义分布
图10 “公共使用”在语料库中的倾向语义图示
当我们在一个不确定的语境中判断其倾向意义,均指向狭义。通过对这些标注为不确定语义,但却具倾向语义的结果分析后,可以得出,与广义理解相比,公共使用狭义理解的使用概率分别是5.7倍(Evans), 29.3倍(Founders)和97.8倍(Legal)。我们不需要确定决定关键意义的分界线在哪里。[171]如果编码意义的百分比差异,比误差范围要大,而且有显著差异的话,便可以认定这个线图就是合理的。或者可以想象一个更高的标准,一个特定意义的百分比必须达到某个阈值(或某个比例,一个意义和下一个数量最多意义之间的比率,作为某个最小值)。以上任何一种标准之下,公共使用的意义都是清晰的。
基于此,目前尚不清楚狭义的“公共使用”是否属于法律术语。(狭义理解在普通文本中占主导地位的事实也可能降低了它作为法律术语的可能性。)但鉴于《宪法》属于法律文本,在COFEA的法律材料(以及建国者的信件)中,与普通材料相比,狭义理解甚至比广义理解更为普遍,这进一步证明了《宪法》的“公共使用”交际内容倾向于术语。因此,虽然我们在此谈论的是可能性,但有力的证据表明,托马斯法官是正确的:当《宪法》出现“公共使用”一词时,它意味着“政府、军事或公共拥有或直接使用该项目的目的”,而不是Kelo案多数判决意见提到的“间接的、广泛的利益”。
四、自然出生
除了那些在《宪法》通过时已经是美国公民的人,“只有美国的‘自然出生的公民’才有资格担任总统。”[172]如果依靠传统的研究工具,我们将面临与“家庭暴力”一样的困境:在有问题的建国时期字典中,仅可查两个不同的单词,根据上下文中这个词的几个例子,或者用我们现代的、独特的语言直觉去确定意义。不清楚后者会告诉我们什么,也许这个词指的是那些不包括剖腹产出生的人?
下面是“自然出生”在语料库中的出现频率,这有助于说明这是普通词汇还是法律术语,或其他特殊含义(尽管频率数据不能完全回答这个问题)。
图11 语料库中“自然出生”一词的频率(以每百万词频为单位)
“自然出生”在法律语境中更为频现,是普通语料库的2.75至2.87倍。如果同时存在法律意义和非法律意义上的“自然出生”,这些数据说明《宪法》中的所提意义为关键词义;但仍需分析意义分布。“自然出生”的所有意义均具法律倾向。基于学术研究,[173]我们为“自然出生”创建了以下意义类别:
(1)意义1:出生在主权领土内的人,不论其父母的身份如何(包括出生在主权领土外的外交官)。
(2)意义2:出生在主权领土之外的人,生父是本国人[174]。
(3)意义3:天生的地位是由立法行为赋予的人。
(4)意义4:不确定。
我们还对自然出生在某种意义上被使用的可能性进行了标注,但没有发现这样的例子。所有这些意义似乎均具法律意义,为了试图回答哪个法律意义是最关键的,我们从索引行分析转向意义分布。[175]
图12 “自然出生”一词的意义分布(以意义为标准)
“自然出生”一词的使用时间太不确定,以至于很难对其进行意义标准,这种情形所占百分比极高。严重削弱了我们从数据中得出结论的能力[176]。
图13 不同语料库中“自然出生”的意义
在研究结果中发现,尽管“自然出生”的三种意义均倾向法律方面,但在普通语料库中(来自普通作者,非法律文本)不确定性最低。或因为它所涉普适的法律意义足够清楚,但不普遍的法律意义并没有渗透到建国初期的通用美国英语中。
下图是具倾向意义的结果图示,很多时候我们无法确认是哪一种意义的“自然出生”,基于地点还是父母出生地原因。
图14 语料库中“自然出生”倾向意义的分布
标注倾向意义带来了高度的不确定性。但当不确定性被忽略时,基于地点“自然出生”意义似是最常见的意义,因为人是在某地出生的,而不是出生在某家(出生在国外,大使的子女除外)。这种基于地点的释义在普通语境(埃文斯甚至建国者语料库)中数量更多,在法律语境中则不那么突出。原因尚不清晰。或许一个普通的美国人在建国之初对“自然出生”的理解更依赖确定的地理位置。而同一时期的美国律师则对此存疑,至少可以从更细微的角度来理解这一条款的含义。“自然出生”是语料库分析局限性的一个很好的例子,它有时并不能给出明确的答案。鉴于此,我们无法判定《宪法》中最有可能的“自然出生”的交际内容。在这个问题上,还需要运用其他研究方法。
第五部分 贡献和说明
我们笃定地提倡将语料库语言学分析用于发掘《宪法》的原初意义。传统的研究工具在某种程度上有不足。而数据驱动对于原旨主义研究来说是一种必要的方法。
目前,这种语言工具的应用还处于初级阶段。关于如何以及何时完成这种数据驱动研究,仍存在许多问题。下文中,我们首先强调了语料库语言学对原初意义分析的特别贡献。继而,阐述该工具在应用于原旨主义研究时存在一些固有的局限性,并尝试回应。
一、贡献
使用语料库语言分析《宪法》的原始交际内容有三处优势。语料库分析(1)解决了传统的交际内容研究方法(词典和小的、非随机的用法样本)的不足;(2)激化了关于何时以及如何解决原初意义歧义的争论;(3)促进了关于《宪法》系通用英语撰写还是用行话书写(目前为止,此类研究很少)的争论。
1.语料库分析解决了传统查证的缺点
如上述,词典没有考虑足够的语义环境,无法告诉我们给定术语各种意义中哪一种更为普遍,并且通常没有根据相关的时段进行校准。而语言直觉的使用,正如建国时期文献中的一些例句所证实的那样,可能是动机推理和精心挑选的产物,是不透明或可证伪的。语料库语言分析的一个主要贡献是克服了这些缺陷。这一点最容易通过“家庭暴力”的例子来说明。我们现可得到一些数据说明,“家庭暴力”一词几乎完全是用来指暴动或叛乱,而不是用来指家庭内部袭击。利用语料库,我们可以以一种系统、透明的方式呈现数据,保证我们不会为了达到研究效果,以偏概全的挑选例子。[177]更为重要的是,我们可以保留数据集(以及收集数据的方法),这种方式欢迎复制和证伪,允许任何人对我们的分析提出质疑。
传统的原旨主义研究方法从未有过类似特征。语料库语言分析是克服传统词典和推理研究局限的重要突破,加剧了对法律解释“标准图景”的争论。它奠定了数据透明、可证伪的研究基础。这是一个重大的进步。尤其是在每个人都故步自封,坚持己见的传统研究中。
2.语料库分析加剧了关于何时、如何解决原初意义歧义的争论
语料库语言学也加剧了原旨主义理论各个分支间的争论。分歧的关键所在是如何处理歧义(或模糊或其他形式的不确定性)问题。一些原旨主义研究者认为存在一个“构建区域(construction zone)”,建立在确定歧义的基础上:是一个不再依靠对原始交际内容的探寻,而是将确定《宪法》规定和标准的任何政策依据考虑进来。[178]另一些人则建议通过其他方式来消歧:通过“原始方法”[179],或者适用合宪性推定(或者换句话说,担负沉重的违宪举证责任)。[180]
争论经常绕过一个重要的基础问题,关于模糊性的何种性质,或达到何种程度?可以成为终结辩论规则(closure rule,以下简称终结规则)的必要条件。构建假设的支持者提出,“文本的不确定性”为法官(或其他政府行为主体)的介入,并在《宪法》“框架(framework)”之上构建“摩天大楼(skyscraper)”留有空间[181],而“框架”是由《宪法》明确的原初意义决定的。[182]批评者对构建的基础或必要性提出异议,坚持认为消歧更好的方法是通过原初的解释方法,或是对合宪性的假设。
麦金尼斯教授和拉帕波特教授充分认识到了理论上的困难。他们注意到一个关键问题,“什么构成了(某种)模糊”,这是打开构建区域大门(或通过其他方式消歧)所必需的。[183]因此,麦金尼斯和拉帕波特提出了有益的探讨,当存在两个看似合理的原初意义,且“一个比另一个有更有力的证据”时,或者只有当这两个含义中的每一个“绝对平衡”时,原旨主义研究是否需要一个终止辩论的规则。[184]他们,后一种歧义似乎“不太可能”,前者并不是一个真正有关模糊性的问题,而是主张占有“更有力的证据”的一方获得原初意义解释的获胜。[185]
但迄今为止,研究者尚未再深入研究此类问题。理由很充分:我们从来没有办法去评估《宪法》某一特定条款所含交际内容的模糊程度;模糊程度一直是种理论构建(就像麦金尼斯和拉帕波特所断言“平衡”是“非常不可能的”)。情况并非总是如此。至少对于一些具有原初意义的问题,我们可以收集和分析《宪法》所含交际内容歧义的数据。这样可以促进更合理的辩论,有关终结规则的适当性和基础作用。
这一点通过上文提到的“商业”问题可以得到充分说明。与“家庭暴力”一样,有关“商业”的语料库数据为我们带来了解细节的机会,这是在词典或历史文献的精拣例子中遍寻不得的。从语言上讲,“商业”的各种意义(贸易、生产、所有经济活动或所有交往)均有可能;但传统的方法永远不能为我们提供这些意义在相关历史时期使用的经验数据。我们现在可以考虑收集这个问题的硬数据,在可证伪的前提下以系统、透明的方式进行。至少可以说,数据告诉我们,商业的最初含义是指贸易。
到目前为止,我们只是重申了语料库语言学在第五章部分第1节中的主要贡献。以上,适用于“商业”。但局限是针对我们在这里强调的第二个贡献。语料库语言学可以为我们提供“商业条款”中交际内容所含歧义程度的数据。“商业”中贸易含义出现的频率远远高于其他含义,但也说明我们无法标注许多其他意义(包括生产、所有经济活动或所有交往)。这暗指了某种程度的模糊性,但并没有接近“平衡”。
这有助于加强谈论,关于对下一步该做什么。有了关于模糊程度的数据,我们可以进行更具系统的讨论。一种回答是这里没有真正的歧义,因此不需要终结规则(比如构建)。如果所有确定的语义数据都支持商业所含的贸易意义,合理可推,我们尽最大努力对这一条款原始交际内容的理解,却导致对它的狭义理解。可能此类便是问题的终结,切断了构建或确认任何其他终止原则的需要。
另一种可能反应是强调不确定或不可标注的索引行数量。“商业”的索引行中有相当多此类情况。有人会争辩,这里存在的模糊性足以支持进一步讨论。
值得注意的是,麦金尼斯和拉帕波特可能过于简化了他们的论点,当提到“平衡”或自信的认定一种结构相对于另一种结构的原旨主义观点显得“更强”的时候。[186]另有一些情形是“标准图景”(交际内容所含观点)根本不清楚。语料库数据可以辅助确定歧义的程度。
我们对不确定的商业索引行的数量是否足以造成歧义不做任何评论。但应注意到,这种可能性是我们解决此类问题采用“决策树(decision tress)”的一个步骤。如果原旨主义的研究导致了某种模糊,对语料库中语言数据的基础挖掘不足以解释,那么下一个问题就是如何解决它。对于像“商业”这样的问题,需要通过其他方法来缩小歧义。
其中一个方法是借助原初意旨进一步解析语料库,从而解决歧义。在商业方面,我们可以指出不同语料库之间的数据差异:“商业”的贸易意义在建国者语料库中出现频数更为显著(74%),该语料库中所含不确定的索引行更少(26%)。或许这足以解决任何歧义。这个结论对于原初意图原旨主义研究者来说,可能是一个相当完善的结论。但我们认为没有理由取消这种做法,即使是对原初公众意义的原旨主义研究者来说。他们更关心的是,文本显而易见的公共含义;但在对该含义存疑的情形下,可以通过推定公众对制宪者或批准者们意图的理解来解决问题。[187]
另一种选择是寻求其他原旨主义的方法进行消歧。或许“研究”相关时期的“文本”能让法官们解决语料库中明显不确定含义的语例。[188]或者,仔细研究“制宪记录”——即“先前(precursor)条款和建议”、起草历史、批准辩论、早期历史实践和早期司法裁决,将有助于解决这些问题。[189]
若非如此,我们就可以进行一场内涵更加丰富的辩论,讨论司法建设实践中终结规则的适当性和其根据,或通过应用原旨主义研究工具(类似教规或合宪性推定)来解决其他疑问。
我们的观点是,在处理这些问题时不提倡单一的传统研究方法。语料库语言学分析做出了积极贡献,包括量化《宪法》交际内容中歧义的性质或程度方面,从而为有关构建规则或其他终结规则的进一步讨论奠定基础。
3.语料库有助于分析《宪法》文本是由通用英语还是法律语言书写而成
同时,语料库语言学有助于激化原旨主义各子理论之间的另一场争论。公共意义原旨主义和方法原旨主义交叉点上的一个关键问题是《宪法》在多大程度上,是用通用英语或一种特殊语言:法律语言写作而成。双方都同意两种语言的存在。但两者都没有为区分它们提供合理依据。相反,讨论基于格式塔语言直觉(gestalt linguistic intuition),麦金尼斯和拉帕波特既列举了,①他们认为《宪法》中独具法律意义的条款,又列举出②他们认为既有法律意义又有通用意义的条款,同时还包括③含有“除了通用含义之外,可能兼具法律意义”[190]的条款。
这个问题对于原旨主义研究者对原始交际内容的探究是至关重要的。关于《宪法》是用法律语言写作而成,方法原旨主义者有实例去力证,语言歧义可以通过法律行话的交际传统去消解。但无人提出确定《宪法》中法律术语意义方法。
语料库语言学恰可填补这一空白。正如前文已经指出,第一步是比较法律文本中给定术语的使用频率与非法律文件中相同术语的使用频率。如果一个特定术语在法律文件中使用得更为频繁,则认为它“可能”是一个法律术语。我们说“可能”是频率数据不足以起决定作用。某些普通术语在法律材料中的使用频率可能更高,但在法律语言中没有特殊意义。例如证词(testimony)、律师(lawyer)或判决(verdict)此类,尽管这些术语在法律语言中出现的频率更高,但与通用语中的含义大致相同。
但其他术语在法律上可能会有不同的含义。深入分析语料库数据可以帮助我们解决这个问题。为了评估一个术语在法律中是否表意清晰,我们需要分别在法律和通用英语语料库中检索,对同一术语在索引行中的含义进行标注和比较。若该词的意义在法律语料库是独特的,我们可就此判断该词所具有的法律意义。
第四部分的语料分析对“公共使用”和“自然出生公民”的使用有一定的启示。这两个词在法律语料库中出现的频率都比在埃文斯(通用英语)语料库中出现的频率高。这初步表明它们可能是法律术语。进一步研究可以发现,“公共使用”在法律用语中似乎有着明显的含义:至少,我们可以说,“公共使用”的“直接”意义在法律语料库中出现的频率(78.2%)比在通用英语语料库中出现的频率(61.4%)高,而“间接”意义在通用语中出现的频率相对较高(10.8%),而在法律术语中出现的频率相对较低(0.8%)。表明“公共使用”在法律上可能具有不同的含义(但须遵守下文第四章第二部分第2小节中说明)。如果这些数字更加明显,例如狭义理解占法律语料库中“公共使用”意义的百分之九十,而仅占通用英语语料库中的百分之二十,那么我们将更加确信狭义理解下的“公共使用”是一个法律术语。
对“自然出生公民”进行数据分析更加困难。我们看到这个短语在法律语料库中出现的频率更高。但这并不一定意味着这个短语在法律上有明确的含义。在很大程度上,我们只是无法分辨“自然出生公民”是基于地点、基于父母或立法赋予权利。基于地点的表意在埃文斯语料库中出现更多。但我们没法确定这个短语在通用语中具有不同意义(异于法律用语)。相反,似乎这三种相互竞争的意义都是法律意义。这使得法律术语与通用语之间的争论变得毫无意义。
这恰好回应了对麦金尼斯和拉帕波特提出的《宪法》中术语分类。三类《宪法》术语分别为:第一类具有“明确法律的”,第二类是“模糊的”(指既有法律意义又有普通意义的),第三类是“除了普通意义之外还有法律意义的”。我们的数据分析提出了一种不同的方式来对三个类别进行概念化整理。若是一个仅在法律词典中使用的术语,换言之,只具法律意义,那么假定对交际内容的任何查询都会带来相同的结果。麦金尼斯和拉帕波特为这一类提供的例证包括:人身保护令(habeas corpus)、初审管辖权(original jurisdiction)和因叛国罪而被剥夺公权者(attainder of treason)。尝试辨别这些术语的意义,均会得出同样结论。如果这些是纯粹的法律术语,只在法律语言中有意义,那么无论在何处(法律语料库中或普通语料库中)查询语义证据都无关紧要。只有当一个词在两种语类中均有意义,且在意义不同时,《宪法》才使用法律意义上的或普通意义上的术语。这表明,方法原旨主义和公共意图原旨主义之间的争论点,需要仔细分析《宪法》中术语在不同语料库中的意义。这里需强调语料库分析的必要性,因为并无其他研究方法能够解释两种原旨主义的争论焦点。
二、说明
上文强调了语料库语言学在原旨主义研究中的独特优势。下面,我们列举了使用语料库语言学工具的一些注意事项,也是那些语料库分析似乎可以“解决”的问题:数据不确定时该怎么做?法官有能力进行语料库语言分析么?
1.语料库语言分析的适用范围
基于语料库的原旨主义研究(corpus-based originalism)的一个基本问题便是它的适用性。本文以《宪法》解释的“标准图景”,即《宪法》词语的交际内容为出发点。论述了传统研究方法目前的不足,同时强调语料库语言学对解决这些问题具有的可靠性。
但我们需要注意:在本文中强调的《宪法》问题,并未涉及《宪法》交际内容中的一系列不确定性问题。我们提出运用语料库数据分析去解决的是词汇歧义,即《宪法》术语所含两个词义的竞争问题。上文提及的所有问题均属此类:“家庭暴力”“商业”“公共使用”和“自然出生”的歧义问题。这些例子具有代表性,而语料库分析,截至目前最适合解决此类问题。[191]这是我们关注的焦点。
这当然不是《宪法》中出现的唯一的不确定性。其中也包含语义或结构歧义的例子[192]:歧义源于单词的语义结构(与术语所含的竞争语义相反)。例如,第二修正案中的“训练有素的民兵(well -regulate militia)”条款。产生歧义的重点是语义或结构歧义:“管理良好的民兵”条款是在修订或在某种程度上限制了携带武器的权利?或仅仅是序言?[193]语料库分析,或至少本文提到的研究方法对这类问题没有明显的用处。[194]
这并不是说语料库分析对这种歧义没有帮助。但需更多思考和分析。引用中关于《第二修正案》的问题,可以从某种形式的语料库分析中受益。[195]如果问题是,法律中的序言条款是否对执行条款有所限制。那么,运用语料库的法律进行大规模的分析恰是所需。我们未能尝试,也无法对其可行性发表意见。但无理由排除此类分析的可能性。如果一个法律语料库包含了足够多的序言条款,以及足够多的语言信息,让一个细心的读者能够辨别出该条款是如何适用于执行条款的,那么语料库语言学也可以扩展运用到语义消歧的问题上来。
2.不确定数据
第二个问题涉及不确定数据。我们看到了两个潜在的不确定性来源。首先是从相关语料库中挖掘的数据更具不确定性。这一点在上述自然出生公民的分析中最为突出。我们对数据中的推断犹豫不决,因为我们并不确定对诸多索引行的标注。然而,这并非是基于语料库的原旨主义所含唯一的不确定性。另一个是词典编纂中的词义划分所固有的。某种程度上,任一术语所含意义之间的划分是任意的。很明显,在意义划分的方式上有很大的主观性。[196]语言学家没有商定区分一个词意义的准则。[197]这意味着我们对一组相关意义的识别,在某种意义上是任意的,从而使语料库数据中提取有效信息的过程变得复杂。[198]
这就是语料库语言学的研究方法更适用于“家庭暴力”的分析。“暴动(insurrection)”和“家庭攻击(household assault)”意义区别非常明显,从我们收集的数据中极易得到确定结论。如果另一与《宪法》中术语意义显著不同的含义在语料库中广泛使用,我们便可确认这是该术语的交际内容。
但情况并不总是如此,当竞争语义密切相关时,困难便出现了。比如,术语的一个意义包含另一个意义,这恰是“公共使用”所含两种语义的情形。该词包含一种直接意义和一种间接意义,“公共使用”的间接含义更具普适性(为大众所接受)。直接意义(政府所有或直接使用)可被视为专门用例(specific example)。如果这是对两种语义关系的正确理解,那么如何解释语料库中出现更多的是“公共使用”的直接用法?这是否说明,征用条款中“公共使用”限制条件的原始交际内容是直接用法?或是,暗示了间接意义包括在直接意义中?这些问题很难回答,有理由质疑语料库语言学是否可以回答所有的原旨主义问题。
但这并没有削弱基于语料库的原旨主义贡献。至少,数据驱动的分析可以弥补现有工具的不足。用系统的数据取代精心挑选的句子,我们就可以对一个给定的术语或短语在建国时期的含义进行充分讨论。即使数据是无定论的,语料库语言学的贡献也是巨大的。在某些情况下,语料库分析只是原旨主义研究的第一步。如果数据不确定,便需要通过他法找到答案,借助解释的原初方法,建国者或批准者意图的证据,或是打开“构建区域”大门的判决。
这本就是语料库语言学的一个贡献。现有的解释工具在“标准图景”模糊时,会做出荒诞不经的猜测。语料库语言学的方法至少可以确定一个给定术语的原始交际内容是否足够模糊,以至于需要借助构建原则或其他解决方法。
基于所选理论,不确定性的程度本身便有助于原旨主义研究。例如,高度的不确定性恰支持基于塞耶举证责任的合宪性推定。[199]语料库语言学与任何其他原旨主义研究工具不同,它可以量化某一条款交际内容的清晰程度。尽管还有些内容需要注意,但总归是一种进步。
用于原旨主义的语料库语言学分析何时足够(或何时需要更多)是一个艰难的问题。但我们提出了一个基本决策准则。对原始交际内容的研究应该从两个问题开始,均指向语料库数据的结论性。若两个问题的答案都是否定的,那就意味着需要运用其他原初分析方法或终结规则。
(1)第一个问题是,语料库数据是否明显支持《宪法》术语的常用意义。
(2)第二个问题是,该术语所含诸多意项差异是否显著不同,均可单立成义。
在对“家庭暴力”进行的分析中,上述两个问题均可明确言是,由此结束讨论。对于“商业”,我们对第一个问题回答是肯定的,却不确定第二个问题的答案,这说明需要进一步的原旨主义分析。“公共使用”亦是如此(尽管可基本确定第一个问题)。而对于“自然出生”来说,由于无法回答第一个问题,第二个问题更无从谈起。虽然,什么是“足够清晰”和什么是“足够清楚”仍存在争论,并以待证明。但远优于备受争议的传统原旨主义方法。
3.语料库语言学分析的司法能力
一个普遍的对原旨主义研究的批评,是对法官所持公正司法能力的质疑。法官不是历史学家。准确的说,许多法官甚至是“糟糕的历史学家”,他们倾向于“虚构一段虚幻历史,并使用奇怪的非历史方法”。[200]有时,引用此说法去回避原旨主义分析。如果法官不能进行可靠的原旨主义调查,他们也许就不应该尝试。
如果这种批评成立(我们不这样认为,基于下文所提原因),那么应用数据驱动的原旨主义会让情况变得更加复杂。法官也不是语言学家。期望他们获得我们提出的基于语料库的分析所需的专业知识和熟练程度,也是不现实的。[201]
值得注意的是,“语料库数据的收集和分析,需要具备一些背景知识和应用方法的训练”[202]此外,“无论有意或无意,法官所提供的数据可能只是表面上的经验论”[203]我们可能会由此产生怀疑。诚然,法官会依靠专家分析和完善的抗辩摘要。我们仍认为,对法官和律师进行一些基于语料库分析(corpus-based)的训练,会对今后大有裨益。
以上注意事项并没有削弱这个项目的重要性。“事实上,法官和律师都是语言学家。”[204]这是真的,因为我们一直需要解决法律语言中的歧义。“归根结底,问题不在于我们是否相信法官能够进行语言分析。这取决于我们是否希望他们在现代工具的帮助下进行分析,而不是公然忽视或反对。”[205]此外,这些工具并没有那么复杂或艰深。“语料库分析就像数学”[206],基于基本原则每个人都可以实现,而更高级的查询将需要一些真正的专业知识。许多初级语料库分析非常简单,“就想想我们应该使用计算器,而不是在头脑中进行计算。”[207]
法律和语料库语言学运动最终会促进标准制定和最优实践。新生代的法律从业人士将学习使用语料库工具来解决法律中的语言歧义问题。在此之前,我们应该谨慎小心,却不能忽视这一重要工具。我们可能并非语言学专家,甚至不算是历史学家。但对于那些跟我们一样进行《宪法》解释的人(像历史学家一样)来说,我们只能引用斯卡利亚大法官和他的合著者布赖恩·加纳的说法:“我们的责任是去尝试。”[208]
结论:数据驱动原旨主义形成的限制
一些原旨主义研究者已经开始质疑原旨主义的创设宗旨:认为这种解释方法“限制”了司法上的自由裁量权。[209]也许原旨主义并非我们能想到最具约束性的解释理论[210]。但这样的“限制”会消失,肯定是被夸大了。本文的理论和方法可以帮助揭示其中的原因。
威尔·博德认为“方法论……更可能对法官‘施加’外部约束”。[211]他举的例子是“高度服从其他政府部门或严格遵循先例”。[212]但这些并不是独立的解释理论。在《宪法》问题上,没人总是顺从地相信政府其他部门。即便是严格遵循先例,也会导致无法通过先例来解决《宪法》的新问题。所以博德想象(imagine)的更加强制的理论,需要从一个基础问题开始考虑:去分辨政府其他部门所遵循的《宪法》基础,或当无先例可依时,告诉你要做什么。
那就留给我们的是原旨主义,或是某种形式的反原旨主义,比如实用主义。而且,原旨主义比实用主义更容易受到约束。[213]约束不仅是严格的确定性:确定一个人人赞同的标准答案。[214]原旨主义探究至少缩小了法官自由裁量权的范围。[215]从而产生了“内部限制”:允许“解释者对《宪法》的意义做出自己最好的判断”。[216]这种限制可能不会“轻易达成共识,或将大多数解释排除在合理的范围之外”;然而,原旨主义“仍可提供一种方法,用以排除与法律无关的考虑。[217]语料库语言学有助于规范上述限制的机制。
语料库分析产生的数据可以去支持,《宪法》交际内容中更具清晰的“共识”。可以让我们更准确的排除“不合情理”的文本解释。“语料库工具至少让我们有能力收集经验证据去支持结论。如果掌握这些数据,我们就有了对法官进行外部约束的坚实基础。
“家庭暴力”可以说明若无数据支持,法官完全可以认同,《家庭暴力条款》的原意,包含家庭暴力的问题。通过词典分析或其他方式,我们可以对以下观点产生一定程度的怀疑:只有一种明确的方式可以理解“家庭暴力”,或是“家庭暴力”意义是站不住脚的,便是语料库方法。我们现在确定,《家庭暴力条款》限于暴动行为。我们能指出,原旨主义是对法官进行外部约束的基础,以防其做出其他裁决。
“商业”一词的数据限制较少,但仍存在。基于上文提到的原因,我们可能无法确定“商业”所含意义,在建国时期是明显局限于贸易含义。我们的索引行中存在大量的不确定因素,一些“商业”的竞争语义,意义十分相近很难分辨。但这些数据仍可提供一定程度的语义限制,至少是一种内部限制,使得《宪法》解释者们找到它的最优语义。例如,一个重视原初意义的法官,便不会(根据我们的数据)发现商业一词中包含生产(production)意义的合理性。所有的商业交往意义几乎同样难以令人信服。那经济活动的意义呢?也许直接被否定,完全不具合理性(原因上文已经提到了)。但这些数据可以提供基础,用以确定商业一词所含主要是贸易意义。这样的基础至少可以产生,意义的内部约束,即为法官提供一种“排除法律之外的考虑”的方法来进行裁决。语料库方法的透明性,意味着其他人更易于基于数据去核实法官的判决。这亦是对法官的内部检查,促使法官更加谨慎地运用方法论并得出结论。
在意义限定方面语料库分析是有优势的,甚至对于原初意义不确定遗留的问题在一定程度上也发挥作用。在无法确定《宪法》条款的原始交际内容时,至少还有数据。其本身就会提示原旨主义者们决策树的下一步,关于调用某个终结原则(开放构建区域、运用合宪性假设,或转向解释的原初方法)。运用这些方法并非总能得出众口交赞的答案,但至少会缩小争论的范围。数据,将是实现目标的第一步。
(编辑:黄炎)