ンに、子音にのみ注目するとする。そうしてAの国語における子音の総数をnとする。次に問題をできるだけ簡単にするためにB国語の子音をもこれと同数だとする。さらにいちばん簡単な場合を考えて、各子音がそれぞれ各国語に出現する頻度《ひんど》あるいは確率が一様で、皆νに等しいとすると、ν = 1/n [#「1/n」は分数]で均一になる。(これは少し乱暴に見えるかもしれないが、統計的方法では多くの場合近似の一法として許される事である。場合により頻度の著しく小さいものは省略する事もやってみてよい。)次に語彙《ごい》中で子音一つより成るもの、二つ、三つ、四つよりなるものというふうに分類する。そしてそれらのおのおのがAB両国語に現われる確率をそれぞれ a1 a2 a3 …… b1 b2 b3 ……[#アラビア数字はすべて下付き小文字]で示すとする。さすればA語のうちi個の子音より成るものの中のある一つを取って、それと同義の語がB語でも同じi個の子音の同順の排列からなるという事の確率は biνi[#2文字目の「i」は下付き小文字、4文字目の「i」は上付き小文字] であると考える事ができる。(無論Aでiが2のものを取る場合、Bでiが2でないものはこの統計には入れない事にするのである)。ただしこれはA語一つに対するB語に同じi級のシノニムが他にないと仮定する場合で、もしシノニムがそれぞれ si[#「i」は下付き小文字] 個ずつあるとすればこの確率は si[#「i」は下付き小文字] 倍に増加する。もしこの上にメタセシスを許し、またA語の一子音に対すべきB語子音の転訛《てんか》範囲《はんい》を拡張すればこれはさらに増加する。それがいかに増加するかは計算しようと思えばされるはずのものである。しかしここでは最も簡単な場合として、同数シノニムというまでにとどめると結局AB両国《りょうこく》語彙《ごい》一般の比較によって得らるべき純偶然的一致の確率は、
[#ここから5字下げ、ここから数式]
P = s1a1b1ν + s2a2b2ν2 + s3a3b3ν3 + ……[# s、a、b に続くアラビア数字はすべて下付き小文字、νに続くアラビア数字はすべて上付き小文字]
[#ここで字下げ終わり、ここで数式終わり]
で与えられるはずである。この中に出現するs、a、b、νの各数はともかくも統計的になんとかして求められうる性質のものである。
以上はできるだけ事がらを簡単に考えた考え方である。これ以上にだんだん試験的、近似的仮定を修正して、少しずつ実際の場合に近づけて行く事も、原理上からの困難はなく、ただ次第に計算が込み入るだけである。しかし、今のところ、あまりに込み入った計算では実用にならないから、できるならば簡単な形で進みたい。
それで第一の試みとしては、まず前記のいちばん簡単な場合になるべく適合するように、材料のほうを選定し排列する事である。それはたとえば両国語の適当な語彙から比較に不適当な分子、たとえば本質的でないと思わるる接頭語、接尾語などを整理し(もちろんこれにはある仮定を要するが、それが tentative method として許容される事は、いわゆる精密科学においても同様である。そしてこの仮定には従来言語学者の苦心研究の結果が全部有効に利用されるはずである。)そうしてそれについて上記のabを出し、sは「近似的平均値」を推定して導入する。ここでいちばん困難なはABのnを同一に整理する事であるが、これにもいろいろの方法がある。たとえばA日本語とB英語の場合ならば、まず日本語のほうを、かりに「日本式ローマ字」で書く、しかして英語子音の「文字」の中で日本式にないものはかりに後者のどれかで「置換」する。たとえばcやqを皆kに直す類である。複子音も同様である。xなどは省いても、何かで置換しても統計の結果の値にはたいした影響は与えない事は明らかである。アラビアなどとなると、だいぶこの置換が困難な問題となるが、しかしたとえば喉音《こうおん》のあるものは半数だけkかg、残り半数をhで代用するというような試験的便法を取って第一歩を進める事もできる。(ここに統計的方法の長所があるとも言われる。)またたとえばマライ語の場合ならば ber, mer, per などのプレフィックスのrを省いてみるとか、中間のngを省いてみるとかする事も試みてよいわけである。
かくのごとき試験的《テンタティヴ》の整理によって、ともかくも両国語の子音がそれぞれかりに十四になったとする。次にかりに a1 a2 a3 a4 b1 b2 b3 b4[#アラビア数字はすべて下付き小文字] がいずれも1/4[#「1/4」は分数]で a5 b5[#「5」はすべて下付き小文字] 以上は零とし、s1 s2 s3 s4[#アラビア数字はすべて下付き小文字] が平均皆4だと仮定すると
[#ここから5字下げ、ここから数式]
siaibi[#「i」はすべて下付き小文字] = 1/4[#「1/4」は分数], i = 1, 2, 3, 4.
P = 1/4[#「1/4」は分数](1/14[#「1/14」は分数] + 1/142[#「2」は上付き小文字、「1/142」は分数] + 1/143[#「3」は上付き小文字、「1/143」は分数] + 1/144[#2つめの「4」は上付き小文字、「1/144」は分数])
1/14[#「1/14」は分数] = 0.07144444
1/142[#「2」は上付き小文字、「1/142」は分数] = 0.00510204
1/143[#「3」は上付き小文字、「1/143」は分数] = 0.00036443
1/144[#2つめの「4」は上付き小文字、「1/144」は分数] = 0.00002603
P = 0.07693694[#「P = 0.07693694」は上線( ̄)付き]÷4≒0.0192
[#ここで字下げ終わり、ここで数式終わり]
すなわち、指定のごとき比較によって、全然偶然から来る暗合の率が約二プロセントはできる事になる。
しかし、上の仮定で明らかに最も不都合なのは、子音ただ一つをもつ語の割合をはなはだしく大きく見すぎた事である。これはシナ語の場合のほかには明らかに適用されない。
それで、かりに、単子音語の確率を著しく小さいとして度外視し、なお次のごとく仮定する。
[#ここから5字下げ、ここから数式]
a1 = b1 = 0; a2 = a3 = b2 = b3 = 4/10; a4 = b4 = 2/10[#アルファベットに続くアラビア数字はすべて下付き小文字、「4/10」「2/10」は分数]
[#ここから3字下げ]
∴ P = 4(0.16×1/142[#「2」は上付き小文字、「1/142」は分数]+0.16×1/143[#「3」は上付き小文字、「1/143」は分数]+0.04×1/144[#2つめの「4」は上付き小文字、「1/144」は分数])
[#ここから5字下げ]
= 4×0.0008756≒0.0035
[#ここで字下げ終わり、ここで数式終わり]
すなわちわずかに〇、四プロセント弱ぐらいに減じてしまうのである。
なお、もしも、シノニムの数が、上記4の二倍であるとすれば、以上の百分値はやはり二倍になるだけであるから、このほうから結果の桁数《オーダー》に著しい影響は起こらない。
次に特別な場合として、邦語をかな一つ一つに切り離し、その一つ一つと音韻の似た原語と同義のシナ文字を求め、それを接合して説明をするという、普通よくあるやり方をするとどうなるか。この場合は、a1 b1[#「1」はすべて下付き小文字] いずれも1で他は零となるから
[#ここから5字下げ、ここから数式]
P = s1a1b1[#「1」はすべて下付き小文字]1/14[#「1/14」は分数] = s1[#「1」は下付き小文字]×0.0714
[#ここで字下げ終わり、ここで数式終わり]
しかるにシナでは異音類義の字が多いからこの s1[#「1」は下付き小文字] が大きくなりうる。かりに s1[#「1」は下付き小文字] を5とすると、三五、七プロセントという多数の暗合を見る事になる。これはこの種の方法による比較の価値を判断する際に参考になると思う。なおこの場合に同じ漢字の発音に対して、各地方的発音の異なるものを材料として、その中から都合のいいものを採るとなると s1[#「1」は下付き小文字] がさらにいっそうはなはだしく大きくなって、結局どうでもなるという事になり、かくのごとき比較の言語学上の価値はきわめて希薄になって来る事は明らかである。
次に比較の標準を少し下げて、メタセシスを許容すると、Pの展開式のi項に※[#「i」の左側と下側を線で囲った記号、187−9]が乗ぜられる事になるが(ただし子音が皆異なるとして)、これでは少なくもnがあまり小さくない限り、明らかに最後の結果の桁数《オーダー》に変化は起こらない。
次に、子音|転訛《てんか》を拡張して行くと、上記のnが減少し、νが増加するから、これはPに重大な影響を及ぼす事となる。かりに濁音を清音と同じにしたり、kとh、mとb、sとtなどを同一視したりいろいろして行くと、独立したものの数nは僅々《きんきん》五つか六つになってしまう。従って最後のPは著しく増大する。たとえば、nを5とすると
[#ここから5字下げ、ここから数式]
1/5[#「1/5」は分数] = 0.2; 1/52[#「2」は上付き小文字、「1/52」は分数] = 0.04; 1/53[#「3」は上付き小文字、「1/53」は分数] = 0.008; 1/54[#「4」は上付き小文字、「1/54」は分数] = 0.0016
[#ここで字下げ終わり、ここで数式終わり]
であるから a1 = b1 = 0; a2 = b2 = a3 = b3 = 4/10; a4 = b4 = 2/10[#アルファベットに続くアラビア数字はすべて下付き小文字、「4/10」「2/10」は分数] の場合でも、P = s×0.007744 となり、sが4ならば、約三、一%を得るわけである。すなわち、三分ぐらいの符合では偶然だか、偶然でないかわからない事になる。
以上はもちろんかなりいろいろな無理な仮定のもとに行なった計算である。これを逐次修正して言語学者の要求に応ずるように近づけて行くことは必ずしも困難ではないが、ここではしばらくこれ以上に立ち入らない事にする。
要するにこれは、表題にも掲げたとおり、比較言語学上における統計学的研究の可能性を暗示するための一つの試みに過ぎないのである。
学者の中には、二つの国語の間の少数な語彙《ごい》の近似から、大胆に二つのものの因果関係を帰納せんとする人もあるようであり、また一方においてあまりに細心で潔癖なために、暗合の悪戯に欺かれる事を恐れてこの種の比較に面迫することを回避する人もあるかもしれない。自分にはこの二つの態度がいつまでも互いに別々に離れて相対しているという事が斯学《しがく》の進歩に有利であろうとは思われない。むしろ進んで、暗合的なものと因果的なものとを含めた全体のものを取って、何かの合理的な篩《ふるい》にかけて偶然的なものと必然的なものとを篩《ふる》い分ける事に努力したほうが有利ではあるまいか。そうして統計的に期待さるべき暗合の確率と、実際の統計的符合率とを対照して、因果関係の「濃度」を示すべき数値を定め、その値の比較的大なるものについて、さらに最初の仮定の再吟味を遂行し、その結果に基づいて修正された新たな仮定を設け、逐次かくのごとくしていわゆる漸近的近似法によって進行すれば、少なくも現在よりは、いくらか科学的に研究を進められはしないかと考えるのである。
たとえば子音|転訛《てんか》の方則のごときでも、独断的の考えを捨てて、可能なるものの中から甲乙丙……等の作業仮定を設けて、これらにそれぞれ相当するPを算出し、また一方この仮定による実際の比較統計の
前へ
次へ
全4ページ中3ページ目
小説の先頭へ
文字数選び直し
寺田 寅彦 の一覧に戻る
作家の選択に戻る
◆作家・作品検索◆
トップページ
登録
ご利用方法
ログイン
携帯用掲示板レンタル
携帯キャッシング