Since 1975
日本語で読むアラビアのニュース
  • facebook
  • twitter

地域特有のAI を構築することの意味

Short Url:
29 Jun 2025 04:06:15 GMT9
29 Jun 2025 04:06:15 GMT9

2022年11月にOpenAIがChatGPTを公開した後、人工知能の大規模言語モデルの基盤は、西洋、先進国、富裕層、教育水準、民主主義といった「WIRED」(頭文字)に固まっているように見えた。大規模言語モデルが特定の言語を話し、特定の世界観を反映するならば、それは西洋的なものだろうと誰もが思い込んでいたのです。オープンAIは、ChatGPTが西洋的な見解と英語に偏っていることを認めてさえいた。

しかし、OpenAIの米国競合他社(GoogleとAnthropic)が翌年に自社開発の大規模言語モデルをリリースする以前から、東南アジアの開発者は、自地域特有の多様な言語に対応するAIツールの必要性に気づいていた。これは、1,200を超える言語が存在するため、決して簡単な任務ではなかった。

さらに、遠い文明の記憶と現代の植民地以後の歴史がしばしば衝突するこの地域では、言語はきわめて政治的である。一見単一言語に見える国々でさえ、その多様性は際立っている: カンボジア人は30近くの言語を話し、タイ人はおよそ70、ベトナム人は100以上の言語を話す。この地域はまた、コミュニティがシームレスに言語を混在させ、非言語的な合図が多くを語り、言語に符号化された深い文化的・歴史的ニュアンスを捉えるには、文字よりも口頭伝承の方が時として優勢な地域でもある。

驚くことではないが、これほどまでに多くの言語が散在し、標準語がない地域で、真にローカルなAIモデルを構築しようとする人々は、高品質で大量の注釈付きデータの不足から、ゼロからAIモデルを構築して訓練するのに必要なCPUへのアクセス不足に至るまで、多くの障害に直面している。場合によっては、ネイティブスピーカーの不足、標準化された表記法、頻繁な電力供給の中断など、より基本的な課題に直面することもある。

これらの制約を考慮し、ローカルの多くのAI開発者は、外国の既存企業が開発した確立されたモデルを微調整する手法を採用してきました。これは、大量のデータで訓練された事前訓練済みモデルを、特定のスキルやタスク向けに小さなデータセットで再訓練するプロセスです。2020年から2023年にかけて、東南アジアの言語モデルであるPhoBERT(ベトナム語)、IndoBERT(インドネシア語)、Typhoon(タイ語)は、GoogleのBERT、MetaのRoBERTa(後にLLaMAに改名)、フランスのMistralなど、より大規模なモデルから派生したものです。アリババの、DAMOアカデミーが地域言語向けに最適化されたモデル群としてリリースしたSeaLLMの初期バージョンも、Meta、Mistral、Googleのアーキテクチャを基盤に構築されていました。

しかし2024年、アリババクラウドのQwenが西欧の支配を打破し、東南アジアに多様な選択肢を提供しました。カーネギー国際平和財団の調査によると、その年にリリースされた21の地域モデルのうち5つがQwenを基盤に構築されていました。

皮肉なことに、AIのローカル化は、少なくとも初期段階では開発者の大手企業への依存を深める可能性がある。

エリナ・ヌール

それでも、東南アジアの開発者が以前、利用可能な基盤モデルに潜在的な西欧の偏向を考慮する必要があったように、現在は、事前訓練された中国モデルに埋め込まれたイデオロギー的なフィルターを通した視点に注意を払う必要がある。皮肉なことに、AIのローカル化と東南アジアコミュニティの自律性を高める努力は、少なくとも初期段階では、開発者の大手企業への依存を深める可能性がある。

それでも、東南アジアの開発者もこの問題に対処し始めている。SEA-LION(11の公式地域言語の集合体)、PhoGPT(ベトナム語)、MaLLaM(マレー語)など、複数のモデルが、各言語の大型汎用データセットから一から事前訓練されている。この機械学習プロセスの重要なステップにより、これらのモデルは特定のタスク向けにさらに微調整が可能になる。

SEA-LIONは事前トレーニングにGoogleのアーキテクチャに依存し続けているものの、地域言語のデータセットを活用することで、インドネシア語、スンダ語、ジャワ語、バリ語、バタク語でコミュニケーション可能なSahabat-AIのような国産モデルの開発を促進した。Sahabat-AIは「インドネシアのAI主権へのコミットメントの証」と自負している。

しかし、ネイティブの視点を表現するには、地域固有の知識の基盤が不可欠だ。言語の政治、伝統的な意味の解釈、歴史的動向を理解しなければ、東南アジアの視点や価値観を忠実に表現することはできない。

たとえば、時間と空間は、近代的な文脈では生産性を最大化するために直線的で、分割可能で、測定可能であると広く理解されているが、多くの先住民のコミュニティでは異なった捉え方をしている。従来の年表のパターンにとらわれないバリの歴史的記述は、西洋的には神話や伝説とみなされるかもしれないが、これらのコミュニティが世界をどのように理解するかを決定づけ続けている。地域の歴史家は、現地のテキストに西洋のレンズを当てると、先住民の視点を誤解するリスクが高まると警告している。

18世紀から19世紀にかけて、インドネシアの植民地行政官たちは、ジャワの年代記を翻訳した書物を、しばしば自分たちの理解で読み解いた。その結果、東南アジア人に関する多くの偏ったイギリス人やヨーロッパ人の観察が、有効な歴史的記述として扱われるようになり、公式文書による民族の分類やステレオタイプが定着してしまった。もしAIがこのデータに基づいて訓練されれば、偏見はさらに定着してしまうかもしれない。

データは知識ではない。言語とは本質的に社会的かつ政治的なものであり、それを使用する人々の関係的経験を反映するものであるため、AIの時代に主体性を主張するには、現地の言語でコミュニケーションするモデルの技術的な完成度を極めなければならない。そのためには、意識的に過去のバイアスをフィルタリングし、私たちのアイデンティティに関する思い込みを疑い、私たちの言語における固有の知識蓄積を再発見する必要がある。そもそも、自分たちの文化をほとんど理解していないのであれば、テクノロジーによって自分たちの文化を忠実に映し出すことはできない。

  • エリナ・ノールは、カーネギー国際平和財団のアジアプログラムのシニアフェローだ。©Project Syndicate
特に人気
オススメ

return to top