オープンソースの生成AIで注意すべき10のこと Archives

最近では、誰もがAIモデルを作成できるようになった。トレーニングデータやプログラミングスキルがなくても、お気に入りのオープンソースモデルを入手し、微調整を加えて、新しい名前でリリースすることができる。 4月に発表されたスタンフォード大学のAIインデックスレポートによると、2023年には149の基盤モデルがリリースされ、その3分の2はオープンソースだった。そして、そのバリエーションの数は途方もない。Hugging Faceは現在、テキスト生成だけで8万以上のLLMを追跡しており、幸いにも、さまざまなベンチマークでスコアを基準にモデルを素早く並べ替えることができるリーダーボードがある。そして、これらのモデルは、大手企業の商用モデルには及ばないものの、急速に改善が進んでいる。 EYアメリカズでジェネレーティブAIをリードするデビッド・グアレラ氏によると、オープンソースのジェネレーティブAIを検討する際は、リーダーボードが参考になる。特にHugging Faceはベンチマークの面で優れた仕事をしているという。「しかし、これらのモデルを実際に試してみる価値を過小評価してはならない」と彼は言う。「オープンソースなので、簡単に試したり入れ替えたりできるからだ。そして、オープンソースモデルとクローズドな商用代替モデルとの性能差は縮まりつつある」と彼は付け加える。「オープンソースは素晴らしい」と、Uber Freight のエンジニアリング部門責任者、Val Marchevsky 氏は付け加える。「私はオープンソースに非常に価値があると感じている」と。オープンソースモデルは、プロプライエタリモデルに性能で追いついているだけでなく、クローズドソースには真似できない透明性を提供するものもあると同氏は言う。「一部のオープンソースモデルでは、推論に何が使われ、何が使われていないかがわかる」と同氏は付け加える。「監査性は、幻覚を防ぐために重要である」もちろん、価格面でのメリットもある。「もし、たまたま容量に余裕のあるデータセンターをお持ちなら、なぜ他者に支払う必要があるのか？」と彼は言う。企業はすでにオープンソースコードの使用に精通している。2月に発表されたシノプシスのオープンソースセキュリティおよびリスク分析によると、すべての商用コードベースの96%にオープンソースコンポーネントが含まれている。こうした経験から、企業は、適切なライセンスを取得したコードを使用するために何をすべきか、脆弱性を確認する方法、そしてすべてを常に最新の状態に保つ方法を知っているはずだ。しかし、これらのルールやベストプラクティスの中には、企業が見落としがちな微妙なニュアンスがあるものもある。以下は、その主なものである。 1. 奇妙な新しいライセンス条項さまざまなオープンソースライセンスの種類は、その概要だけでも複雑である。そのプロジェクトは商業利用に安全なのか、それとも非商業的な実装にのみ安全なのか？改変して配布することは可能か？…