スマートフォンの普及で、インターネットでの情報検索は身近なものとなりました。それまでも「ググる」という言葉はありましたが、当時はまだパソコンで検索することが主流。また、キーボードで検索ワードを入力するという方法が一般的でした。
ところが近年、スマートスピーカーの登場により状況は一変。AIアシスタントに音声で検索を依頼する、という方法が普通になりつつあります。今や検索はその場所を問わず、そしてデバイスに話しかけて行うものになっているのです。
このような状況の中、検索大手のGoogleが新しい自然言語処理技術「BERT」を検索エンジンに実装し大きな話題となっています。
今回は従来の自然言語処理とはまったく違うアルゴリズムを持つ「BERT」について解説します。
自然言語処理技術「BERT」とは?
BERTとは、2018年後半にGoogleがその存在を発表した自然言語処理技術のことです。Bidirectional Encoder Representations from Transformersの略で、バートと読みます。
2019年の10月には米国版Googleに、同じ年の12月には日本語を含む70以上の言語に導入されました。当時は自然言語処理の革命的技術として、各国のメディアが大きく取り上げました。
自然言語処理技術とは、人間の言葉をコンピュータに理解させるための処理技術のことですが、それ自体はBERT以前から存在し、NLP(Natural Language Processing)と呼ばれています。つまりBERTはNLPの一種ということになります。
BERTが前述のように各国のメディアに大きく取り上げられたのは、その学習方法と処理方法が画期的だったためです。
BERTの特徴
従来のNLPではラベル(目印)をつけた大量のデータを用意し、NLPに処理させて機械学習を行わせていました。データが大量になるほどNLPの学習精度は上がっていきますが、この大量のデータを用意することが大変かつ難しかったのです。BERTでは、ラベルをつけていない大量のデータを先に学習させ(事前学習)、あとから少量のラベルつきデータを与えて学習を完成させます(ファインチューニング)。現在では、毎日Googleで検索される言葉の15%がまったく新しい言葉ですが、これにより学習の効率が飛躍的に上がりました。
また、言葉の処理方法はBERTの一番の特徴です。
たとえば、検索で「女性用じゃないトラベルバッグ」と入力すると、従来のNLPでは「女性用トラベルバッグ」が検索上位となってしまいます。検索のキーワードを「女性用」、「じゃない」、「トラベルバッグ」に分解できるものの、「じゃない」が「女性用」にかかっているとは判断できないのです。そのため、はっきりした名詞である「女性用」と「トラベルバッグ」が検索対象として認識され、意味のわかりにくい「じゃない」は無視されてしまったというわけです。
一方BERTは、検索キーワードの文脈を理解します。上記の例であれば「じゃない」がnotの意味で「女性用」にかかっていると判断し、男性用もしくはジェンダーフリーとして登録された商品を検索上位に持ってきます。 ※検索キーワードによって差があります。
BERTを自然言語処理に採用したことで、英語圏のGoogle検索では全体の10%に改善効果が見られたといわれています。BERTは新しい言葉を効率よく学習することができ、検索キーワードの文脈を判断して、よりユーザーの意図に沿った検索結果を出力できるアルゴリズムというわけです。
音声検索では、より進化した自然言語処理が必要
スマートスピーカーの普及率について、ある試算があります。アメリカでは、2017年時点で13%程度だったものが2022年には55%まで増加し、普及台数は2,000万台以上となるというものです。冒頭で述べたとおり、既にスマートスピーカーは音声検索のみとなっており、将来的にはコネクテッドカー(インターネットに常時接続されている自動車)やスマートホームなどでも、音声検索機能は標準のものとなっていくことでしょう。
人間は、キーボードで入力するような整理された単語だけを使って話すわけではありません。音声検索には複雑な文脈も理解できる、より進化した自然言語処理が必要なのです。BERTは、来るべき音声検索全盛の時代に対応するために導入されたアルゴリズムでもあるのです。
BERTには特別な SEO対策が必要?
「検索のアルゴリズムが変更された」と聞くと、今までのSEO対策を何か変更しなければならないのか?と気になることでしょう。Googleの検索エンジンは、主に以下の3つのプログラムで構成されています。
・Webサイトの情報(HTMLや画像など)を集めてデータベース化するGooglebot(クローラー)
・Googlebotが収集してきた情報を分析し、評価(ランクづけ)するプログラム
・検索サイトで入力されたキーワードに対して、評価に基づき検索結果(検索順位)を表示 するプログラム
BERTは「検索サイトで入力されたキーワード」に対するプログラムの一部に導入されているので、SEO対策を変更する必要はありません。今まで通りGooglebotに収集されやすく、ユーザーの検索意図を満たすような良質なコンテンツを作ることが一番のSEO対策です。
まとめ
◆BERTとは、2018年後半にGoogleがその存在を発表した自然言語処理技術(NLP)の一種。
◆BERTは、他の自然言語処理(NLP)に比べ学習方法と処理方法に特徴がある。
◆BERTは、ラベルを付つけていない大量のデータを先に学習させ(事前学習)、あとから少量のラベルつきデータを与えて学習を完成させる(ファインチューニング)。これにより毎日検索される新しい言葉の学習効率が飛躍的に上がった。
◆BERTは、検索キーワードの文脈を理解する。音声検索では整理された単語だけが話されるわけではないので、音声検索全盛の時代には最適な自然言語処理といえる。