Diff Insight Report - search

最終更新日: 2024-11-25

利用上の注意

このポストは Microsoft 社の Azure 公式ドキュメント(CC BY 4.0 または MIT ライセンス) をもとに生成AIを用いて翻案・要約した派生作品です。 元の文書は MicrosoftDocs/azure-ai-docs にホストされています。

生成AIの性能には限界があり、誤訳や誤解釈が含まれる可能性があります。 本ポストはあくまで参考情報として用い、正確な情報は必ず元の文書を参照してください。

このポストで使用されている商標はそれぞれの所有者に帰属します。これらの商標は技術的な説明のために使用されており、商標権者からの公式な承認や推奨を示すものではありません。

View Diff on GitHub


# Highlights
このコード差分では、いくつかの画像ファイルの変更とドキュメントの修正が行われました。新しい画像ファイルが2件追加され、1件の画像ファイルがマイナーアップデートされました。また、ドキュメントも小規模な改善が施されています。

New features

  • vectorize-images.pngvectorize-text.pngという新しい画像ファイルが追加され、関連する記事やビジュアルコンテンツが強化されました。

Breaking changes

  • 重大な破壊的変更は特にありませんでした。

Other updates

  • search-results.png画像がマイナーアップデートされ、イメージファイルの整備が行われた可能性があります。
  • search-get-started-portal-import-vectors.mdというドキュメントには55行が追加され、25行が削除される形で更新されました。

Insights

この差分で行われた変更は、主にビジュアルコンテンツとドキュメントの改善を目的としたもので、全体的なユーザー体験を向上させる微細な調整が施されたことが判明します。具体的には、新しく追加された2つの画像ファイルはユーザーへのビジュアル案内を強化し、記事の内容をよりわかりやすく補完するものです。また、ドキュメントの修正はAzureポータルを使ったテキストや画像のベクトル化に関する情報がよりタイムリーかつ適切に更新されるようにしています。

画像ファイルの追加と更新は、新たな機能や手順を視覚的に示すためのものであり、学習曲線を緩和し、ユーザーが直感的にプロセスを理解するのを助けます。具体的な手順やAIを利用したプロセスに関する説明が補足され、より包括的な情報が提供されている点がポイントです。このような改善は、小規模ながら効果的なアップデートとして、全体の使いやすさに寄与します。

Summary Table

Filename Type Title Status A D M
search-results.png minor update 画像ファイルの更新 modified 0 0 0
vectorize-images.png new feature 新しい画像ファイルの追加 added 0 0 0
vectorize-text.png new feature 新しい画像ファイルの追加 added 0 0 0
search-get-started-portal-import-vectors.md minor update インポートベクターに関するドキュメントの更新 modified 55 25 80

Modified Contents

articles/search/media/search-get-started-portal-import-vectors/search-results.png

Summary

{
    "modification_type": "minor update",
    "modification_title": "画像ファイルの更新"
}

Explanation

この変更は、search-results.pngという画像ファイルに関するもので、ファイル自体は修正されていないものの、マスターブランチの管理や構成に伴うメタデータの調整が行われた可能性があります。この変更は主にドキュメントや使用される内容に影響を与えない、イメージファイルのリファインメントや整備を目的としたマイナーなアップデートと考えられます。実際のファイル内容には追加や削除はなく、全体の変更はありません。

articles/search/media/search-get-started-portal-import-vectors/vectorize-images.png

Summary

{
    "modification_type": "new feature",
    "modification_title": "新しい画像ファイルの追加"
}

Explanation

この変更は、vectorize-images.pngという新しい画像ファイルの追加を示しています。ファイルは新たにリポジトリに追加され、これにより関連するドキュメントやビジュアルコンテンツが強化されることが期待されます。この画像は、ポータルの使用法や画像ベクトル化に関する手順を視覚的にサポートするために用いられるでしょう。従って、これは新機能を示す重要な追加です。

articles/search/media/search-get-started-portal-import-vectors/vectorize-text.png

Summary

{
    "modification_type": "new feature",
    "modification_title": "新しい画像ファイルの追加"
}

Explanation

この変更は、vectorize-text.pngという新しい画像ファイルをリポジトリに追加するものです。この画像は、テキストのベクトル化に関するプロセスや手順を視覚的に表現し、ユーザーが理解しやすくすることを目的としています。新たに追加されたこの画像は、関連する記事やドキュメントの内容を補完し、読者がより効果的に情報を得られるようにする重要な要素となります。したがって、これは新機能の追加として位置づけられます。

articles/search/search-get-started-portal-import-vectors.md

Diff
@@ -9,7 +9,7 @@ ms.custom:
   - build-2024
   - ignite-2024
 ms.topic: quickstart
-ms.date: 11/20/2024
+ms.date: 11/22/2024
 ---
 
 # Quickstart: Vectorize text and images by using the Azure portal
@@ -22,7 +22,7 @@ This quickstart helps you get started with [integrated vectorization](vector-sea
 
 + [An Azure AI Search service](search-create-service-portal.md) in the same region as Azure AI. We recommend the Basic tier or higher.
 
-+ [A supported data source](#supported-data-sources).
++ [A supported data source](#supported-data-sources) with the [Health Plan PDF](https://github.com/Azure-Samples/azure-search-sample-data/tree/main/health-plan) sample documents.
 
 + [A supported embedding model](#supported-embedding-models).
 
@@ -333,19 +333,21 @@ Chunking is built in and nonconfigurable. The effective settings are:
 
 1. Select the checkbox that acknowledges the billing effects of using these resources.
 
+   :::image type="content" source="media/search-get-started-portal-import-vectors/vectorize-text.png" alt-text="Screenshot of the vectorize text page in the wizard.":::
+
 1. Select **Next**.
 
 ## Vectorize and enrich your images
 
-The health plan PDFs don't include images, so you can skip this step.
+The health plan PDFs include a corporate logo, but otherwise there are no images. You can skip this step if you're using the sample documents.
 
-However, if you work with content that includes images, you can apply AI in two ways:
+However, if you work with content that includes useful images, you can apply AI in two ways:
 
 + Use a supported image embedding model from the catalog, or choose the Azure AI Vision multimodal embeddings API to vectorize images.
 
 + Use optical character recognition (OCR) to recognize text in images. This option invokes the [OCR skill](cognitive-search-skill-ocr.md) to read text from images.
 
-Azure AI Search and your Azure AI resource must be in the same region.
+Azure AI Search and your Azure AI resource must be in the same region or configured for [keyless billing connections](cognitive-search-attach-cognitive-services.md).
 
 1. On the **Vectorize your images** page, specify the kind of connection the wizard should make. For image vectorization, the wizard can connect to embedding models in Azure AI Studio or Azure AI Vision.
 
@@ -357,6 +359,8 @@ Azure AI Search and your Azure AI resource must be in the same region.
 
 1. Select the checkbox that acknowledges the billing effects of using these resources.
 
+   :::image type="content" source="media/search-get-started-portal-import-vectors/vectorize-images.png" alt-text="Screenshot of the vectorize images page in the wizard.":::
+
 1. Select **Next**.
 
 ## Add semantic ranking
@@ -371,12 +375,12 @@ Key points about this step:
 + You can add fields, but you can't delete or modify generated fields.
 + Document parsing mode creates chunks (one search document per chunk).
 
-On the **Advanced settings** page, you can optionally add new fields. By default, the wizard generates the following fields with these attributes:
+On the **Advanced settings** page, you can optionally add new fields assuming the data source provides metadata or fields that aren't picked up on the first pass. By default, the wizard generates the following fields with these attributes:
 
 | Field | Applies to | Description |
 |-------|------------|-------------|
 | chunk_id | Text and image vectors | Generated string field. Searchable, retrievable, sortable. This is the document key for the index. |
-| parent_id | Text vectors | Generated string field. Retrievable, filterable. Identifies the parent document from which the chunk originates. |
+| text_parent_id | Text vectors | Generated string field. Retrievable, filterable. Identifies the parent document from which the chunk originates. |
 | chunk | Text and image vectors | String field. Human readable version of the data chunk. Searchable and retrievable, but not filterable, facetable, or sortable. |
 | title | Text and image vectors | String field. Human readable document title or page title or page number. Searchable and retrievable, but not filterable, facetable, or sortable. |
 | text_vector | Text vectors | Collection(Edm.single). Vector representation of the chunk.  Searchable and retrievable, but not filterable, facetable, or sortable.|
@@ -419,51 +423,77 @@ Search Explorer accepts text strings as input and then vectorizes the text for v
 
 1. In the Azure portal, go to **Search Management** > **Indexes**, and then select the index that you created.
 
-1. Optionally, select **Query options** and hide vector values in search results. This step makes your search results easier to read.
+1. Select **Query options** and hide vector values in search results. This step makes your search results easier to read.
 
    :::image type="content" source="media/search-get-started-portal-import-vectors/query-options.png" alt-text="Screenshot of the button for query options.":::
 
 1. On the **View** menu, select **JSON view** so that you can enter text for your vector query in the `text` vector query parameter.
 
    :::image type="content" source="media/search-get-started-portal-import-vectors/select-json-view.png" alt-text="Screenshot of the menu command for opening the JSON view.":::
 
-   The wizard offers a default query that issues a vector query on the `vector` field and returns the five nearest neighbors. If you opted to hide vector values, your default query includes a `select` statement that excludes the `vector` field from search results.
+   The default query is an empty search (`"*"`), but includes parameters for returning the number matches. It's a hybrid query that runs text and vector queries in parallel. It includes semantic ranking. It specifies which fields to return in the results through the `select` statement.
 
    ```json
-   {
-      "select": "chunk_id,parent_id,chunk,title",
+    {
+      "search": "*",
+      "count": true,
       "vectorQueries": [
-          {
-             "kind": "text",
-             "text": "*",
-             "k": 5,
-             "fields": "vector"
-          }
-       ]
-   }
+        {
+          "kind": "text",
+          "text": "*",
+          "fields": "text_vector,image_vector"
+        }
+      ],
+      "queryType": "semantic",
+      "semanticConfiguration": "my-demo-semantic-configuration",
+      "captions": "extractive",
+      "answers": "extractive|count-3",
+      "queryLanguage": "en-us",
+      "select": "chunk_id,text_parent_id,chunk,title,image_parent_id"
+    }
    ```
 
-1. For the `text` value, replace the asterisk (`*`) with a question related to health plans, such as `Which plan has the lowest deductible?`.
+1. Replace both asterisk (`*`) placeholders with a question related to health plans, such as `Which plan has the lowest deductible?`.
+
+   ```json
+    {
+      "search": "Which plan has the lowest deductible?",
+      "count": true,
+      "vectorQueries": [
+        {
+          "kind": "text",
+          "text": "Which plan has the lowest deductible?",
+          "fields": "text_vector,image_vector"
+        }
+      ],
+      "queryType": "semantic",
+      "semanticConfiguration": "my-demo-semantic-configuration",
+      "captions": "extractive",
+      "answers": "extractive|count-3",
+      "queryLanguage": "en-us",
+      "select": "chunk_id,text_parent_id,chunk,title"
+    }
+   ```
 
 1. Select **Search** to run the query.
 
    :::image type="content" source="media/search-get-started-portal-import-vectors/search-results.png" alt-text="Screenshot of search results.":::
 
-   Five matches should appear. Each document is a chunk of the original PDF. The `title` field shows which PDF the chunk comes from.
+   Each document is a chunk of the original PDF. The `title` field shows which PDF the chunk comes from. Each `chunk` is quite long. You can copy and paste one into a text editor to read the entire value.
 
-1. To see all of the chunks from a specific document, add a filter for the `title` field for a specific PDF:
+1. To see all of the chunks from a specific document, add a filter for the `text_parent_id` field for a specific PDF. You can check the **Fields** tab of your index to confirm this field is filterable.
 
    ```json
    {
-      "select": "chunk_id,parent_id,chunk,title",
-      "filter": "title eq 'Benefit_Options.pdf'",
+      "select": "chunk_id,text_parent_id,chunk,title",
+      "filter": "text_parent_id eq 'aHR0cHM6Ly9oZWlkaXN0c3RvcmFnZWRlbW9lYXN0dXMuYmxvYi5jb3JlLndpbmRvd3MubmV0L2hlYWx0aC1wbGFuLXBkZnMvTm9ydGh3aW5kX1N0YW5kYXJkX0JlbmVmaXRzX0RldGFpbHMucGRm0'",
       "count": true,
       "vectorQueries": [
           {
              "kind": "text",
              "text": "*",
              "k": 5,
-             "fields": "vector"
+             "fields": "text_vector"
           }
        ]
    }

Summary

{
    "modification_type": "minor update",
    "modification_title": "インポートベクターに関するドキュメントの更新"
}

Explanation

この変更は、search-get-started-portal-import-vectors.mdというドキュメントの修正を示しています。ドキュメントには55行が追加され、25行が削除され、合計で80行が変更されました。主な変更内容は、Azureポータルを介してテキストや画像のベクトル化に関する手順と情報の更新です。

具体的には、日付の更新、サンプルデータソースに関する例の追加、ベクトル化ページにおける視覚的な改善が行われています。また、特定の設定や手順に関連する画像が挿入され、よりわかりやすく説明されるようになっています。最後に、AIを使用した画像処理に関する選択肢が明確にされており、使用する前提条件についても触れられています。この更新は、ユーザーがより効果的に機能を利用できるようにするための小規模な改善となります。