Dataplex Universal Catalog proporciona una plataforma central para almacenar, administrar y acceder a tus metadatos. En este documento, se describen las funciones de administración de metadatos de Dataplex Universal Catalog.
Dataplex Universal Catalog proporciona un inventario unificado de los recursos Google Cloud y locales. Dataplex Universal Catalog recupera y almacena automáticamente los metadatos de los recursos Google Cloud . También puedes incorporar tus propios metadatos para recursos de terceros en Dataplex Universal Catalog.
Puedes enriquecer tu inventario con metadatos técnicos y comerciales adicionales que capturen el contexto y el conocimiento sobre tus recursos. También puedes buscar y descubrir tus datos en toda la organización, y habilitar la administración de datos en tus recursos de datos.
Puedes establecer tu experiencia de catálogo predeterminada en Dataplex Universal Catalog. Si usas Data Catalog, migra tu contenido y uso independientes de Data Catalog a Dataplex Universal Catalog. Para obtener más información, consulta Realiza la transición de Data Catalog a Dataplex Universal Catalog.
Cómo funciona la administración de metadatos
Las funciones de administración de metadatos en Dataplex Universal Catalog se basan en los siguientes conceptos:
- Entrada
Una entrada representa un recurso de datos. Esto es similar a las entradas en Data Catalog.
Ejemplo: Una tabla de BigQuery llamada
test-project.sales_data.customer_orders
se representa como una entrada.Una columna de una entrada representa una subsección específica de un recurso de datos, como una sola columna en una tabla de BigQuery o un campo en un archivo JSON. Las columnas te permiten adjuntar metadatos a campos individuales dentro de una entrada, no solo a la entrada en su totalidad. No defines columnas directamente; se crean cuando adjuntas un aspecto de tipo
schema
a una entrada. Las columnas también se denominan rutas.Ejemplo: Para describir el campo
email_address
dentro de la entradacustomer_orders
como que contiene información de identificación personal (PII), puedes adjuntar un aspecto a la columnaemail_address
.Para obtener más información sobre las entradas, consulta Entradas.
- Aspecto
Un aspecto es un conjunto de campos de metadatos relacionados. Puedes adjuntar un aspecto a una entrada para describirla en su totalidad. La mayoría de los metadatos se describen mediante aspectos dentro de una entrada. Es similar a las etiquetas en Data Catalog. Sin embargo, los aspectos se almacenan dentro de las entradas y no como recursos independientes.
Ejemplo: Para definir todas las columnas de la entrada
customer_orders
, comoorder_id
,order_date
yemail_address
, puedes adjuntar un aspectoschema
a la entradacustomer_orders
. Para especificar que la columnaemail_address
contiene una dirección de correo electrónico, puedes adjuntar un aspectoschema
a la columnaemail_address
.Para obtener más información sobre los aspectos, consulta Aspectos.
- Tipo de entrada
Un tipo de entrada es una plantilla para crear entradas. Establece los elementos de metadatos esenciales, que se describen como una lista de aspectos obligatorios para las entradas de este tipo. Un tipo de entrada especifica qué tipos de aspectos son obligatorios para un activo de datos específico.
Ejemplo: Para garantizar que todas las entradas tengan los metadatos requeridos, puedes crear un tipo de entrada llamado
StandardOperationalTable
que requiera que se adjunte un aspectoOwnerInfo
a cualquier entrada nueva de este tipo.Para obtener más información sobre los tipos de entrada, consulta Tipos de entrada.
- Tipo de aspecto
Un tipo de aspecto es una plantilla reutilizable para aspectos. Cada aspecto es una instancia de un tipo de aspecto. Es similar a las plantillas de etiquetas en Data Catalog.
Ejemplo: Para definir una plantilla reutilizable para la información de contacto, puedes definir un tipo de aspecto llamado
ContactInfo
con campos paraowner_name
,email
ysupport_team
. Luego, puedes crear aspectos deContactInfo
a partir de esta plantilla y adjuntarlos a entradas o columnas.Para obtener más información sobre los tipos de aspectos, consulta Tipos de aspectos.
- Grupo de entradas
Un grupo de entrada es un contenedor de entradas que sirve como unidad de administración para estas entradas. Por ejemplo, usa un grupo de entrada para configurar el control de acceso de Identity and Access Management, la atribución del proyecto o la ubicación de las entradas del grupo de entrada. Esto es similar a los grupos de entrada en Data Catalog.
Ejemplo: Un equipo de finanzas desea administrar los permisos de todas sus tablas a la vez. Pueden crear un grupo de entradas llamado
production_finance_data
y, en él, incluir las entradas de las tablascustomer_orders
,quarterly_revenue
yemployee_salaries
.Para obtener más información sobre los grupos de entradas, consulta Grupos de entradas.
Figura 1. Entradas y grupos de entradas Figura 2. Tipos de aspectos y tipos de entrada
Comparación entre Dataplex Universal Catalog y Data Catalog
Dataplex Universal Catalog proporciona capacidades integradas para administrar tus metadatos. El almacenamiento de metadatos y los métodos de la API están integrados en la API de Dataplex.
Las principales funciones de administración de metadatos en Dataplex Universal Catalog incluyen las siguientes:
Metamodelo más robusto
- Entradas escritas Puedes aplicar estándares mínimos de metadatos definiendo el contenido de metadatos requerido para las entradas personalizadas.
- Metamodelo configurable por el usuario para entradas personalizadas, que ayuda a que la incorporación personalizada sea más sólida y mejora la coherencia y la exhaustividad de los metadatos personalizados.
- Se admite una mayor variedad y complejidad de metadatos, incluida la compatibilidad con estructuras de anidación, como listas, mapas y arrays.
Se mejoró la escalabilidad, incluida la capacidad de interactuar con todos los metadatos asociados a una entrada a través de operaciones CRUD atómicas únicas y la capacidad de recuperar varias anotaciones de metadatos asociadas en las respuestas de búsqueda o de lista.
En la siguiente tabla, se comparan las funciones de administración de metadatos de Dataplex Universal Catalog y Data Catalog:
Función | Dataplex Universal Catalog | Data Catalog |
---|---|---|
Fuentes Google Cloud admitidas | Todas las fuentes, como se describe en la sección Fuentes Google Cloud admitidas de este documento | Todas las fuentes que se describen en Entradas y grupos de entrada |
Ingesta de fuentes personalizadas | Transferencia a entradas personalizadas con estructura controlada, definida por tipos de entrada. Las entradas y los grupos de entradas personalizados de Data Catalog están disponibles en Dataplex Universal Catalog con el tipo de entrada | Ingesta en entradas personalizadas genéricas |
Enriquecimiento de metadatos | El contexto de los metadatos para las entradas se captura con glosarios empresariales, aspectos y tipos de aspectos. | El contexto de los metadatos de las entradas se captura con glosarios empresariales, etiquetas y plantillas de etiquetas. |
Buscar | La búsqueda se realiza en los siguientes elementos:
Los resultados de la búsqueda incluyen solo aquellos recursos que pertenecen a la misma organización y al mismo perímetro de VPC-SC que el proyecto en el que se realiza la búsqueda. Cuando se usa la consola de Google Cloud , este es el proyecto que se selecciona en la consola. Ten en cuenta que, para buscar entradas, necesitas al menos uno de los siguientes roles de IAM en el proyecto que se usa para la búsqueda: Administrador de Dataplex Catalog, Editor de Dataplex Catalog o Visualizador de Dataplex Catalog. Los permisos en los resultados de la búsqueda se verifican independientemente del proyecto seleccionado. | La búsqueda se realiza en los siguientes elementos:
|
Linaje de datos | El linaje de datos recupera los detalles de las entradas para los nodos de recursos con la API de Dataplex. La consola de Google Cloud muestra los aspectos adjuntos. | El linaje de datos recupera los detalles de las entradas para los nodos de activos con la API de Data Catalog. |
Glosarios empresariales | El glosario empresarial te permite crear una taxonomía para los términos comerciales y asociarlos con los recursos y las columnas de datos. Puedes usar la búsqueda para descubrir los recursos vinculados a un término. | El glosario empresarial te permite crear una taxonomía para los términos comerciales y asociarlos con columnas. Puedes usar la búsqueda para descubrir recursos vinculados a un término. |
En la siguiente tabla, se describe cómo se corresponden los recursos de Dataplex Universal Catalog con los de Data Catalog:
Recurso de Dataplex Universal Catalog | Recurso de Data Catalog | Descripción |
---|---|---|
Tipo de aspecto (global ) | Plantilla de etiqueta pública | Las plantillas de etiquetas son recursos regionales. Sin embargo, puedes usarlos para crear etiquetas en todas las regiones. Las plantillas de etiquetas corresponden a los tipos de aspectos global en Dataplex Universal Catalog. |
Aspecto opcional | Etiqueta pública | Las etiquetas públicas en Data Catalog corresponden a aspectos opcionales en Dataplex Universal Catalog. |
Grupo de entradas | Grupo de entradas | En el caso de las fuentes de Google Cloud , los grupos de entradas del sistema, como @bigquery , se establecen por proyecto en Dataplex Universal Catalog. |
Aspectos obligatorios de la entrada personalizada | Entrada personalizada | Data Catalog y Dataplex Universal Catalog comparten conceptos similares para las entradas personalizadas. Las propiedades de entrada estándar se modelan como aspectos obligatorios en Dataplex Universal Catalog. |
Aspectos obligatorios de la entrada del sistema | Entrada del sistema (Google Cloud) | Los metadatos que describen entidades integradas, como Schema para las tablas de BigQuery, se capturan en los aspectos obligatorios de los tipos de aspectos definidos por el sistema. |
Glosarios empresariales | Glosarios empresariales | Usa glosarios para crear una taxonomía de términos comerciales que estandarice el contexto empresarial en toda la empresa. |
Para obtener más información sobre las funciones disponibles en Data Catalog, pero no compatibles con Dataplex Universal Catalog, consulta la sección Funciones de administración de metadatos que no son compatibles con Dataplex Universal Catalog en este documento.
Para usuarios existentes de Data Catalog
Si ya usas Data Catalog, ten en cuenta lo siguiente:
- Las entradas personalizadas, el contexto general, los glosarios y los grupos de entradas que creaste en Data Catalog están disponibles en Dataplex Universal Catalog.
- Como administrador, puedes optar por que el contenido de las etiquetas y las plantillas de etiquetas de Data Catalog esté disponible de forma simultánea en Dataplex Universal Catalog. Para obtener más información, consulta Realiza la transición de Data Catalog a Dataplex Universal Catalog.
- Cuando buscas recursos de datos en Dataplex Universal Catalog, se incluyen los metadatos que se crearon directamente en Dataplex Universal Catalog y los que se importaron de Data Catalog a Dataplex Universal Catalog.
- Cuando buscas recursos de datos en Data Catalog, solo se incluyen los metadatos que se crearon en Data Catalog.
- Las descripciones de los grupos de entradas en Data Catalog que superan los 1,024 caracteres se truncan a 1,024 caracteres en Dataplex Universal Catalog.
- Como administrador, para que los glosarios y los vínculos asociados entre los términos comerciales y las columnas que creaste en Data Catalog estén disponibles en Dataplex Universal Catalog, sigue el proceso de transición.
Para obtener más información sobre cómo migrar el contenido y el uso independientes de Data Catalog a Dataplex Universal Catalog, consulta Cómo migrar de Data Catalog a Dataplex Universal Catalog.
Fuentes admitidas
- Detección automática de datos de Cloud Storage
- Los metadatos de las siguientes fuentes Google Cloud se transfieren automáticamente a Dataplex Universal Catalog:
- Intercambios y fichas de BigQuery sharing (anteriormente Analytics Hub)
- Conjuntos de datos, tablas, modelos, rutinas, conexiones y conjuntos de datos vinculados de BigQuery
- Instancias, clústeres y tablas de Bigtable (incluidos los detalles de la familia de columnas)
- Repositorios de Dataform y recursos de código
- Instancias, bases de datos, esquemas, tablas y vistas de Cloud SQL. Consulta Cómo habilitar la integración de Cloud SQL.
- Servicios, base de datos y tablas de Dataproc Metastore
- Temas de Pub/Sub
- Instancias, bases de datos, tablas y vistas de Spanner
- Modelos, conjuntos de datos, grupos de atributos, vistas de atributos y instancias de almacén en línea de Vertex AI
Para importar metadatos de una fuente externa a Dataplex Universal Catalog, puedes usar una canalización de conectividad administrada.
Restricciones de proyecto y ubicación
Los recursos del catálogo en Dataplex Universal Catalog se encuentran en varios proyectos y ubicaciones. Se aplica la siguiente limitación:
Ubicación:
- La ubicación de una entrada debe coincidir con la ubicación del tipo de entrada, o bien el tipo de entrada debe ser
global
. - Un aspecto agregado a una entrada debe basarse en un tipo de aspecto que se almacene en la misma ubicación que la entrada, o bien el tipo de aspecto debe ser
global
. - Un tipo de entrada debe estar compuesto por tipos de aspectos que se almacenan en la misma ubicación que el tipo de entrada.
- La ubicación de una entrada debe coincidir con la ubicación del tipo de entrada, o bien el tipo de entrada debe ser
Proyecto:
- Si un tipo de entrada hace referencia a tipos de aspectos personalizados, estos deben estar en la misma ubicación y proyecto que el tipo de entrada.
Funciones de administración de metadatos que no se admiten en Dataplex Universal Catalog
Las siguientes funciones disponibles en Data Catalog no son compatibles con Dataplex Universal Catalog:
- El concepto de aspectos privados y tipos de aspectos privados (equivalentes a las etiquetas privadas y las plantillas de etiquetas privadas en Data Catalog) no existe en Dataplex Universal Catalog.
- La búsqueda de etiquetas de política no es compatible con la búsqueda de Dataplex Universal Catalog. Por lo tanto, los predicados
policytag
ypolicytagid
no funcionan en la búsqueda de Dataplex Universal Catalog. - Cuando transfieres grupos de entradas personalizados, entradas personalizadas, plantillas de etiquetas y etiquetas de Data Catalog a Dataplex Universal Catalog, no se conservan sus permisos originales. Debes configurar explícitamente los permisos de IAM para los metadatos copiados antes de usarlos.
- No está disponible la compatibilidad con Terraform para administrar aspectos y entradas personalizadas. En cambio, puedes administrar de forma programática tus metadatos personalizados a gran escala con una canalización de conectividad administrada o los métodos de la API de importación de metadatos. (El soporte de Terraform para grupos de entradas, tipos de entradas y tipos de aspectos está disponible; consulta Aprovisiona recursos de Dataplex Universal Catalog con Terraform).
- No se admite el envío de los resultados de la inspección de la Protección de datos sensibles directamente al catálogo en Dataplex Universal Catalog. En su lugar, puedes enviar los resultados de la inspección de Protección de datos sensibles a Data Catalog y, luego, transferir los resultados a Dataplex Universal Catalog.
- No puedes enumerar los tipos de entrada y los tipos de aspectos en todos los proyectos con la API. Puedes limitar el alcance de la solicitud de lista a un solo proyecto.
- No se admite el registro de lakes, zonas, recursos y entidades como entradas de Dataplex Universal Catalog. Esto significa que los metadatos de Data Catalog que se adjuntan a los lakes, las zonas, los recursos y las entidades no se transfieren al catálogo en Dataplex Universal Catalog. Además, cuando usas la búsqueda de Dataplex Universal Catalog, no se admite la búsqueda de zonas ni entidades, ni el filtrado por lagos y zonas. Puedes usar lakes y zonas de forma independiente del catálogo en Dataplex Universal Catalog.
- No se admite la búsqueda de administradores, lo que garantiza una recuperación completa. En cambio, puedes exportar metadatos a Cloud Storage y, luego, consultarlos desde BigQuery.
Para comparar las funciones y los recursos compatibles con Dataplex Universal Catalog y Data Catalog, consulta la sección Comparación entre Dataplex Universal Catalog y Data Catalog en este documento.
Precios
Dataplex Universal Catalog usa el SKU de almacenamiento de metadatos para cobrar por el almacenamiento de metadatos. Para obtener más información, consulta los precios de Dataplex Universal Catalog.
No se aplican cargos por usar lo siguiente:
- Crea y administra recursos del catálogo en Dataplex Universal Catalog
- Llamadas a la API de Search para Dataplex Universal Catalog
- Búsquedas realizadas en la página Dataplex Universal Catalog de la consola deGoogle Cloud
¿Qué sigue?
- Obtén más información para buscar recursos en Dataplex Universal Catalog.
- Obtén más información para administrar recursos y enriquecer metadatos.
- Obtén más información para administrar entradas y transferir fuentes personalizadas.
- Obtén más información para migrar de Data Catalog a Dataplex Universal Catalog.
- Obtén más información para migrar glosarios a Dataplex Universal Catalog.