Clustered y Non Clustered Index en SQL Server

Una pregunta muy común en el mundo de SQL Server, es cuál es la diferencia entre un índice clustered y un índice non-clustered (índices agrupados y no agrupados) y en qué caso conviene usar un índice u otro. Empecemos a describir las características generales de un índice y luego de estos tipos de índices y las conclusiones van a ser evidentes. Aunque aquí tenemos la información oficial http://msdn.microsoft.com/es-es/library/ms190457.aspx, a continuación veremos una breve explicación.

Los índices son objetos de la bases de datos, cuya función es optimizar el acceso a datos. A medida que las tablas se van haciendo más grandes y se desea hacer consultar sobre estas tablas, los índices son indispensables. Algo así como el índice de un libro, cuando lo tenemos a mano y queremos buscar un tema, no se nos ocurre buscar página a página hasta encontrar el tema buscado, sino que lo más común es buscar el tema en el libro y luego vamos directamente a la página indicada.

Estructura interna de un índice:

En SQL Server (internamente), un índice normal es una estructura de árbol, que cuenta con una página principal y luego esta con paginas hijas, que a su vez tiene más paginas hijas hasta llegar a la pagina final del índice (leaf level). La clave del índice está repartida en las páginas del índice, de modo tal que la búsqueda se haga leyendo la menor cantidad posible de datos.

SQL Server Tree Leaf

Después de esta brevísima introducción, donde está la diferencia entre un índice clustered y uno non-clustered? En la la ultima pagina del índice (leaf level). En un índice non-clustered, la clave por la que buscamos tiene un puntero a la página de datos donde se encuentra el registro. Mientras que en índice clustered, la última página es la página de datos!. Con lo cual, SQL Server, se ahorra hacer un salto para leer los datos del registro (Bookmark lookup). La diferencia es importante, ya que el uso de este tipo de índices al evitar tener que hacer lecturas adicionales para traer el registro, por lo tanto tienen más rendimiento.

Búsqueda por clustered index:

clustered index

Búsqueda por non-clustered index:

non-clustered index

Desde SQL Server 2005 existe una nueva interesante característica en los índices non-clustered. Ahora es posible incluir dentro del nivel de página del índice, campos que en sí, no son parte de la clave. Esto nos permitirá en algunos casos, evitar el salto a la página de datos (Bookmark Lookup) que habíamos hablado anteriormente. Aunque hay que tener cuidado de seleccionar bien que campos se desean incluir al índice, porque al poner demasiados campos se expandiría mucho el índice, haciendo ineficiente. Por ejemplo, si tenemos una tabla Personas cuyo campo DNI es un índice non-clustered y queremos hacer una consulta que solo traiga el Apellido y DNI, entonces si incluimos el campo Apellido, nos ahorraríamos tener que ir a la página de datos para buscar el valor. Es importante recalcar que el campo Apellido no sería parte de la tabla, sino un campo mas en la pagina final del índice.

Ahora bien, entonces porque no siempre usar índices clustered? Bueno, en primer lugar, lamentablemente solo puede haber un solo índice clustered por tabla. La razón es muy sencilla y lógica: Los registros de la tabla físicamente son las paginas leaf-level del índice clustered. Los datos de la tabla esta ordenados según el índice. Y obviamente una tabla no puede simultáneamente estar físicamente ordenada de 2 maneras diferentes.
Por lo tanto, en tablas grandes y muy consultadas, tenemos que ser cuidadosos y analizar a que campos vamos a seleccionar para ser llaves del índice clustered. Tenemos un solo índice de este tipo por tabla, ¡¡¡no hay que desperdiciarlo!!!

Este último punto es importante para saber en qué situaciones y para que campos se debe utilizar un clustered index o un non-clustered.