La aplicación del LIWC

Desarrollo y Propiedades Psicométricas del LIWC
Estructura del LIWC2001
El procesamiento principal del LIWC2001
El Diccionario del LIWC2001
El Desarrollo del LIWC2001
Validez Externa del LIWC2001
Proporción del Uso de Palabras

Desarrollo y Propiedades Psicométricas del LIWC

La forma en que las personas hablamos y escribimos nos permite conocer nuestros mundos emocionales y cognitivos. En las últimas tres décadas, investigadores se han provisto de evidencia que sugiere que la salud física y mental de las personas puede ser predicha por las palabras que usan. (Gottschalk & Glaser, 1969; Rosenberg & Tucker, 1978; Stiles, 1992). Más recientemente, un gran número de estudios han encontrado que existe asociación entre escribir o hablar sobre experiencias emocionales profundas con una mejoría en la salud mental y física (e. g., Pennebaker, 1997; Smyth, 1997). Los análisis de textos basados en estos estudios indican que aquellos individuos que se benefician mas al escribir tienden a usar relativamente altos niveles de palabras emocionales positivas, un número moderado de palabras emocionales negativas y lo que es más importante, un número creciente de palabras cognitivas o del pensamiento desde el primer momento que empiezan a escribir hasta que terminan (e. g., Pennebaker & Francis, 1996; Pennebaker, Mayne, & Francis, 1997).

Para poder dar un eficiente y efectivo método para estudiar varios de los componentes emocionales, cognitivos, estructurales y de procesamiento presentes en muestras verbales y escritas de las personas, hemos desarrollado una técnica de análisis de texto llamada Linguistic Inquiry and Word Count, o LIWC. La primera aplicación LIWC fue desarrollada como parte de un estudio exploratorio del lenguaje y divulgación (Francis, 1993; Pennebaker, 1993). Como se describe abajo, la segunda versión del LIWC2001, es una revisión actualizada de la aplicación original. Esta mejor establecida para plataformas basadas en Windows y Power Macintosh. Aplicaciones del LIWC2001 están dise ñadas para analizar textos escritos, palabra por palabra, calcular el porcentaje de palabras en el texto que coinciden con cada una que se incluyen dentro de 82 dimensiones del lenguaje, y generar resultados en formato de archivo de texto (delimitados por tabulación) que puede ser leído directamente en programas de aplicación y estadística como SPSS para Windows, Excel, etc.

La Estructura del LIWC2001

La aplicación LIWC2001 contiene dentro de sí una serie de categorías de palabras y un diccionario que define qué palabras deben de ser contadas en los archivos que nos interesan. Observe que el archivo LIWC2001.EXE es un archivo ejecutable y no puede ser leído o abierto. Para evitar confusión en la discusión subsiguiente, palabras de texto que son leídas y analizadas por el LIWC2001 serán referidas como palabras indicativas. Palabras que se encuentren en el archivo del diccionario LIWC2001 serán referidas como palabras del diccionario. Grupos de palabras de diccionario que engloban una área en particular (e. g., palabras emocionales negativas) son referidas varias veces como subdiccionarios o categorías de palabras.

El Procesamiento Principal del LIWC2001

LIWC2001 esta dise ñado para aceptar texto verbal, escrito o trascrito que ha sido guardado como texto o archivo ASCII usando cualquiera de los paquetes de software de procesadores de texto más populares (e.g., WordPerfect o Word). LIWC2001 toma un solo archivo o un grupo de archivos y analiza cada uno en secuencia, escribiendo los resultados en un solo archivo. El tiempo de procesamiento para una página de texto (a un solo espacio) es típicamente una fracción de segundo en computadoras Pentium o PowerMacintosh. LIWC2001 lee cada archivo de texto asignando, una palabra indicativa a la vez. Mientras cada palabra indicativa es procesada, el archivo del diccionario es buscado, para ver si hay un emparejamiento con la palabra indicativa actual. Si la palabra indicativa coincide con la palabra del diccionario, la escala (o escalas) de las categorías de esa palabra se incrementa. Mientras el archivo de texto de interés esta siendo procesado, también se cuentan varios elementos estructurales de composición (e. g., conteo de palabras y puntuación).

Con cada archivo de texto, hasta 84 variables resultantes son escritas como una línea de datos a un archivo designado. Este record de datos incluye el primer nombre, 17 dimensiones lingüísticas estandarizadas (e.g., conteo de palabras, porcentaje de pronombres, artículos), 25 categorías de palabras sobre aspectos psicológicas (e.g., afecto, cognición), 10 dimensiones relacionadas a "relatividad" (tiempo, espacio, movimiento) y 19 categorías respecto a cuestiones personales (e.g., trabajo, hogar, pasatiempos). Una lista completa de las escalas estándares de LIWC2001 esta incluida en la Tabla 1.

El Diccionario LIWC2001

El diccionario del LIWC2001 es el corazón de la estrategia del análisis de texto. El diccionario del LIWC2001 esta compuesto de 2,300 palabras y raíces de palabras. Cada palabra o raíz de palabra define una o más categorías de palabras o subcategorías. Por ejemplo, la palabra "lloró" es parte de cuatro categorías de palabras: tristeza, emoción negativa, afecto total, y un verbo en tiempo pasado. Entonces, si se encuentra en el texto de interés, cada una de las escalas de las subcategorías será incrementada. Como en este ejemplo, varias categorías del LIWC2001 están organizadas jerárquicamente. Todas las palabras de ira, por definición, serán clasificadas como emoción negativa y en general como palabras emocionales. Note también que las raíces de palabras pueden ser capturadas por el sistema LIWC2001. Por ejemplo, el Diccionario LIWC2001 incluye el la raíz "hambr*" lo cual permite que cualquier palabra indicativa que coincide con las primeras 5 letras sea contada como una palabra de comer (esto incluiría hambre, hambriento, hambrienta). El asterisco, entonces, denota la aceptación de todas las letras, guiones, o números siguiendo su presencia.

Cada una de las 74 categorías del LIWC2001 esta compuesta por una lista de palabras del diccionario que definen esa escala. La Tabla 1 muestra una lista comprensiva de las categorías del LIWC20001, escalas, ejemplos de palabras para cada escala, y recuento de palabras de las escalas relevantes.

El Desarrollo del Diccionario LIWC2001

La selección de palabras que definen las categorías LIWC2001 se ha llevado a cabo en múltiples pasos durante varios a ños. La idea inicial fue identificar un grupo de palabras que englobaban las emociones básicas y dimensiones cognitivas que han sido típicamente estudiadas en psicología social, el área de la salud y de personalidad. Con el tiempo, las categorías iniciales de palabras con las que se inició el diccionario se ha expandido considerablemente.

En el dise ño y desarrollo de las categorías del LIWC2001, los juegos de palabras fueron primero generados para cada categoría. Dentro de la categoría de Procesos Psicológicos, por ejemplo, la emoción o una de las subcategorías del afecto fueron basadas en palabras de varios medios. Nos basamos en escalas comunes de emoción, como PANAS (Watson, Clark, & Tellegen, 1988), Roget's Thesaurus, y diccionarios de Ingles básico. Después de la creación de listas de categorías de palabras preliminares, hubo sesiones en que 3-6 jueces mencionaban palabras que les parecían relevantes a varias escalas y éstas fueron a ñadidas a la lista inicial de escalas. Esquemas similares fueron utilizados para otras categorías del diccionario.

Una vez que la lista general de palabras fue compilada, las palabras en categorías de Procesos Psicológicos y Preocupaciones Personales y más que nada las de Relatividad (excluyendo el tiempo del verbo) fueron evaluadas por tres jueces independientes. En esta fase de desarrollo, los jueces fueron instruidos que debían enfocar su atención en tanto la inclusión como la exclusión de palabras en cada lista de categorías del Diccionario LIWC2001. Primero, los jueces indicaron si cada palabra en la lista de escalas debería o no estar incluida en esa escala que se analizaba en particular. Segundo, se les instruyó a los jueces para incluir palabras adicionales que sentían que deberían ser incluidas en la escala. Después de la conclusión de la primera fase de evaluación, todas la listas de palabras en cada categoría fueron actualizadas con las siguientes reglas: 1) una palabra permanecía en la lista si dos de los tres jueces estaban de acuerdo, 2) una palabra era borrada de la lista de escalas si por lo menos dos de los tres jueces acordaban que debería de ser excluida, y 3) una palabra era a ñadida a la lista si dos de los tres jueces estaban de acuerdo. Dada que por la naturaleza objetiva de los elementos que deben estar en ciertas categorías de acuerdo a Dimensiones Estándares del Lenguaje (e. g., Artículos, pronombres, preposiciones), las evaluaciones de los jueces no fueron colectadas en estas categorías.

La segunda fase de evaluación involucró la discriminación de los elementos de las categorías de palabras. Se les dieron a los jueces listas de palabras alfabetizadas en cada uno de los niveles categóricos (e.g., todas las palabras de Proceso Cognitivo) y se les pidió que indicaran primero si cada palabra en la lista debería o no ser incluida en las categorías principales. Después se les instruyó a los jueces que indicaran si alguna de las listas de palabras debería ser incluida en alguna de las subcategorías (e.g., Entendimiento, Causalidad). El nivel de acuerdo entre los jueces fue aceptable para todas las categorías y listas de palabras (el nivel de acuerdo fue desde 86% para Optimismo a un 100% para Parientes).

Después de la conclusión de la segunda fase de evaluación, todas las listas de palabras en cada categoría fueron actualizadas con las siguientes reglas: 1) una palabra permanecía en la lista de escalas si dos de los tres jueces estaban de acuerdo y 2) una palabra era borrada de la lista de escalas si por lo menos dos de los tres jueces acordaban. Los porcentajes finales del nivel de acuerdo entre los jueces para esta segunda fase osciló entre 93% de acuerdo para Entendimiento a 100% acuerdo referente a las categorías Comer, Metafísico, Amigos, Parientes, y Humanos.

La evaluación original de LIWC se llevó a cabo entre 1992-1994. Una revisión significativa fue realizada en 1997 para hacer más efectivo el programa original y los diccionarios. Archivos de texto de varias docenas de estudios, que equivale a más de 8 millones de palabras fueron analizadas usando la versión LIWC de 1997 así como WordSmith, un poderoso programa de recuento de palabras utilizado en análisis de discurso. Categorías originales de LIWC que fueron utilizadas a proporciones muy bajas (menos de 0.3 por ciento de palabras formaban la categoría) o que sufrían de baja confiabilidad o validez constantemente fueron omitidas. Varias categorías nuevas, incluyendo procesos sociales, varias categorías de preocupaciones personales y dimensiones de relatividad, fueron a ñadidas siguiendo el mismo proceso estricto basado en jueces descrito anteriormente (incluyendo ambos procesos). Finalmente, una vez que todo el nuevo diccionario LIWC fue compilado, cualquier palabra que no hubiera sido utilizada por lo menos 0.005 por ciento del tiempo en nuestros archivos de texto previos o no estaba listada por Francis y Kucera's (1982) en su publicación de la Frecuencia del Análisis del Inglés fueron excluidos.

Validez Externa del LIWC2001

Una de las primeras pruebas de validez de las escalas de LIWC fue tomada por Pennebaker y Francis (1996) como parte de una experimento en la cual estudiantes universitarios de primer a ño escribieron sobre sus experiencias de venir a la universidad. Durante la fase de escritura del estudio, 72 estudiantes de Introducción a la Psicología se reunieron en grupo durante tres días consecutivos para escribir sobre sus temas asignados. Participantes en la condición experimental (n=35) fueron instruidos a escribir sobre sus pensamientos y emociones mas profundas, en lo que se refiere a la experiencia de venir a la universidad. Aquellos en el grupo control (n=37) fueron instruidos en describir cualquier objeto particular o evento que escogieran de forma no emocional. Después que la fase de escritura del estudio fue completada, cuatro jueces evaluaron las escrituras de los participantes en varias dimensiones emocionales, cognitivas, de contenido y composición, dise ñadas para corresponder con las escalas elegidas del Diccionario LIWC.

Usando los resultados dados por el LIWC y la evaluación de los jueces, análisis de correlación Pearson fueron realizados para probar la validez externa de LIWC. Resultados, presentados en la Tabla 1, revelan que las escalas del LIWC y las evaluaciones de los jueces son altamente correlacionadas. Estos resultados sugieren que LIWC mide exitosamente emociones positivas y negativas, un número de estrategias cognitivas, varios tipos de contenido temático y varios elementos de composición del lenguaje. Como se puede ver en la Tabla 1, dos correlaciones LIWC- juez son presentadas. El primero, Juez 1, esta basado en evaluaciones totales el número total de escrituras (210 escrituras en total a través condiciones, i.e., grupo experimental y control). La segunda correlación, Juez 2, se refiere a la correlación promedio dentro la condición, una prueba mucho más rigurosa de fiabilidad. El nivel de acuerdo entre las evaluaciones de los jueces y la estrategia objetiva de recuento de palabras de LIWC provee apoyo para la validez externa del LIWC.

Proporción del Uso de Palabras

Es importante tener una idea del grado en que varía el uso del lenguaje a través de contextos cuando se usa cualquier programa de análisis de texto. Desde 1986, hemos estado colectando muestras de texto de una variedad de estudios, tanto de nuestros laboratorios como de otros en los Estados Unidos, Canadá y Nueva Zelanda. Para propósitos de comparación, cuatro clases de texto de 43 estudios diferentes fueron analizados y comparados. Como se puede ver en la Tabla 2, testos análisis reflejan lo mencionado al menos por 1695 escritores o hablantes resultando en mas de 1.6 millones de palabras. Veinte de las muestras están basadas en individuos de todos los tipos de vidas, desde estudiantes universitarios a prisioneros psiquiátricos a individuos de la tercera edad y hasta de educación primaria a quienes se les pidió escribir sobre temas profundamente emocionales. Quince muestras, que generalmente eran los grupos control de estudios sobre escritura emocional, escribieron sobre temas relativamente triviales, como planes para el día o descripciones de eventos u objetos ordinarios. Una tercera clase de texto fue basada en una muestra al azar de páginas de 30 libros de ficción más vendidos en 1995. Finalmente, analizamos datos de siete estudios de observación en los cuales participantes fueron grabados mientras conversaban con otros. Las muestras de audio variaban desde extra ños interactuando en un cuarto de espera, a parejas hablando de sus problemas personales, a entrevistas televisadas, a grabaciones de audio de gente en espacios públicos al aire libre.

Como se puede ver en la Tabla 3, la versión LIWC2001 captura, un promedio del 80% de las palabras que la gente usa al escribir y hablar. Note que con la excepción del recuento total de palabras y palabras por oración, todos los promedios en la Tabla 3 son expresados como porcentajes del uso total de palabras en cualquier muestra de habla/texto dada. A través de todos los estudios, por ejemplo, 15.2% de palabras usadas fueron pronombres, 5.8%, y 4.0% por ciento palabras emocionales. Análisis de varianzas de un solo factor indicaron que el uso de palabras era significativamente diferente a través de 4 escenarios para todas menos una de las categorías de palabras (i.e., palabras religiosas).