Este post fue originalmente publicado el 11/02/2015 en el WP de insanidadpublica.com. Algunas actualizaciones desde entonces: Ya no existe TextWrangler, sino que BBEdit tiene una versión libre y una versión Pro (nunca llegué a comprar la Pro, porque la libre tiene las características que más uso) Los archivos .sav y .dat resultan más pequeños que los de texto simple, sin embargo sigo haciendo barra por el texto simple en términos de portabilidad y compatibilidad. La gran mayoría de programas estadísticos (como SPSS y Stata) han implementado la capacidad de usar expresiones regulares similares a Grep.
En mi proyecto actual he tenido que escribir una cantidad importante de código de computadora (básicamente líneas de texto). Además, he tenido que editar algunos documentos de Word que pueden volverse gigantescos rápidamente. Algunos pensamientos de estos días:
Grep: La herramienta de manipulación de texto de UNIX/Linux, francamente no entiendo como he podido vivir tanto tiempo sin usar algo así. La sintaxis de búsqueda y de reemplazo son geniales y si alguien necesita cambiar todos los números de un texto (en un rango determinado por ejemplo) y escribirlos todos al revés o añadir texto al inicio de todas las líneas que empiecen con una cadena específica, no hay mejor manera de hacerla. La sintaxis (“expresiones regulares”) tiene una curva de aprendizaje un poco empinada, pero todo siempre se aprende practicando. Aquí hay un tutorial
TextWrangler de Bare Bones Software: es el mejor editor de texto que he usado jamás. Soporta búsquedas Grep en un ambiente más amigable que ed/vim o la línea de texto de bash (que a algunos les puede hacer recordar demasiado a DOS), además de colorear sintaxis en SQL, Java, XML, Markdown, HTML, etc y además hay paquetes para soporte de R, STATA, SPSS, etc. Definitivamente ahora es parte esencial de mi trabajo. Es freeware y lo pueden descargar desde aquí, aunque solo funciona en Mac. Existe una versión Pro, llamada BBEdit que cuesta S/. 150 que estoy considerando comprar.
Microsoft Word: Después de usar TextWrangler con búsqueda grep y coloreo de sintaxis, regresar a escribir en Word parece viajar al pasado 20 años. Parece muy lento en comparación, las búsquedas son difíciles de hacer por lo limitado de sus comodines (aquí hay un tutorial también para aquellos que lo necesiten), y las opciones de formato de texto (en lo personal) me quitan la concentración que puedo alcanzar cuando solo me enfoco en el texto como en TextWrangler. Sin embargo, sigue siendo indispensable en trabajo colaborativo (comentarios, revisiones), manejo de bibliografía (junto con Zotero o Papers en Mac) y formato de documentos.
Formatos de archivos: Aparte de los problemas anteriores, trabajar en Word tiene un problema de fondo: el formato de archivo .docx. El problema que tengo es que el formato es propietario y difícil de interpretar si uno no tiene Word. Esto es problemático en el ámbito público, porque (en mi opinión) me parece inadmisible que un estado requiera que un ciudadano tenga un programa propietario específico para acceder a la información, en especial cuando hay otras opciones disponibles (por ejemplo es vergonzoso que la SUNAT siga sin funcionar en Linux). Una mejor solución es tener repositorios de información pública en Markdown, con lo que sería posible abrir la información pública desde cualquier computadora.
Formatos de archivo (2): La misma lógica también aplica a las bases de datos del INEI, ¡es información pública! ¿y si no tengo SPSS o Excel? ¿como voy a abrir un .sav o un .dbf? No entiendo porque no colgar el .csv y las etiquetas en archivos aparte para que uno las reconstituya, aparte que los archivos serían más pequeños. Otra ventaja adicional (y del uso de Markdown): podría usar búsquedas de expresiones regulares (grep, TextWrangler, Powershell) para manipular masivamente los datos, método muy superior a las anémicas herramientas de manipulación de la mayoría de paquetes estadísticos (excepto quizá STATA o SPSS con python para la gente con dinero o que quieran comprar en Wilson Shopping Center).