Survey
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
Data Science Tu foto psykohack Carlos Toxtli Hernández Maestro en Innovación Empresarial y Tecnológica TPM carlos.toxtli.com/url [email protected] Presentación Carlos Toxtli Hernández 15 años de experiencia en TI Maestro en Innovación Empresarial y Tecnológica CV Introducción Esta plática pretende formar científicos de datos enseñando muchas de las herramientas empleadas y tutoriales para poner en práctica cada técnica. Data Datos: Representación simbólica (numérica, alfabética, algorítmica, espacial, etc) de un atributo o variable cuantitativa o cualitativa. Sólo cuando un conjunto de datos se examina conjuntamente a la luz de un enfoque, hipótesis o teoría se puede apreciar la información contenida en dichos datos. Science Ciencia: Conjunto de conocimientos estructurados sistemáticamente. Conocimiento obtenido mediante la observación de patrones regulares, de razonamientos y de experimentación generando preguntas, se construyen hipótesis, se deducen principios y se elaboran leyes y sistemas organizados por medio de un método científico. Data Science Conjunto de prácticas sobre almacenamiento, gestión y análisis de conjuntos de datos lo suficientemente grandes que requieren de computación distribuida y los recursos de almacenamiento. Su fin último es extraer conocimiento de los datos. Data Science Algunas de las áreas relacionadas son: Matemáticas, estadísticas, tecnologías de la información, proceso de señales, probabilidad, aprendizaje máquina, aprendizaje estadístico, programación de computadoras, ingeniería de datos, reconocimiento de patrones, visualización, cómputo de alto desempeño, data warehousing, entre otras. Data Scientist Alguien que puede obtener, depurar, explorar, modelar e interpretar los datos. Data Scientist En promedio $130,000 MXN al mes Data Scientist Implicaciones de Data Science Suele involucrar conocimientos de uno o más dominios (por ejemplo finanzas, medicina o geología). Debe tomar en cuenta aspectos computacionales. Incluye prueba de hipótesis y la validación de resultados. Implicaciones de Data Science Los resultados deben ser confiables. Suele incluir el aprendizaje automatizado (machine learning), inteligencia artificial o algoritmos de descubrimiento de conocimiento (knowledge discovery). Implicar la visualización y creación rápida de prototipos Big Data Término que hace referencia a una cantidad de datos tal que supera la capacidad del software habitual para ser capturados, gestionados y procesados en un tiempo razonable. Deben garantizarse las 3 Vs (volumen, variedad y velocidad). Big Data Suele involucrar cómputo distribuido en múltiples servidores. Implica gestión y procesamiento de datos. Suele ir más allá de las bases de datos relacionales y data warehouses. Mejora el tiempo de ejecución o latencia. Big Data tools Big Data resources http://www.slideshare.net/carlostoxtli/big-datapara-principiantes http://www.ibm.com/developerworks/ssa/data/li brary/techarticle/dm-1209hadoopbigdata/ http://searchstorage.techtarget.com/guides/Bigdata-tutorial-Everything-you-need-to-know http://www.lynda.com/Big-Data-trainingtutorials/2061-0.html Los infaltables Es importante saber las siguientes tecnologías: R Python Java Matlab Octave C++, entre otros Small Data Radica en mostrar la información suficiente para que los humanos la podamos comprender. Se utilizan técnicas visuales para mostrar sólo los insights que sean relevantes y sean sencillos de entender y aplicar en la vida cotidiana. Small Data resources Forget Big Data, Small Data is the Real Revolution What the “Small Data” Revolution Means for Marketers In Praise of ‘Small Data': How Targeted Analytics— Are Transforming Education Today How To Create Incredible Customer Service Through The ‘Small Data’ Advantage High Quality data Se refiere a los procesos, técnicas, algoritmos y operaciones encaminados a mejorar la calidad de los datos existentes en empresas y organismos. Beneficios de la calidad de datos Evitando tener información duplicada. La normalización de archivos mejora el análisis de datos y permite segmentaciones precisas. Optimizar la captación y la fidelización. Información focalizada y correcta. Identificación más rápidamente del usuario reduciendo los tiempos de espera. Data Quality tools Talend DQ Analyzer EasyDQ Gartner Data Quality resources http://www.ocdqblog.com/home/alternatives-toenterprise-data-quality-tools.html http://searchdatamanagement.techtarget.com/n ews/2240025847/Buyers-Guide-Choosingdata-quality-tools-and-software Behavioral targeting Consiste en analizar el comportamiento que sigue un usuario al navegar por ejemplo entre sitios y detectando patrones de conducta es posible asociar un perfil al mismo. Es muy usado para empresas de advertisement. Behavioral targeting tools intlock btbuckets Personyze audiencescience brainsins Behavioral targeting resources http://adsolutions.yp.com/small-businessmarketing-center/integrated-marketingarticles/best-behavioral-targeting-tools http://searchengineland.com/behavioraltargeting-is-easier-than-you-think-33840 Machine Learning Rama de la inteligencia artificial cuyo objetivo es desarrollar técnicas que permitan a las computadoras aprender. Crear programas capaces de generalizar comportamientos a partir de una información no estructurada suministrada en forma de ejemplos. Machine learning tools Weka Waffles PredictionIO scikit-learn accord shogun Machine Learning resources http://scikitlearn.org/stable/tutorial/basic/tutorial.html http://jmlr.org/mloss/ http://sourceforge.net/directory/scienceengineering/ai/machinelearning/os:mac/freshne ss:recently-updated/ Reality mining A través de equipos censados estudia la interacción de los humanos y detectar patrones de comportamiento entre los individuos. Reality mining resources http://realitycommons.media.mit.edu/ http://www.forbes.com/forbes/2010/0830/egang-mit-sandy-pentland-darpa-sociometersmining-reality.html http://mitpress.mit.edu/books/reality-mining http://www.sciencechannel.com/videotopics/gadgets-and-tech/brave-new-worldreality-mining.htm Information Extraction (IE) Creación de conocimiento de datos estructurados (relational databases, XML) y no estructurados (text, documents, images). El conocimiento generado debe estar en un formato machine-readable y machineinterpretable para facilitar inferencia. El resultado debe estar en un formato de formal knowledge (identifiers o ontologies). IE tools LingPipe GATE Carrot2 IE resources http://www.dfki.de/~neumann/esslli04/reader/ov erview/IJCAI99.pdf http://www.ecmlpkdd2013.org/wpcontent/uploads/2013/09/Web-ScaleInformation-Extraction.pdf http://www.isweb.unikoblenz.de/files/ssms09/SSMS_Slides/ciravegn a-IE%20text.pdf Knowledge discovery Describe el proceso de automáticamente buscar en grandes volúmenes de datos para encontrar patrones que puedan ser considerados conocimiento. Esta rama engloba al Data Mining en la etapa de analisis. Knowledge discovery tools keel rapidminer miningmart ELKI angoss blasoft knowledgeminer Knowledge discovery resources http://www.tutorialspoint.com/data_mining/dm_ knowledge_discovery.htm https://www.linkedin.com/pulse/article/2014111 4094203-52688293-tutorials-from-knowledgediscovery-and-data-mining-2014 Knowledge base Una Base de Conocimiento es un tipo especial de base de datos para la gestión del conocimiento. Provee los medios para la recolección, organización y recuperación computarizada de conocimiento. Existen las comprensibles por máquinas y por humanos. Knowledge base tools freebase dbpedia wikidata opencyc wolfram-alpha classora yago Knowledge base resources http://semanticweb.org/wiki/Getting_data_from_ the_Semantic_Web http://rdflib.github.io/sparqlwrapper/ http://wiki.freebase.com/wiki/Python https://developers.google.com/freebase/ https://github.com/dbpedia-spotlight/dbpediaspotlight/wiki/User's-manual Data Mining Intenta descubrir patrones en grandes volúmenes de conjuntos de datos. Utiliza los métodos de la inteligencia artificial, aprendizaje automático, estadística y sistemas de bases de datos. Data mining tools orange jhepwork knime rattle mahout mlflex databionic Data mining resources http://www.tutorialspoint.com/data_mining/ http://www.autonlab.org/tutorials/ http://msdn.microsoft.com/enus/library/ms167167.aspx http://www.rdatamining.com/ http://data-mining-tutorials.blogspot.mx/ Ontologies Las ontologías son la formulación de un exhaustivo y riguroso esquema conceptual dentro de uno o varios dominios dados; con la finalidad de facilitar la comunicación y el intercambio de información entre diferentes sistemas y entidades. Lenguajes de ontologías RDF OWL DAML OIL SKOS EARL GLD Ontology-based IE Por medio de por lo menos una ontología, OBIE utiliza métodos para identificar conceptos, instancias y relaciones entre las ontologías dando como salida una ontología. Ontology learning (OL) Forma automática de creación de ontologías a través de sus relaciones entre sus conceptos para ser usado en lenguaje natural. Ontology tools protégé oboedit opensemanticframework neontoolkit kaon hozo fluenteditor Semantic Annotation (SA) Utiliza análisis semántico en la información machine-understandable y hace uso de Terminology extraction y entity linking. Esto se consigue por medio de metadata. Semantic Annotation tools ehost domeo annozilla knoodl insemtives autometa Semantic Annotation resources https://gate.ac.uk/sale/talks/gate-coursemay10/track-3/module-10ontologies/ontologies.pdf https://gate.ac.uk/tutorials/iswc2014-socialmedia-tutorial.html http://teaching-wiki.sti2.at/uploads/5/55/05_SWSemanticAnnotation.pdf Terminology extraction Su función principal es extraer los términos relevantes en el cuerpo de un texto. Esto ayuda a entender el tema de que se esta hablando, todo esto gracias a procesadores lingüísticos que extraen a las palabras o frases candidatas. Terminology extraction tools wordfast translated TerMine fivefilters keywordextraction maui vocabgrabber Terminology extraction resources http://linguistech.ca/MultiTrans_Prism_TermExt ractor_E_TUTCERTT_I https://www.airpair.com/nlp/keyword-extractiontutorial http://recremisi.blogspot.mx/p/online-termextractors.html Data Archaeology Es el arte y ciencia de recuperar datos codificados en formatos que ahora son obsoletos. Se ha dado el caso de recuperar información en cintas de los 60’s siendo importante esta área para poder entender la información almacenada. Data Archaeology tools ads opencontext intrasis Data Archaeology resources https://www.youtube.com/watch?v=Ak9Mudwf0 EU http://en.wikipedia.org/wiki/Computational_arch aeology Semantic Web Tecnologías para publicar datos legibles por aplicaciones informáticas (máquinas en la terminología de la Web semántica). Se basa en la idea de añadir metadatos semánticos y ontológicos (describen el contenido, el significado y la relación) se deben proporcionar de manera formal, para que así sea posible evaluarlas automáticamente. Semantic Web tools semantic-measures-library hermit openlinksw mashql sparql2xquery kiwi internetbusinesslogic Semantic Web resources http://www.w3.org/2001/sw/BestPractices/Tutor ials http://www.w3.org/People/Ivan/CorePresentatio ns/SWTutorial/ http://www.linkeddatatools.com/semantic-webbasics http://obitko.com/tutorials/ontologies-semanticweb/ Sentiment analysis Interpretación de la actitud por medio de un texto analizado, esto ayuda a medir la respuesta emocional de los usuarios que han interactuado. Sentiment analysis tools sentiment-analysis-for-social-media semantria humanele sentiment-analisys-api predition-api sentiment-analisys-spanish tweetsentiments Sentiment analysis resources http://brnrd.me/social-sentiment-sentimentanalysis/ http://www.bitext.com/bitext-api-2/sentimentanalysis-2.html https://cloud.google.com/prediction/docs/sentim ent_analysis Opinion Extraction Es parte del análisis de sentimientos enfocado a dar seguimiento al proceso de recolectar opiniones. Implica la extracción de una posible opinión en el cuerpo de un mensaje. Opinion Extraction tools opinion-extraction-tool TwitIE open-information-extraction Opinion Extraction resources http://alaginrc.nict.go.jp/opinion/index_e.html http://www.cs.uic.edu/~liub/FBS/sentimentanalysis.html http://citeseerx.ist.psu.edu/viewdoc/summary?d oi=10.1.1.130.2832 https://www.textrazor.com/tutorials#properties Opinion Mining Extrae el significado de la opinión y se se puede categorizar respecto a parámetros. Esto es muy usado para medir su impacto en los medios sociales y obtener información relevante que nos indica si un contenido le gusta o qué no le gusta al usuario. Opinion Mining tools sentic trackur repustate nlptools speech2topics sentiment textalytics Opinion Mining references http://kmandcomputing.blogspot.mx/2008/06/op inion-mining-with-rapidminer-quick.html http://www.slideshare.net/KavitaGanesan/opini on-mining-kavitahyunduk00 http://jmgomezhidalgo.blogspot.mx/2009/04/opi nion-mining-tutorial-by-bing-liu-at.html Text Mining Área multidisciplinaria basada en la recuperación de información, minería de datos, aprendizaje automático, estadísticas y la lingüística computacional. La mayor parte de la información (más de un 80%) se encuentra actualmente almacenada como texto. Gran desarrollo en la minería de textos multilingual. Text Mining tools skyttle plos kh-coder lpu lqda-miner tams cat Text Mining resources http://www.predictiveanalyticstoday.com/top11-free-software-for-text-analysistext-miningtext-analytics/ http://www.cis.upenn.edu/~ungar/KDD/textmining.html http://sentimentmining.net/weka/ https://www.youtube.com/watch?v=ziBRRStPIt k Corpus linguistics Un corpus lingüístico es un conjunto, habitualmente muy amplio, de ejemplos reales de uso de una lengua. Estos ejemplos pueden ser textos (lo más común) o muestras orales (generalmente transcritas). Tambien conocido como corpora. Corpus linguistics tools corpus-of-contemporary-american-english american-corpus webcorp spanish-framenet spanish-oral-corpora british-national-corpus spanish-corpora Corpus linguistics resources http://wwwnlp.stanford.edu/manning/courses/corpcourse.p s http://www.york.ac.uk/language/current/resourc es/corpora/ http://www-01.sil.org/linguistics/etext.html http://radimrehurek.com/gensim/tutorial.html https://gate.ac.uk/demos/movies.html#section1.2.2. Computational Linguistics Rama interdisciplinaria que modela el lenguaje natural en términos computacionales. Reúne expertos en lingüística, lenguaje, computer scientists, inteligencia, matemáticas, lógica, filosofía, ciencia cognitiva, psicología cognitiva, psicolingüística, antropólogos, neurociencia, por mencionar lo más involucrados. Computational Psycholinguistics Estudia la comprensión, producción, adquisición y representación del lenguaje humano por medio de modelos computacionales resultados de experimentos psicolingüísticos y análisis del corpus. Computational Linguistics resource http://www.coli.uni-sb.de/~krenn/edu.html http://linguistlist.org/sp/GetWRListings.cfm?WR Abbrev=Software Natural language processing Campo de las ciencias de la computación, inteligencia artificial y lingüística que estudia las interacciones entre las computadoras y el lenguaje humano. El PLN se ocupa de mecanismos para la comunicación entre personas y máquinas por medio de lenguajes naturales. Programas que ejecutan o simulan la comunicación. NLP Tools NLTK OpenNLP clarabridge taste-analitycs corenlp sharpnlp classias NLP resources https://www.youtube.com/playlist?list=PLEC36 CC787EA50D7C http://vikparuchuri.com/blog/natural-languageprocessing-tutorial/ http://research.microsoft.com/apps/pubs/?id=21 7165 http://idibon.com/natural-language-processingtutorial-with-ebert/ Automatic summarization Proceso de reducir un documento de texto con un programa de cómputo con el fin de obtener un resumen que conserve los puntos más importantes del documento original. Son tomadas en cuenta variables como longitud, estilo de escritura y sintaxis. Los 2 enfoques principales son extracción y abstracción. Automatic summarization tools SystemQ MEAD textteaser Coreference resolution Estudia la correcta interpretación de un texto, la importancia de cada tema mencionado, la correcta asociación de ideas individuos. Los resultados están representados en términos de porcentajes de correlación. Coreference resolution tools dcoref reconcile cogcomp coref bart guitar Discourse analysis Analiza lenguaje escrito, hablado, en señas o cualquier tipo de expresión. Se analiza la secuencia de oraciones coherentes, proposiciones, mensaje entre otras. Analiza también las características socio psicológicas del discurso. Es un área multidisciplinaria. Discourse analysis tools discourse-analisys Machine translation La traducción automática es un área de la lingüística computacional que investiga el uso de software para traducir texto o habla de un lenguaje natural a otro. Permite un manejo más apropiado de las diferencias en la Tipología lingüística, el reconocimiento de frases, la traducción de expresiones idiomáticas y el aislamiento de anomalías. Machine translation tools moses phrasal joshua jane odec giza++ Data warehouse Entre otras cosas contempla los medios para obtener esos datos, para extraerlos, transformarlos y cargarlos, las técnicas para analizarlos y generar información, herramientas para extraer, transformar y cargar datos, herramientas para el análisis (inteligencia empresarial) y herramientas para gestionar y recuperar los metadatos. Morphological segmentation Estudia la estructura interna de las palabras para delimitar, definir y clasificar sus unidades. Un morfema se analiza en términos de lexemas y gramemas. Lexema: niños lexema: niñ Gramema: niños morfemas flexivos: -o, género masculino -s, número plural Morphological segmentation source http://perso.limsi.fr/anne/coursM2R/morphology .pdf Deep Learning Conjunto de algoritmos en aprendizaje automático que intenta modelar abstracciones de alto nivel en datos usando arquitecturas compuestas de transformaciones no-lineales múltiples. Una observación (por ejemplo, una imagen) puede ser representada en muchas formas (por ejemplo, un vector de píxeles). Deep Learning tools ConvNetJS DL4J H2O Caffe Deep Learning resources http://www.deeplearning.net/tutorial/ http://deeplearning.net/tutorial/deeplearning.pdf http://es.wikipedia.org/wiki/Aprendizaje_profund o http://ufldl.stanford.edu/wiki/index.php/UFLDL_ Tutorial https://github.com/lisalab/DeepLearningTutorials Signal processing Es la manipulación matemática de una señal de información para modificarla o mejorarla en algún sentido. Por medio del muestreo se toman muestras de una señal a una frecuencia o tasa de muestreo constante, para cuantificarlas posteriormente. Pattern recognition El reconocimiento de patrones es la ciencia que se ocupa de los procesos sobre ingeniería, computación y matemáticas relacionados con objetos físicos o abstractos, con el propósito de extraer información que permita establecer propiedades de entre conjuntos de dichos objetos. Pattern recognition tools OpenPR prtools SVM pattern-recognition-toolbox wnd-charm simphile PRT Pattern recognition resources http://www.cedar.buffalo.edu/~srihari/CSE555/ http://research.microsoft.com/pubs/67119/svmt utorial.pdf http://homepages.inf.ed.ac.uk/rbf/IAPR/researc hers/PPRPAGES/pprtut.htm http://en.wikipedia.org/wiki/Pattern_recognition Stochastic Sistema cuyo comportamiento es intrínsecamente no determinista. Cualquier comportamiento que pueda ser analizable en términos de probabilidad merece ser denominado como un proceso estocástico. Data processing "Validación" - Asegurar que los datos suministrados son "limpio, correcto y útil." Clasificación- "Ordena elementos de cierta secuencia y / o en diferentes conjuntos." Recapitulación - reducir los detalles de los datos a sus principales puntos. Data processing Agregación - combinación de múltiples piezas de datos . " Análisis"- la "colección, organización , análisis, interpretación y presentación de datos.". Información- lista detallada o resumen de los datos de información computarizada. Data processing tools MDP datafloq pig ECL sqoop flume chukwa Data processing resources http://en.wikipedia.org/wiki/Data_processing Data management Modelado de datos, Administración de base de datos, Data warehousing, Migración de datos, Minería de datos, Calidad de datos, Seguridad de datos, Gestión de meta-datos (repositorios de datos, y su gestión) y Arquitectura de datos Data management infobright talend jaspersoft jedox pentaho actuate Data management resources http://www.tutorialspoint.com/dbms/ https://www.youtube.com/watch?v=R5BN1Llhcw http://www.sqlcourse.com/intro.html http://searchdatamanagement.techtarget.com/g uide/Master-data-management-tutorial Latent Dirichlet Allocation Usando palabras en documentos, presupone que cada documento es una mezcla de un pequeño número de categorías y la aparición de cada palabra en un documento se debe a una de las categorías a las que el documento pertenece. LDA es un ejemplo de modelo de categorías y es un modelo en grafo para descubrir categorías Latent Dirichlet Allocation tools lda pylda Topic Modeling Técnica empleada en ML y PLN para descubrir temas contenidos en una colección de documentos. Analiza la concentración de una palabras ligadas a un tema por ejemplo si hay más palabras como “dog” o “bone” y menos como “cat” o “meow” entonces el documento está por ejemplo inclida 90% perro y 10% gato. Topic modeling Tools Gensim mallet Data visualization La visualización de datos no es solo una manera de presentar los datos, sino una manera de explorar y comprender los datos. Los elementos de la visualización como tamaño, forma, color, orden y encapsulamiento ayudan a mostrar de una forma más clara y comprensible. Data visualization tools d3js processing visual.ly gephi tableau qlik view scavis Data visualization resources https://www.dashingd3js.com/table-of-contents https://www.processing.org/tutorials/ http://www.lynda.com/Design-Infographicstutorials/Data-VisualizationFundamentals/153776-2.html Conclusión Lo importante no es saberlo todo, sino saber que utilizar en cada caso. Es importante que desarrolles proyectos con varias de estas tecnologías para comprobar tu experiencia como data scientist. También es buena práctica estructurar información para que sea accesible por la comunidad. Te invito a volverte un científico de datos. Para descargarla La presentación la subiré a mis redes sociales, cualquier duda estoy a sus órdenes en las mismas: +CarlosToxtli http://facebook.com/carlos.toxtli http://google.com/ Gracias Carlos Toxtli Hernández psykohack carlos.toxtli [email protected]