done

f6ee9107 · OleBrumm · 10b18cc6 · f6ee9107 · f6ee9107 · f6ee9107
Commit f6ee9107 authored 1 year ago by OleBrumm
--- a/.idea/.gitignore
+++ b/.idea/.gitignore
+# Default ignored files
+/shelf/
+/workspace.xml
+# Editor-based HTTP Client requests
+/httpRequests/
+# Datasource local storage ignored files
+/dataSources/
+/dataSources.local.xml
--- a/.idea/INF161_Lab4.iml
+++ b/.idea/INF161_Lab4.iml
+<?xml version="1.0" encoding="UTF-8"?>
+<module type="PYTHON_MODULE" version="4">
+  <component name="NewModuleRootManager">
+    <content url="file://$MODULE_DIR$" />
+    <orderEntry type="jdk" jdkName="INF161" jdkType="Python SDK" />
+    <orderEntry type="sourceFolder" forTests="false" />
+  </component>
+</module>
\ No newline at end of file
--- a/.idea/inspectionProfiles/Project_Default.xml
+++ b/.idea/inspectionProfiles/Project_Default.xml
+<component name="InspectionProjectProfileManager">
+  <profile version="1.0">
+    <option name="myName" value="Project Default" />
+    <inspection_tool class="GrazieInspection" enabled="false" level="GRAMMAR_ERROR" enabled_by_default="false" />
+    <inspection_tool class="IdentifierGrammar" enabled="false" level="TYPO" enabled_by_default="false" />
+    <inspection_tool class="LanguageDetectionInspection" enabled="false" level="WARNING" enabled_by_default="false" />
+    <inspection_tool class="PyPep8Inspection" enabled="true" level="WEAK WARNING" enabled_by_default="true">
+      <option name="ignoredErrors">
+        <list>
+          <option value="E722" />
+        </list>
+      </option>
+    </inspection_tool>
+    <inspection_tool class="PyPep8NamingInspection" enabled="true" level="WEAK WARNING" enabled_by_default="true">
+      <option name="ignoredErrors">
+        <list>
+          <option value="N806" />
+          <option value="N802" />
+        </list>
+      </option>
+    </inspection_tool>
+    <inspection_tool class="SpellCheckingInspection" enabled="false" level="TYPO" enabled_by_default="false">
+      <option name="processCode" value="true" />
+      <option name="processLiterals" value="true" />
+      <option name="processComments" value="true" />
+    </inspection_tool>
+    <inspection_tool class="StructuralWrap" enabled="false" level="TYPO" enabled_by_default="false" />
+    <inspection_tool class="Style" enabled="false" level="TYPO" enabled_by_default="false" />
+    <inspection_tool class="ValeProblem" enabled="false" level="WARNING" enabled_by_default="false" />
+  </profile>
+</component>
\ No newline at end of file
--- a/.idea/inspectionProfiles/profiles_settings.xml
+++ b/.idea/inspectionProfiles/profiles_settings.xml
+<component name="InspectionProjectProfileManager">
+  <settings>
+    <option name="USE_PROJECT_PROFILE" value="false" />
+    <version value="1.0" />
+  </settings>
+</component>
\ No newline at end of file
--- a/.idea/misc.xml
+++ b/.idea/misc.xml
+<?xml version="1.0" encoding="UTF-8"?>
+<project version="4">
+  <component name="Black">
+    <option name="sdkName" value="INF161" />
+  </component>
+  <component name="ProjectRootManager" version="2" project-jdk-name="INF161" project-jdk-type="Python SDK" />
+</project>
\ No newline at end of file
--- a/.idea/modules.xml
+++ b/.idea/modules.xml
+<?xml version="1.0" encoding="UTF-8"?>
+<project version="4">
+  <component name="ProjectModuleManager">
+    <modules>
+      <module fileurl="file://$PROJECT_DIR$/.idea/INF161_Lab4.iml" filepath="$PROJECT_DIR$/.idea/INF161_Lab4.iml" />
+    </modules>
+  </component>
+</project>
\ No newline at end of file
--- a/.idea/vcs.xml
+++ b/.idea/vcs.xml
+<?xml version="1.0" encoding="UTF-8"?>
+<project version="4">
+  <component name="VcsDirectoryMappings">
+    <mapping directory="" vcs="Git" />
+    <mapping directory="$PROJECT_DIR$" vcs="Git" />
+  </component>
+</project>
\ No newline at end of file
--- a/lab-4c-datamodellering-titanic.ipynb
+++ b/lab-4c-datamodellering-titanic.ipynb
@@ -14,8 +14,8 @@
   "execution_count": 1,
   "metadata": {
    "ExecuteTime": {
-     "end_time": "2023-10-05T14:32:38.964262Z",
+     "end_time": "2023-10-05T14:55:55.349804700Z",
-     "start_time": "2023-10-05T14:32:34.471868800Z"
+     "start_time": "2023-10-05T14:55:52.554805700Z"
    }
   },
   "outputs": [],
@@ -39,8 +39,8 @@
   "execution_count": 2,
   "metadata": {
    "ExecuteTime": {
-     "end_time": "2023-10-05T14:32:39.011223800Z",
+     "end_time": "2023-10-05T14:55:55.410803700Z",
-     "start_time": "2023-10-05T14:32:38.967226600Z"
+     "start_time": "2023-10-05T14:55:55.354806800Z"
    }
   },
   "outputs": [],
@@ -61,8 +61,8 @@
   "execution_count": 3,
   "metadata": {
    "ExecuteTime": {
-     "end_time": "2023-10-05T14:32:39.026220700Z",
+     "end_time": "2023-10-05T14:55:55.428806300Z",
-     "start_time": "2023-10-05T14:32:39.007222Z"
+     "start_time": "2023-10-05T14:55:55.391804Z"
    }
   },
   "outputs": [],
@@ -88,8 +88,8 @@
   "execution_count": 4,
   "metadata": {
    "ExecuteTime": {
-     "end_time": "2023-10-05T14:32:39.061224900Z",
+     "end_time": "2023-10-05T14:55:55.429803200Z",
-     "start_time": "2023-10-05T14:32:39.033223300Z"
+     "start_time": "2023-10-05T14:55:55.420810100Z"
    }
   },
   "outputs": [],
@@ -112,8 +112,8 @@
   "execution_count": 5,
   "metadata": {
    "ExecuteTime": {
-     "end_time": "2023-10-05T14:32:39.149222800Z",
+     "end_time": "2023-10-05T14:55:55.495802400Z",
-     "start_time": "2023-10-05T14:32:39.060229600Z"
+     "start_time": "2023-10-05T14:55:55.439815100Z"
    }
   },
   "outputs": [
@@ -121,8 +121,8 @@
     "name": "stdout",
     "output_type": "stream",
     "text": [
-      "12.35820895522388\n",
+      "11.545454545454547\n",
-      "SignificanceResult(statistic=12.35820895522388, pvalue=1.6667183280926595e-34)\n"
+      "SignificanceResult(statistic=11.545454545454545, pvalue=4.443912734227653e-33)\n"
     ]
    }
   ],
@@ -157,8 +157,8 @@
   "execution_count": 6,
   "metadata": {
    "ExecuteTime": {
-     "end_time": "2023-10-05T14:32:39.162224800Z",
+     "end_time": "2023-10-05T14:55:55.551839800Z",
-     "start_time": "2023-10-05T14:32:39.109248400Z"
+     "start_time": "2023-10-05T14:55:55.497827500Z"
    }
   },
   "outputs": [],
@@ -168,8 +168,8 @@
    "df.loc[:, 'Survived'] = y_train\n",
    "\n",
    "# Test if the difference is significant\n",
-    "alder_test = stats.ttest_ind(titanic_df[titanic_df['Survived']==1]['Age'].dropna(),\n",
+    "alder_test = stats.ttest_ind(titanic_df[titanic_df['Survived']==0]['Age'].dropna(),\n",
-    "                             titanic_df[titanic_df['Survived']==0]['Age'].dropna())\n"
+    "                             titanic_df[titanic_df['Survived']==1]['Age'].dropna())\n"
   ]
  },
  {
@@ -184,8 +184,8 @@
   "execution_count": 7,
   "metadata": {
    "ExecuteTime": {
-     "end_time": "2023-10-05T14:32:39.519227600Z",
+     "end_time": "2023-10-05T14:55:56.073589600Z",
-     "start_time": "2023-10-05T14:32:39.128226500Z"
+     "start_time": "2023-10-05T14:55:55.535808600Z"
    }
   },
   "outputs": [
@@ -212,7 +212,7 @@
    "          'Logistisk regresjon': LogisticRegression(), \n",
    "          'Naive Bayes': MultinomialNB(), \n",
    "          'Tilfeldig skog': RandomForestClassifier(), \n",
-    "          'Supportvektormaskin': SVC()}\n",
+    "          'Supportvektormaskin': SVC(probability=True)}\n",
    "\n",
    "for _, model in models.items():\n",
    "    model.fit(X_train, y_train)"
@@ -230,8 +230,8 @@
   "execution_count": 8,
   "metadata": {
    "ExecuteTime": {
-     "end_time": "2023-10-05T14:32:39.582221Z",
+     "end_time": "2023-10-05T14:55:56.155588700Z",
-     "start_time": "2023-10-05T14:32:39.523224500Z"
+     "start_time": "2023-10-05T14:55:56.085592700Z"
    }
   },
   "outputs": [
@@ -270,8 +270,8 @@
   "execution_count": 9,
   "metadata": {
    "ExecuteTime": {
-     "end_time": "2023-10-05T14:32:39.650220500Z",
+     "end_time": "2023-10-05T14:55:56.224591300Z",
-     "start_time": "2023-10-05T14:32:39.589225Z"
+     "start_time": "2023-10-05T14:55:56.161595500Z"
    }
   },
   "outputs": [
@@ -307,8 +307,8 @@
   "execution_count": 10,
   "metadata": {
    "ExecuteTime": {
-     "end_time": "2023-10-05T14:32:39.718225400Z",
+     "end_time": "2023-10-05T14:55:56.309589300Z",
-     "start_time": "2023-10-05T14:32:39.633221400Z"
+     "start_time": "2023-10-05T14:55:56.220592300Z"
    }
   },
   "outputs": [
@@ -316,8 +316,8 @@
     "name": "stdout",
     "output_type": "stream",
     "text": [
-      "Nøyaktighet: 0.7407407407407407\n",
+      "Nøyaktighet: 0.8055555555555556\n",
-      "Log-loss: 1.1793389109115633\n"
+      "Log-loss: 0.4015737539957328\n"
     ]
    }
   ],

 %% Cell type:markdown id: tags:
 ## Titanic overlevelse
 Her har vi data om passasjerer på skipet Titanic og informasjon om hvorvidt de overlevde. I denne oppgaven skal du bruke passasjerdata for å teste om det er forskjeller i overlevelsen mellom passasjergrupper og predikere om passasjeren overlevde.
 %% Cell type:code id: tags:
 ``` python
 # imports
 import numpy as np
 import pandas as pd
 from scipy import stats
 from sklearn.model_selection import train_test_split
 from sklearn.linear_model import Lasso, LogisticRegression
 from sklearn.neighbors import KNeighborsClassifier
 from sklearn.ensemble import RandomForestClassifier
 from sklearn.naive_bayes import MultinomialNB
 from sklearn.svm import SVC
 from sklearn.metrics import accuracy_score, log_loss
 ```
 %% Cell type:code id: tags:
 ``` python
 # les inn Titanic-data
 titanic_df = pd.read_csv('data/titanic.csv')
 ```
 %% Cell type:markdown id: tags:
 Først endrer vi litt på data for å gjøre oppgaven enklere. Dette er ikke en god ide å gjøre når vi vil lage bestmulige modeller.
 %% Cell type:code id: tags:
 ``` python
 # del data i mål-, og prediktorvariabler
 X_cols = ['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare']
 y_col = 'Survived'
 reduced_df = titanic_df.loc[:, X_cols + [y_col]].dropna()
 X_df = pd.get_dummies(reduced_df.loc[:, X_cols], dtype='int')
 X = X_df.values
 y = reduced_df[y_col].values
 ```
 %% Cell type:markdown id: tags:
 Del data i trenings-, validerigns-, og testdata med størrelser 70%, 15%, 15% av data.
 %% Cell type:code id: tags:
 ``` python
 # dele data i trenings, validerings og testdata
 # generer X_train, X_val, X_test, y_train, y_val, y_test
 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)
 X_val, X_test, y_val, y_test = train_test_split(X_test, y_test, test_size=0.5)
 ```
 %% Cell type:markdown id: tags:
 På treningsdata, test om menn og kvinner hadde forskjellige sannsynligheter for å overleve.
 %% Cell type:code id: tags:
 ``` python
 # test om menn og kvinner hadde forskjellig overlevelse
 df = pd.DataFrame(X_train, columns=X_df.columns)
 df.loc[:, 'Survived'] = y_train
 womenalive = df[df['Sex_female'] == 1]['Survived'].sum()
 womendead = df[df['Sex_female'] == 1]['Survived'].count() - womenalive
 menalive = df[df['Sex_male'] == 1]['Survived'].sum()
 mendead = df[df['Sex_male'] == 1]['Survived'].count() - menalive
 print((womenalive/womendead)/(menalive/mendead))
 nrs = pd.crosstab(df['Sex_female'], df['Survived'])
 kjonn_test = stats.fisher_exact(nrs)
 print(str(kjonn_test))
 ```
 %% Output
-    12.35820895522388
+    11.545454545454547
-    SignificanceResult(statistic=12.35820895522388, pvalue=1.6667183280926595e-34)
+    SignificanceResult(statistic=11.545454545454545, pvalue=4.443912734227653e-33)
 %% Cell type:markdown id: tags:
 På treningsdata, test om de som overlevde hadde forskjellig mean alder enn de som ikke overlevde.
 %% Cell type:code id: tags:
 ``` python
 # Get the ages and survival labels from training data
 df = pd.DataFrame(X_train, columns=X_df.columns)
 df.loc[:, 'Survived'] = y_train
 # Test if the difference is significant
-alder_test = stats.ttest_ind(titanic_df[titanic_df['Survived']==1]['Age'].dropna(),
+alder_test = stats.ttest_ind(titanic_df[titanic_df['Survived']==0]['Age'].dropna(),
-                             titanic_df[titanic_df['Survived']==0]['Age'].dropna())
+                             titanic_df[titanic_df['Survived']==1]['Age'].dropna())
 ```
 %% Cell type:markdown id: tags:
 Tren en kNN-modell med k=1, k=10 og k=50 på treningsdata. Tren også en logistisk regresjon, naive Bayes modell, tilfeldig skog og supportvektormaskin på treningsdata.
 %% Cell type:code id: tags:
 ``` python
 # tren forskjellige modeller
 models = {'kNN-1': KNeighborsClassifier(n_neighbors=1),
          'kNN-10': KNeighborsClassifier(n_neighbors=10),
          'kNN-50': KNeighborsClassifier(n_neighbors=50),
          'Logistisk regresjon': LogisticRegression(),
          'Naive Bayes': MultinomialNB(),
          'Tilfeldig skog': RandomForestClassifier(),
-          'Supportvektormaskin': SVC()}
+          'Supportvektormaskin': SVC(probability=True)}
 for _, model in models.items():
    model.fit(X_train, y_train)
 ```
 %% Output
    C:\Users\Ole\miniconda3\envs\INF161\lib\site-packages\sklearn\linear_model\_logistic.py:460: ConvergenceWarning: lbfgs failed to converge (status=1):
    STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.
    Increase the number of iterations (max_iter) or scale the data as shown in:
        https://scikit-learn.org/stable/modules/preprocessing.html
    Please also refer to the documentation for alternative solver options:
        https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
      n_iter_i = _check_optimize_result(
 %% Cell type:markdown id: tags:
 Sorter de ulike modellene etter nøyaktighet på valideringsdata (`sklearn.metrics.accuracy_score`).
 %% Cell type:code id: tags:
 ``` python
 # sjekk nøyaktighet for valideringsdata
 accuracies = {name: accuracy_score(y_val, model.predict(X_val)) for name, model in models.items()}
 accuracies_df = pd.DataFrame(accuracies, index=accuracies.keys(), columns=['accuracy'])
 accuracies_df.sort_values(by='accuracy', ascending=False, inplace=True)
 print(accuracies_df)
 ```
 %% Output
                        accuracy
    kNN-1                    NaN
    kNN-10                   NaN
    kNN-50                   NaN
    Logistisk regresjon      NaN
    Naive Bayes              NaN
    Tilfeldig skog           NaN
    Supportvektormaskin      NaN
 %% Cell type:markdown id: tags:
 I stedet for nøyaktighet er det vanlig å bruke log-loss, som tar hensyn til en probabilistisk prediksjon. Sorter de ulike modellene etter log-loss (`sklearn.metrics.log_loss`).
 %% Cell type:code id: tags:
 ``` python
 # Calculate log loss for each model on validation data
 losses = {name: log_loss(y_val, model.predict_proba(X_val))
          for name, model in models.items()
          if hasattr(model, 'predict_proba')}
 # Convert dictionary to DataFrame and sort by loss
 losses_df = pd.DataFrame(list(losses.items()), columns=['Model', 'Log-Loss'])
 losses_df.sort_values(by='Log-Loss', inplace=True)
 ```
 %% Output
    C:\Users\Ole\miniconda3\envs\INF161\lib\site-packages\sklearn\metrics\_classification.py:2916: UserWarning: The y_pred values do not sum to one. Starting from 1.5 thiswill result in an error.
      warnings.warn(
 %% Cell type:markdown id: tags:
 Velg ut den beste modellen (basert på log-loss) og sjekk hvor godt den generaliserer ved å regne ut nøyaktighet og log-loss på testdata.
 %% Cell type:code id: tags:
 ``` python
 # Choose the best model based on log-loss
 best_model = models[losses_df.iloc[0]['Model']]
 # Evaluate its performance on test data
 generalization_accuracy = accuracy_score(y_test, best_model.predict(X_test))
 generalization_logloss = log_loss(y_test, best_model.predict_proba(X_test)[:, 1])
 print('Nøyaktighet:', generalization_accuracy)
 print('Log-loss:', generalization_logloss)
 ```
 %% Output
-    Nøyaktighet: 0.7407407407407407
+    Nøyaktighet: 0.8055555555555556
-    Log-loss: 1.1793389109115633
+    Log-loss: 0.4015737539957328
 %% Cell type:markdown id: tags:
 Gi en oppsummering over hva du har gjort og hva resultatet var.
 %% Cell type:markdown id: tags:
 ...