carbondata.git
12 months agoSupport generating assembling JAR for store-sdk module
Jacky Li [Tue, 13 Feb 2018 01:12:09 +0000 (09:12 +0800)] 
Support generating assembling JAR for store-sdk module

Support generating assembling JAR for store-sdk module and remove junit dependency

This closes #1976

12 months ago[CARBONDATA-2023][DataLoad] Add size base block allocation in data loading
xuchuanyin [Thu, 8 Feb 2018 06:42:39 +0000 (14:42 +0800)] 
[CARBONDATA-2023][DataLoad] Add size base block allocation in data loading

Carbondata assign blocks to nodes at the beginning of data loading.
Previous block allocation strategy is block number based and it will
suffer skewed data problem if the size of input files differs a lot.

We introduced a size based block allocation strategy to optimize data
loading performance in skewed data scenario.

This closes #1808

12 months ago[CARBONDATA-2018][DataLoad] Optimization in reading/writing for sort temp row
xuchuanyin [Thu, 8 Feb 2018 06:35:14 +0000 (14:35 +0800)] 
[CARBONDATA-2018][DataLoad] Optimization in reading/writing for sort temp row

Pick up the no-sort fields in the row and pack them as bytes array and skip parsing them during merge sort to reduce CPU consumption

This closes #1792

12 months ago[CARBONDATA-2159] Remove carbon-spark dependency in store-sdk module
Jacky Li [Sun, 11 Feb 2018 13:37:04 +0000 (21:37 +0800)] 
[CARBONDATA-2159] Remove carbon-spark dependency in store-sdk module

To make assembling JAR of store-sdk module, it should not depend on carbon-spark module

This closes #1970

12 months ago[CARBONDATA-1997] Add CarbonWriter SDK API
Jacky Li [Sat, 10 Feb 2018 11:44:23 +0000 (19:44 +0800)] 
[CARBONDATA-1997] Add CarbonWriter SDK API

Added a new module called store-sdk, and added a CarbonWriter API, it can be used to write Carbondata files to a specified folder, without Spark and Hadoop dependency. User can use this API in any environment.

This closes #1967

12 months ago[CARBONDATA-2156] Add interface annotation
Jacky Li [Sun, 11 Feb 2018 02:12:10 +0000 (10:12 +0800)] 
[CARBONDATA-2156] Add interface annotation

InterfaceAudience and InterfaceStability annotation should be added for user and developer

1.InetfaceAudience can be User and Developer
2.InterfaceStability can be Stable, Evolving, Unstable

This closes #1968

12 months agoRevert "[CARBONDATA-2018][DataLoad] Optimization in reading/writing for sort temp...
Jacky Li [Sat, 10 Feb 2018 12:11:25 +0000 (20:11 +0800)] 
Revert "[CARBONDATA-2018][DataLoad] Optimization in reading/writing for sort temp row"

This reverts commit de92ea9a123b17d903f2d1d4662299315c792954.

12 months agoRevert "[CARBONDATA-2023][DataLoad] Add size base block allocation in data loading"
Jacky Li [Sat, 10 Feb 2018 02:34:59 +0000 (10:34 +0800)] 
Revert "[CARBONDATA-2023][DataLoad] Add size base block allocation in data loading"

This reverts commit 6dd8b038fc898dbf48ad30adfc870c19eb38e3d0.

12 months ago[CARBONDATA-2023][DataLoad] Add size base block allocation in data loading
xuchuanyin [Thu, 8 Feb 2018 06:42:39 +0000 (14:42 +0800)] 
[CARBONDATA-2023][DataLoad] Add size base block allocation in data loading

Carbondata assign blocks to nodes at the beginning of data loading.
Previous block allocation strategy is block number based and it will
suffer skewed data problem if the size of input files differs a lot.

We introduced a size based block allocation strategy to optimize data
loading performance in skewed data scenario.

This closes #1808

12 months ago[CARBONDATA-2018][DataLoad] Optimization in reading/writing for sort temp row
xuchuanyin [Thu, 8 Feb 2018 06:35:14 +0000 (14:35 +0800)] 
[CARBONDATA-2018][DataLoad] Optimization in reading/writing for sort temp row

Pick up the no-sort fields in the row and pack them as bytes array and skip parsing them during merge sort to reduce CPU consumption

This closes #1792

12 months ago[HotFix][CheckStyle] Fix import related checkstyle
xuchuanyin [Thu, 8 Feb 2018 07:39:45 +0000 (15:39 +0800)] 
[HotFix][CheckStyle] Fix import related checkstyle

This closes #1952

12 months ago[CARBONDATA-1544][Datamap] Datamap FineGrain implementation
ravipesala [Wed, 15 Nov 2017 14:18:40 +0000 (19:48 +0530)] 
[CARBONDATA-1544][Datamap] Datamap FineGrain implementation

Implemented interfaces for FG datamap and integrated to filterscanner to use the pruned bitset from FG datamap.
FG Query flow as follows.
1.The user can add FG datamap to any table and implement there interfaces.
2. Any filter query which hits the table with datamap will call prune method of FGdatamap.
3. The prune method of FGDatamap return list FineGrainBlocklet , these blocklets contain the information of block, blocklet, page and rowids information as well.
4. The pruned blocklets are internally wriitten to file and returns only the block , blocklet and filepath information as part of Splits.
5. Based on the splits scanrdd schedule the tasks.
6. In filterscanner we check the datamapwriterpath from split and reNoteads the bitset if exists. And pass this bitset as input to it.

This closes #1471

12 months ago[CARBONDATA-1480]Min Max Index Example for DataMap
sounakr [Thu, 28 Sep 2017 10:51:05 +0000 (16:21 +0530)] 
[CARBONDATA-1480]Min Max Index Example for DataMap

Datamap Example. Implementation of Min Max Index through Datamap. And Using the Index while prunning.

This closes #1359

12 months ago[CARBONDATA-2080] [S3-Implementation] Propagated hadoopConf from driver to executor...
Jatin [Thu, 25 Jan 2018 11:23:00 +0000 (16:53 +0530)] 
[CARBONDATA-2080] [S3-Implementation] Propagated hadoopConf from driver to executor for s3 implementation in cluster mode.

Problem : hadoopconf was not getting propagated from driver to the executor that's why load was failing to the distributed environment.
Solution: Setting the Hadoop conf in base class CarbonRDD
How to verify this PR :
Execute the load in the cluster mode It should be a success using location s3.

This closes #1860

12 months ago[CARBONDATA-2025] Unify all path construction through CarbonTablePath static method
Jacky Li [Wed, 31 Jan 2018 08:14:27 +0000 (16:14 +0800)] 
[CARBONDATA-2025] Unify all path construction through CarbonTablePath static method

Refactory CarbonTablePath:

1.Remove CarbonStorePath and use CarbonTablePath only.
2.Make CarbonTablePath an utility without object creation, it can avoid creating object before using it, thus code is cleaner and GC is less.

This closes #1768

12 months ago[CARBONDATA-2099] Refactor query scan process to improve readability
Jacky Li [Tue, 30 Jan 2018 13:24:04 +0000 (21:24 +0800)] 
[CARBONDATA-2099] Refactor query scan process to improve readability

Unified concepts in scan process flow:

1.QueryModel contains all parameter for scan, it is created by API in CarbonTable. (In future, CarbonTable will be the entry point for various table operations)
2.Use term ColumnChunk to represent one column in one blocklet, and use ChunkIndex in reader to read specified column chunk
3.Use term ColumnPage to represent one page in one ColumnChunk
4.QueryColumn => ProjectionColumn, indicating it is for projection

This closes #1874

12 months ago[REBASE] Solve conflict after rebasing master
Jacky Li [Wed, 31 Jan 2018 16:25:31 +0000 (00:25 +0800)] 
[REBASE] Solve conflict after rebasing master

12 months ago[CARBONDATA-1827] S3 Carbon Implementation
SangeetaGulia [Thu, 21 Sep 2017 09:26:26 +0000 (14:56 +0530)] 
[CARBONDATA-1827] S3 Carbon Implementation

1.Provide support for s3 in carbondata.
2.Added S3Example to create carbon table on s3.
3.Added S3CSVExample to load carbon table using csv from s3.

This closes #1805

12 months ago[CARBONDATA-1968] Add external table support
Jacky Li [Tue, 2 Jan 2018 15:46:14 +0000 (23:46 +0800)] 
[CARBONDATA-1968] Add external table support

This PR adds support for creating external table with existing carbondata files, using Hive syntax.
CREATE EXTERNAL TABLE tableName STORED BY 'carbondata' LOCATION 'path'

This closes #1749

12 months ago[CARBONDATA-1992] Remove partitionId in CarbonTablePath
Jacky Li [Sat, 6 Jan 2018 12:28:44 +0000 (20:28 +0800)] 
[CARBONDATA-1992] Remove partitionId in CarbonTablePath

In CarbonTablePath, there is a deprecated partition id which is always 0, it should be removed to avoid confusion.

This closes #1765

12 months ago[CARBONDATA-2089]SQL exception is masked due to assert(false) inside try catch and...
Raghunandan S [Sat, 27 Jan 2018 15:19:47 +0000 (20:49 +0530)] 
[CARBONDATA-2089]SQL exception is masked due to assert(false) inside try catch and exception block always asserting true

Correct all SDV testcase to use intercept exception

This closes #1871

12 months ago[CARBONDATA-2021]fix clean up issue when update operation is abprutly stopped
akashrn5 [Wed, 10 Jan 2018 14:59:43 +0000 (20:29 +0530)] 
[CARBONDATA-2021]fix clean up issue when update operation is abprutly stopped

when delete is success and update is failed while writing status file then a stale carbon data file is created.
so removing that file on clean up . and also not considering that one during query.

This closes #1793

12 months ago[CARBONDATA-2096] Add query test case for 'merge_small_files' distribution
QiangCai [Tue, 30 Jan 2018 09:07:24 +0000 (17:07 +0800)] 
[CARBONDATA-2096] Add query test case for 'merge_small_files' distribution

Add query test case for 'merge_small_files' distribution

This closes #1882

12 months ago[HOTFIX] Correct CI url and add standard partition usage
chenliang613 [Tue, 30 Jan 2018 14:35:02 +0000 (22:35 +0800)] 
[HOTFIX] Correct CI url and add standard partition usage

This closes #1889

12 months ago[CARBONDATA-2044] Documentation added 2 parameter
sgururajshetty [Wed, 31 Jan 2018 10:54:13 +0000 (16:24 +0530)] 
[CARBONDATA-2044] Documentation added 2 parameter

Documentation added 2 parameter

This closes #1893

12 months ago[CARBONDATA-2075][CARBONDATA-1516] Fix test error with new creating timeseries pre...
xubo245 [Wed, 31 Jan 2018 02:49:08 +0000 (10:49 +0800)] 
[CARBONDATA-2075][CARBONDATA-1516] Fix test error with new creating timeseries pre-aggregate table syntax

This closes #1890

12 months ago[CARBONDATA-2097] Restriction added to partition table on alter command (add,rename...
kushalsaha [Tue, 30 Jan 2018 11:08:47 +0000 (16:38 +0530)] 
[CARBONDATA-2097] Restriction added to partition table on alter command (add,rename on partition table and drop partition on preaggregate table)

Restriction added to partition table on alter command (add and rename on partion table and drop partition on preaggregate table)

This closes #1885

12 months ago[HOTFIX]modify default config: change the default of tempCSV to false
qiuchenjian [Mon, 15 Jan 2018 14:47:24 +0000 (22:47 +0800)] 
[HOTFIX]modify default config: change the default of tempCSV to false

This closes #1806

12 months ago[CARBONDATA-2106] Update product document with page level reader property
Vinayakumar B [Wed, 31 Jan 2018 06:12:22 +0000 (11:42 +0530)] 
[CARBONDATA-2106] Update product document with page level reader property

This closes #1892

12 months ago[CARBONDATA-1988] Fixed bug to remove empty partition directory for drop partition...
Geetika Gupta [Wed, 10 Jan 2018 10:53:55 +0000 (16:23 +0530)] 
[CARBONDATA-1988] Fixed bug to remove empty partition directory for drop partition command

This closes #1786

12 months ago[CARBONDATA-1964] Fixed bug to set bad.records.action parameter using SET command
Geetika Gupta [Wed, 17 Jan 2018 08:01:56 +0000 (13:31 +0530)] 
[CARBONDATA-1964] Fixed bug to set bad.records.action parameter using SET command

Fixed bug to set bad.records.action parameter using SET command

This closes #1819

12 months ago[CARBONDATA-1948] Update help document for the change made for CARBONDATA-1929
Varun Saxena [Tue, 30 Jan 2018 11:00:36 +0000 (16:30 +0530)] 
[CARBONDATA-1948] Update help document for the change made for CARBONDATA-1929

Update help document for the change made for CARBONDATA-1929

This closes #1884

12 months ago[CARBONDATA-2090] Fix the error message of alter streaming property
QiangCai [Mon, 29 Jan 2018 03:40:47 +0000 (11:40 +0800)] 
[CARBONDATA-2090] Fix the error message of alter streaming property

Fix the error message of alter streaming property

This closes #1873

12 months ago[CARBONDATA-1987] Make package name and directory paths consistent;remove duplicate...
Raghunandan S [Thu, 4 Jan 2018 14:48:07 +0000 (20:18 +0530)] 
[CARBONDATA-1987] Make package name and directory paths consistent;remove duplicate file CarbonColumnValidator

add coveralls token to spark-2.2 profile;synchronize file path and package name;Delete duplicate class CarbonColumnValidator present in spark2 module

This closes #1764

12 months ago[CARBONDATA-2075][CARBONDATA-1516] It should throw exception when drop datamap and...
xubo245 [Thu, 25 Jan 2018 06:47:34 +0000 (14:47 +0800)] 
[CARBONDATA-2075][CARBONDATA-1516] It should throw exception when drop datamap and the table or datamap not exist

error 1:

It should throw no such datamap exception when drop datamap and the datamap does not exist
not IllegalArgumentException or sys.err

It should throw NoSuchDataMapException that extends MalformedCarbonCommandException

error 2:
fix error: drop datamap should throw exception when carbonTable.get.getTableInfo.getDataMapSchemaList.size() == 0

This closes #1858

12 months ago[CARBONDATA-2100] Add query test case to check result of streaming handoff operation
QiangCai [Tue, 30 Jan 2018 10:43:51 +0000 (18:43 +0800)] 
[CARBONDATA-2100] Add query test case to check result of streaming handoff operation

Add query test case to check result of streaming handoff operation

This closes #1887

12 months ago[CARBONDATA-2049] CarbonCleanFilesCommand table path problem
mohammadshahidkhan [Tue, 16 Jan 2018 06:19:54 +0000 (11:49 +0530)] 
[CARBONDATA-2049] CarbonCleanFilesCommand table path problem

Problem:
In CarbonCleanFilesCommand datbaseLocation is being passed instead of the tablePath in case of forceclean.
And in case of cleanGarbageData, storeLocation is being passed instead of the tablePath.

This closes #1828

12 months ago[CARBONDATA-1224] Added page level reader instead of reading whole blocklet in V3
ravipesala [Mon, 22 Jan 2018 17:47:26 +0000 (23:17 +0530)] 
[CARBONDATA-1224] Added page level reader instead of reading whole blocklet in V3

Problem:In V3 format we read the whole blocklet at once to memory in order save IO time. But it turns out to be costlier in case of parallel reading of more carbondata files.For example if we need to compact 50 segments then compactor need to open the readers on all the 50 segments to do merge sort. But the memory consumption is too high if each reader reads whole blocklet to the memory and there is high chances of going out of memory.Solution:In this type of scenarios we can introduce new readers for V3 to read the data page by page instead of reading whole blocklet at once to reduce the memory footprint.

This closes #1089

12 months ago[CARBONDATA-2088][CARBONDATA-1516] Optimize syntax for creating timeseries pre-aggreg...
xubo245 [Fri, 26 Jan 2018 09:47:46 +0000 (17:47 +0800)] 
[CARBONDATA-2088][CARBONDATA-1516] Optimize syntax for creating timeseries pre-aggregate table

change using 'timeseries' instead of using preaggregate for creating timeseries pre-aggregate table

change timeseries.eventTime and hour_granularity and so on
granularity only support one

It should throw UnsupportDataMapException if don't use timeseries or preaggregate to create datamap

This closes #1865

12 months ago[CARBONDATA-1796] While submiting new job, pass credentials in jobConf object
akashrn5 [Wed, 24 Jan 2018 08:56:28 +0000 (14:26 +0530)] 
[CARBONDATA-1796] While submiting new job, pass credentials in jobConf object

This closes #1855

12 months ago[CARBONDATA-2095]Copy data of GenericInternalRow for each iteration when converting...
Zhang Zhichao [Tue, 30 Jan 2018 08:52:46 +0000 (16:52 +0800)] 
[CARBONDATA-2095]Copy data of GenericInternalRow for each iteration when converting stream segment to batch segment

This closes #1881

12 months ago[CARBONDATA-1616] Documentation for Streaming Ingestion
sgururajshetty [Mon, 29 Jan 2018 14:09:04 +0000 (19:39 +0530)] 
[CARBONDATA-1616] Documentation for Streaming Ingestion

This closes #1877

12 months agoStreaming Ingestion
sgururajshetty [Mon, 29 Jan 2018 14:04:14 +0000 (19:34 +0530)] 
Streaming Ingestion

12 months ago[CARBONDATA-1909] Load is failing during insert into operation when load is concurren...
Manohar [Wed, 20 Dec 2017 09:39:45 +0000 (15:09 +0530)] 
[CARBONDATA-1909] Load is failing during insert into operation when load is concurrently done to source table

This closes #1693

12 months ago[CARBONDATA-2016] Exception displays while executing compaction with alter query
anubhav100 [Fri, 19 Jan 2018 16:01:14 +0000 (21:31 +0530)] 
[CARBONDATA-2016] Exception displays while executing compaction with alter query

Reason:
When we apply the alter table command to add column with default value it is always storing it as long object for all measures,it is wrongly written
in restructure util we should return the value as the same type as that of the measure,it was causing the compaction to fail with class cast exception
because the data type and its corresponding value does not have same data type

Solution: Correct the wrong logic in restructure util the type of returning value object should be same as that of measure

This closes #1839

12 months ago[CARBONDATA-2061] Check for only valid IN_PROGRESS segments
dhatchayani [Mon, 22 Jan 2018 09:12:07 +0000 (14:42 +0530)] 
[CARBONDATA-2061] Check for only valid IN_PROGRESS segments

Problem:
During operations like drop, delete segment, compaction, IUD there is a check for the IN_PROGRESS segments of a table. This check is simply checking the tblstatus file for IN_PROGRESS segments.

Solution:
The check should validate the IN_PROGRESS segments and decide on Valid and Invalid IN_PROGRESS segments.

This closes #1844

12 months ago[CARBONDATA-1991] Select query from a streaming table throws ClassCastException
anubhav100 [Mon, 8 Jan 2018 12:41:47 +0000 (18:11 +0530)] 
[CARBONDATA-1991] Select query from a streaming table throws ClassCastException

This closes #1778

12 months ago[CARBONDATA-2040] Add standard partiton example and optimize partition test case
chenliang613 [Wed, 17 Jan 2018 05:03:56 +0000 (13:03 +0800)] 
[CARBONDATA-2040] Add standard partiton example and optimize partition test case

Add standard partiton example and optimize partition test cases.

This closes #1817

12 months ago[CI][Streaming] Reduce the execution time of TestStreamingTableOperation test suite
QiangCai [Fri, 26 Jan 2018 01:40:46 +0000 (09:40 +0800)] 
[CI][Streaming] Reduce the execution time of TestStreamingTableOperation test suite

Combine test case to reduce the execution time of TestStreamingTableOperation test suiteļ¼Œ but not reduce the test coverage.

This closes #1863

12 months ago[CARBONDATA-2069] Restrict create datamap when load is in progress
kunal642 [Tue, 23 Jan 2018 13:22:48 +0000 (18:52 +0530)] 
[CARBONDATA-2069] Restrict create datamap when load is in progress

Problem:
1. Load data into maintable
2. create datamap parallelly
preaggregate table will not have any data while data load is successful for main table. This will make the pre-aggregate table inconsistent

Solution: Restrict creation of pre-aggregate table when load is in progress on main table

This closes #1850

12 months ago[CARBONDATA-2063][Tests] Fix bugs in interdependent tests
xuchuanyin [Mon, 22 Jan 2018 08:14:38 +0000 (16:14 +0800)] 
[CARBONDATA-2063][Tests] Fix bugs in interdependent tests

Tests should not depend on each other, otherwise tests will fail in developer's IDE if they only run a single test at once.

This closes #1843

12 months ago[CARBONDATA-2089] Test cases is incorrect because it always run success no matter...
xubo245 [Fri, 26 Jan 2018 12:40:20 +0000 (20:40 +0800)] 
[CARBONDATA-2089] Test cases is incorrect because it always run success no matter whether the SQL thrown exception

exception is error. Because some test case always run success whether sql throw exception

This closes #1866

12 months ago[CARBONDATA-2066] Add Local keyword when loading data to hive table
Raghunandan S [Tue, 23 Jan 2018 07:29:34 +0000 (12:59 +0530)] 
[CARBONDATA-2066] Add Local keyword when loading data to hive table

Add Local keyword when loading data to hive table

This closes #1845

12 months agoupdated bad records handling for its default value
vandana [Mon, 22 Jan 2018 07:23:19 +0000 (12:53 +0530)] 
updated bad records handling for its default value

updated bad records handling for its default value

This closes #1842

12 months ago[CARBONDATA-2054]Add an example: how to use CarbonData batch load to integrate with...
Zhang Zhichao [Sun, 21 Jan 2018 08:36:50 +0000 (16:36 +0800)] 
[CARBONDATA-2054]Add an example: how to use CarbonData batch load to integrate with Spark Streaming

Use CarbonSession.createDataFrame to convert rdd to DataFrame in DStream.foreachRDD, and then write batch data into CarbonData table which support auto compaction.

This closes #1840

12 months ago[CARBONDATA-2081] refresh cache across different session issue and schema after renam...
rahulforallp [Thu, 25 Jan 2018 14:13:22 +0000 (19:43 +0530)] 
[CARBONDATA-2081] refresh cache across different session issue and schema after rename is not being updated are fixed

Scenario: 1

open spark-sql and beeline.
create main table in spark-sql
create preaggreagate table in beeline.
drop main table in spark-sql.
perform 'show tables' operation . PreAggregate table is still not deleted.
Scenario: 2

perform following operation in same session:
create table t5 (c1 string, c2 int) stored by 'carbondata'
insert into t5 select 'asd',1
alter table t5 rename to t6
create table t5 (c1 string, c2 int,c3 string) stored by 'carbondata'
insert into t5 select 'asd',1,'sdf' (query is failing)

This closes #1862

12 months ago[CARBONDATA-2076] Refactored code segregated process meta and process data in load...
kumarvishal [Fri, 19 Jan 2018 11:52:28 +0000 (17:22 +0530)] 
[CARBONDATA-2076] Refactored code segregated process meta and process data in load command

This closes #1837

12 months ago[CI] Enabled pre aggregate tests and fixed insert query CI random query failure
ravipesala [Wed, 24 Jan 2018 03:47:07 +0000 (09:17 +0530)] 
[CI] Enabled pre aggregate tests and fixed insert query CI random query failure

Problem:
There is an issue of random null pointer exception from TaskContext while doing insert queries in CI that's why pre-aggregate tests are commented

Solution :
From my analysis, It is because of lack of synchronization in Sparks TaskContext and same is rectified in Spark 2.2.
To fix this issue added a mock to TaskContext and ignored the exceptions in tests.

This closes #1854

12 months ago[HOTFIX] process JVM error for the streaming writer
QiangCai [Tue, 23 Jan 2018 13:12:32 +0000 (21:12 +0800)] 
[HOTFIX] process JVM error for the streaming writer

process JVM error for the streaming writer by using Throwable instead of Exception

This closes #1849

12 months ago[CARBONDATA-2067] Fix NPE exception in StreamHandoffRDD
QiangCai [Tue, 23 Jan 2018 08:20:19 +0000 (16:20 +0800)] 
[CARBONDATA-2067] Fix NPE exception in StreamHandoffRDD

To avoid NPE of carbon table in StreamHandoffRDD, add carbon table to cache in internalCompute method

This closes #1846

12 months ago[CARBONDATA-2070]fix create preaggregate on decimal column in hive metastore
akashrn5 [Tue, 23 Jan 2018 13:29:51 +0000 (18:59 +0530)] 
[CARBONDATA-2070]fix create preaggregate on decimal column in hive metastore

Problem: when hive metastore is enabled and aggregate table is tried to create on the decimal column of main table, cast exception is thrown for Decimal datatype

solution:During creation of TableInfo from hivemetastore the DataMapSchemas and the columns
dataTypes are not converted to the appropriate child classes.
convert to actual datatype

This closes #1852

12 months ago[CARBONDATA-2071] Added block size to BblockletDataMap while initialising
ravipesala [Tue, 23 Jan 2018 13:01:54 +0000 (18:31 +0530)] 
[CARBONDATA-2071] Added block size to BblockletDataMap while initialising

This closes #1851

12 months ago[CARBONDATA-2060] Fix insert overwrite on partition table
akashrn5 [Fri, 19 Jan 2018 14:57:05 +0000 (20:27 +0530)] 
[CARBONDATA-2060] Fix insert overwrite on partition table

Problem:
When insert overwrite is done on partition table with the table which has empty data, it was not overwriting.

Solution:
when insert OverWrite is fired on partition table from empty table, it should create new empty segment and it should delete old segments.

This closes #1838

12 months ago[CARBONDATA-2045][PreAggregate]Fixed Pre Aggregate failure when specific segment...
kumarvishal [Wed, 17 Jan 2018 12:27:21 +0000 (17:57 +0530)] 
[CARBONDATA-2045][PreAggregate]Fixed Pre Aggregate failure when specific segment is set

Fixed issue : Query from segment set is not effective when pre-aggregate table is present

This closes #1823

12 months ago[CARBONDATA-2036] Fix the insert static partition with integer values prefix with...
ravipesala [Thu, 18 Jan 2018 13:21:50 +0000 (18:51 +0530)] 
[CARBONDATA-2036] Fix the insert static partition with integer values prefix with 0 not working

When trying to insert overwrite on the static partition with 0 at first on int column has an issue.Example :create table test(d1 string) partition by (c1 int, c2 int, c3 int)And use insert overwrite table partition(01, 02, 03) select s1The above case has a problem as 01 is not converting to an actual integer to partition map file.Solution :Convert the partition values to corresponding datatype value before adding to partition file.

This closes #1833

12 months ago[HOTFIX] Listeners not getting registered to the bus in CarbonSessionState Implementa...
kunal642 [Wed, 17 Jan 2018 10:03:25 +0000 (15:33 +0530)] 
[HOTFIX] Listeners not getting registered to the bus in CarbonSessionState Implementations

Problem: Listeners are not getting registered if you create a new implementation of CarbonSessionState and add it to spark using configuration. In this case CarbonSession would not be created and thus listeners are not registered.

Solution: Register listeners in CarbonSessionState instead of CarbonSession.

This closes #1821

12 months ago[CARBONDATA-2046]agg Query failed when non supported aggregate is present in Query
BJangir [Wed, 17 Jan 2018 17:02:10 +0000 (22:32 +0530)] 
[CARBONDATA-2046]agg Query failed when non supported aggregate is present in Query

Root Cause :- isValidPlan variable was getting overwritten by CarbonReflectionUtils.hasPredicateSubquery(expression) .

Solution :- CarbonReflectionUtils.hasPredicateSubquery(expression) method should be called when isValidPlan is true to avoid overwritten.

This closes #1824

12 months ago[CARBONDATA-2001] Unable to Save DataFrame As Carbondata stream table
anubhav100 [Mon, 8 Jan 2018 07:47:36 +0000 (13:17 +0530)] 
[CARBONDATA-2001] Unable to Save DataFrame As Carbondata stream table

1.added table property for streaming in carbondataframewriter
2.added test case for same

This closes #1774

12 months ago[CARBONDATA-2058] Block append data to streaming segment after writing exception
QiangCai [Fri, 19 Jan 2018 09:28:57 +0000 (17:28 +0800)] 
[CARBONDATA-2058] Block append data to streaming segment after writing exception

If CarbonStreamRecordWriter happened an exception, mark hasException attribute to avoid appending data to the segment.

This closes #1836

12 months ago[CARBONDATA-2057] Support specifying path when creating pre-aggregate table
Jacky Li [Fri, 19 Jan 2018 06:48:36 +0000 (14:48 +0800)] 
[CARBONDATA-2057] Support specifying path when creating pre-aggregate table

When creating datamap of pre-aggreagate table, user should be able to specify the persistence location of it.
User can use path property:

This closes #1835

12 months ago[CARBONDATA-2042][PreAggregate]Fixed data mismatch issue in case timeseries
kumarvishal [Wed, 17 Jan 2018 09:04:56 +0000 (14:34 +0530)] 
[CARBONDATA-2042][PreAggregate]Fixed data mismatch issue in case timeseries

Problem: Year, Month, Day level timeseries table giving wrong result
Solution: Timeseries UDF is not able to convert data when hour is in 24 hours format

This closes #1820

12 months ago[CARBONDATA-1941] Documentation added for Lock Retry
Shahid [Tue, 9 Jan 2018 13:36:19 +0000 (19:06 +0530)] 
[CARBONDATA-1941] Documentation added for Lock Retry

The properties, default value, and description added for the lock retry

This closes #1780

12 months ago[CARBONDATA-2053] Added events for streaming
rahulforallp [Thu, 18 Jan 2018 11:54:24 +0000 (17:24 +0530)] 
[CARBONDATA-2053] Added events for streaming

This PR contains the code to fire events during following two steps :
1. Before starting the stream and after the completion of stream
2. Before adding a batch and after batch is added during stream.

This closes #1832

12 months ago[CARBONDATA-2051] Added like query ends with and contains with filter push down supor...
manishgupta88 [Thu, 18 Jan 2018 08:53:17 +0000 (14:23 +0530)] 
[CARBONDATA-2051] Added like query ends with and contains with filter push down suport to carbondata

Problem
Current like filter with start with expression is only pushed down to carbondata. In case of ends with and contains like filter all the data is given back to spark and then spark applies the filter on it.
This behavior is fine for the queries which has lesser number of queried columns. But as the number of columns and data increases there is performance impact because the data being sent to spark becomes more thereby increasing the IO.
If like filter is push down then first filter column is read and blocks are pruned. In this cases the data returned to the spark is after applying the filter and only blocklets matching the data are fully read. This reduces IO and increases the query performance.

Solution
Modify code to push down like query with ends and contains with filter

This closes #1830

12 months ago[CARBONDATA-2039] Add relative blocklet id during initialization in the blocklet...
manishgupta88 [Fri, 12 Jan 2018 12:58:56 +0000 (18:28 +0530)] 
[CARBONDATA-2039] Add relative blocklet id during initialization in the blocklet data map

Problem
Currently while loading the blocklets in data map all the blocklets are stored in the unsafe manager on array indexes for all the blocklets in one segment. So lets say if 1 segment has 7 task and each task has 10 part files with 3 blocklets each, total number of blocklets in the segment would be 210. Unsafe store will store all these blocklets in one array with start index as 0 and end index as 210.
Due to this while filling the blocklet information the blocklet id taken is the array index which can be any number from 0 to 210. This is leading to loss in actual mapping of blocklet with respect to carbondata file.

Solution
Add the relative blocklet id during loading of blocklets in the unsafe store (relative blocklet id is the id of blocklet in the carbondata file)

This closes #1796

12 months ago[CARBONDATA-2020][Old Store Support] Add filter support for old store reading to...
manishgupta88 [Wed, 17 Jan 2018 05:57:09 +0000 (11:27 +0530)] 
[CARBONDATA-2020][Old Store Support] Add filter support for old store reading to improve query performance

Problem
For old stores blocklet level min/max comparison was not happening in the executor side due to which all the blocklets were getting scanned. This increased the IO and scanning time in the executor.

Solution
Modified code to retrieve the min/max value from blocklet node and use it for comparsion while scanning for valid blocklets.

This closes #1818

12 months ago[CARBONDATA-2047] Clean up temp folder after task completion in case of partitioning
ravipesala [Wed, 17 Jan 2018 02:58:31 +0000 (08:28 +0530)] 
[CARBONDATA-2047] Clean up temp folder after task completion in case of partitioning

This closes #1815

12 months ago[CARBONDATA-2037]Store carbondata locations in datamap to make the datamap retrieval...
ravipesala [Tue, 16 Jan 2018 08:07:50 +0000 (13:37 +0530)] 
[CARBONDATA-2037]Store carbondata locations in datamap to make the datamap retrieval faster

Currently carbondata locations are getting from namenode for each query and that makes queries slower. So this PR stores the block locations while loading
datamap and retrieves from it.
1. Store carbondata locations in datamap to make the datamap retrieval faster.
2. Add method to convert unsafe to safe to avoid multiple calculations.

This closes #1810

12 months ago[CARBONDATA-2050] Add example of query data with specified segments
chenliang613 [Thu, 18 Jan 2018 07:50:23 +0000 (15:50 +0800)] 
[CARBONDATA-2050] Add example of query data with specified segments

This closes #1829

13 months ago[CARBONDATA-2048] Data delete should be rejected when insert overwrite is in progress
Jacky Li [Thu, 18 Jan 2018 04:03:56 +0000 (12:03 +0800)] 
[CARBONDATA-2048] Data delete should be rejected when insert overwrite is in progress

Add testcase and fix bug: data delete should be rejected when insert overwrite is in progress

This closes #1826

13 months ago[HOTFIX] Ignore one testcase to improve CI stability
Jacky Li [Thu, 18 Jan 2018 07:01:30 +0000 (15:01 +0800)] 
[HOTFIX] Ignore one testcase to improve CI stability

This closes #1827

13 months ago[CARBONDATA-2038][Tests] Use junit assertion in java tests
xuchuanyin [Wed, 17 Jan 2018 02:54:11 +0000 (10:54 +0800)] 
[CARBONDATA-2038][Tests] Use junit assertion in java tests

Java native assertion is affected by JVM parameter -ea/-da. It only works with -ea specified. So we should replace it with Junit assertion which always behaves the same.

This closes #1816

13 months agoFix concurrent testcase random failure
Jacky Li [Mon, 15 Jan 2018 01:49:38 +0000 (09:49 +0800)] 
Fix concurrent testcase random failure

Fix IUDConcurrentTest to run sql concurrently in correct order

This closes #1800

13 months ago[CARBONDATA-2030]avg with Aggregate table for double data type is failed.
BJangir [Mon, 15 Jan 2018 17:05:54 +0000 (22:35 +0530)] 
[CARBONDATA-2030]avg with Aggregate table for double data type is failed.

for avg column , agg table returns sum and count , sum col. data type is based on actual data type of the column but for count col. always LongType .so while doing divide by it is failed in spark layer.Change the return datatype for count also . use the same datatype sum column

This closes #1807

13 months ago[CARBONDATA-2028] Select Query failed with preagg having timeseries and normal agg...
BJangir [Mon, 15 Jan 2018 12:01:44 +0000 (17:31 +0530)] 
[CARBONDATA-2028] Select Query failed with preagg having timeseries and normal agg table together

Select Query failed with preagg having timeseries and normal agg table together Root Cause:- hasTimeSeriesDataMap(CarbonTable carbonTable) in CarbonUtil returns result based on 1st DataMap. Solution:it should iterators all the DataMap and when finds timeseries datamap , then should returns the true.

This closes #1804

13 months ago[CARBONDATA-2031] Fix ArrayIndexOutOfBoundException when filter query is applied...
akashrn5 [Tue, 16 Jan 2018 06:47:53 +0000 (12:17 +0530)] 
[CARBONDATA-2031] Fix ArrayIndexOutOfBoundException when filter query is applied on column where all values are null and column is noinverted index column

Fix ArrayIndexOutOfBoundException when filter query is applied on column where all values are null and column is noinverted index column.when all the values are null in no inverted index column the number of exclude filter keys are null, hence just return the bitset if the exclude filters to be applied are none.

This closes #1809

13 months ago[CARBONDATA-2034]Fixed Query performance issue
kumarvishal [Tue, 16 Jan 2018 09:07:25 +0000 (14:37 +0530)] 
[CARBONDATA-2034]Fixed Query performance issue

Problem: Dictionary loading is taking more time in executor side when number of nodes is high.

Solution: During query no need to load non complex dimension dictionary. Dictionary decoder will take care of loading and decoding the dictionary column

This closes #1811

13 months ago[CARBONDATA-2024][IUD] after update operation empty folder is being created for compa...
rahulforallp [Fri, 12 Jan 2018 13:32:41 +0000 (19:02 +0530)] 
[CARBONDATA-2024][IUD] after update operation empty folder is being created for compacted segments

This closes #1797

13 months ago[CARBONDATA-2009][Documentation] Document Refresh command constraint
Mohammad Arshad [Thu, 11 Jan 2018 01:40:12 +0000 (07:10 +0530)] 
[CARBONDATA-2009][Documentation] Document Refresh command constraint

Refresh command constraint in doc

This closes #1790

13 months ago[CARBONDATA-2026] Fix all issues and testcases when enabling carbon hive metastore
ravipesala [Sun, 14 Jan 2018 13:29:09 +0000 (18:59 +0530)] 
[CARBONDATA-2026] Fix all issues and testcases when enabling carbon hive metastore

This closes #1799

13 months ago[CARBONDATA-2013] executing Alter rename on non-carbon table , gives table can not...
kushalsaha [Tue, 9 Jan 2018 17:11:10 +0000 (22:41 +0530)] 
[CARBONDATA-2013] executing Alter rename on non-carbon table , gives table can not found in database

This closes #1783

13 months ago[CARBONDATA-2015] Restricted maximum length of bytes per column
dhatchayani [Tue, 16 Jan 2018 10:18:32 +0000 (15:48 +0530)] 
[CARBONDATA-2015] Restricted maximum length of bytes per column

Validation for number of bytes for a column is added.

This closes #1813

13 months ago[CARBONDATA-2020] Fix avoid reading of all block information in driver for old stores
ravipesala [Wed, 10 Jan 2018 15:35:48 +0000 (21:05 +0530)] 
[CARBONDATA-2020] Fix avoid reading of all block information in driver for old stores

Problem:
For old stores prior to 1.2 version there is no blocklet information stored in carbonindex file. So the new code needs to read all carbondata files footers inside
the driver to get the blocklet information. That makes the first time queries become slower.
As observed count(*) query was taking 2 swconds on old version and after upgrade it takes very long time.

Solution:
If there is no information blocklet available in carbonindex file then don't read carbondata files footer in driver side. Instead read carbondata files in executor
to get the blocklet information.

This closes #1789

13 months ago[CARBONDATA-2019] Enhancement of merge index compaction feature to support creation...
manishgupta88 [Tue, 9 Jan 2018 15:02:36 +0000 (20:32 +0530)] 
[CARBONDATA-2019] Enhancement of merge index compaction feature to support creation of merge index file on old store where index file does not contain the blocklet info

Enhancement of merge index compaction feature to support creation of merge index file on old store where index file does not contain the blocklet info.
Old store created with carbondata 1.1 version does not contain the blocklet info in the index file. On that store if merge index file is created then blocklet information will not be present in the merge index file and for first time query again carbondata file footer will be read for blocklet information retrieval.
Benefits:

Support merge index file creation on old store
Improve first time query performance.
Note: First time query performance will be improved only if merge index file is created before running the first query

This closes #1782

13 months ago[CARBONDATA-2029] Fixed Pre Aggregate table issue with expression
kumarvishal [Mon, 15 Jan 2018 10:56:36 +0000 (16:26 +0530)] 
[CARBONDATA-2029] Fixed Pre Aggregate table issue with expression

Query with expression is giving wrong result

This closes #1803

13 months ago[CARBONDATA-1973] User Should not Be able to give the duplicate column name in partition
anubhav100 [Mon, 8 Jan 2018 11:06:25 +0000 (16:36 +0530)] 
[CARBONDATA-1973] User Should not Be able to give the duplicate column name in partition

User Should not Be able to give the duplicate column name in partition even if its case sensitive,hive also does the same

This closes #1777

13 months ago[HOTFIX] [CARBONDATA-2027] Fix the Failing Concurrent Test cases for CI
anubhav100 [Mon, 15 Jan 2018 07:06:58 +0000 (12:36 +0530)] 
[HOTFIX] [CARBONDATA-2027] Fix the Failing Concurrent Test cases for CI

This closes #1801

13 months ago[CARBONDATA-2010] Block streaming on main table of preaggregate datamap
QiangCai [Thu, 11 Jan 2018 07:04:22 +0000 (15:04 +0800)] 
[CARBONDATA-2010] Block streaming on main table of preaggregate datamap

If the table has 'preaggregate' DataMap, it doesn't support streaming now

This closes #1791

13 months ago[CARBONDATA-2015] Restricted maximum length of bytes per column
dhatchayani [Wed, 10 Jan 2018 10:59:14 +0000 (16:29 +0530)] 
[CARBONDATA-2015] Restricted maximum length of bytes per column

Validation for number of bytes for a column is added.

We have limited the number of characters per column to 32000. For example, a single unicode character takes 3 bytes. So in this case, if my column has 30,000 unicode characters, then 32000 * 3 exceeds the short range. So, load will fail.

This closes #1785

13 months ago[CARBONDATA-1994] Remove CarbonInputFormat
Jacky Li [Sat, 6 Jan 2018 12:45:24 +0000 (20:45 +0800)] 
[CARBONDATA-1994] Remove CarbonInputFormat

Currently CarbonData is implemented as table level file format, which is read by CarbonTableInputFormat. CarbonInputFormat is obsoleted and it should be not used any more. This PR deleted it. It will be implemented again in CARBONDATA-1995.

This closes #1770